电竞比分网-中国电竞赛事及体育赛事平台

分享

從英特爾首款Chiplet設計,看芯片的未來

 山蟹居 2021-09-03

來源:內容由半導體行業(yè)觀察(ID:icbank)編譯自「anandtech」,謝謝。

英特爾在其服務器平臺的競爭中面臨的一個關鍵缺陷是核心數量——其他公司正在通過以下兩種途徑之一實現更多的核心:更小的核心,或連接在一起的單個chiplet。

在 2021 年架構日,英特爾披露了有關其下一代至強可擴展平臺的功能,其中之一是向tiled 架構的轉變。英特爾將通過其快速嵌入式橋接器組合四個 tile/chiplet,從而在更高的內核數下實現更好的 CPU 可擴展性。

作為披露的一部分,英特爾還擴展了其新的高級矩陣擴展 (AMX) 技術、CXL 1.1 支持、DDR5、PCIe 5.0 和加速器接口架構,這些架構將來可能會讓定制 Xeon CPU成為可能。

Sapphire Rapids介紹:

Sapphire Rapids (SPR) 基于Intel 7工藝構建,這將成為英特爾用于 其Eagle Stream 平臺的下一代至強可擴展服務器處理器,使用了我們上周詳細介紹的最新 Golden Cove 處理器內核,Sapphire Rapids 將為英特爾帶來多項關鍵技術:加速引擎、原生半精度 FP16 支持、DDR5、300 系列 Optane DC 持久內存、PCIe 5.0、CXL 1.1、更廣泛、更快的 UPI、其最新的橋接技術 (EMIB)、新的 QoS 和遙測(telemetry)、HBM 以及工作負載專用加速。

Sapphire Rapids 將于 2022 年推出,這將成為英特爾首款利用多芯片架構設計的現代 CPU 產品,該架構旨在通過其嵌入式多芯片互連橋接技術最大限度地減少延遲和最大化帶寬。這個設計將允許集成更多的高性能內核(英特爾尚未透露具體數量),重點是“對其客戶群來說有個很重要的指標,例如節(jié)點性能和數據中心性能”。英特爾將 SPR 稱為“十年來 DC 能力的最大飛躍”。

文章圖片1

PCIe 5.0 則是對上一代 Ice Lake PCIe 4.0 的升級,我們從 DDR4 的 6 個 64 位內存控制器遷移到 DDR5 的 8 個 64 位內存控制器。但更大的改進在于內核、加速器和封裝。

Golden Cove:具有 AMX 和 AIA 的高性能內核

通過在其企業(yè)平臺 Sapphire Rapids 和消費者平臺 Alder Lake 上使用相同的核心設計,我們在 2000 年代初期看到了一些相同的協同效應,當時英特爾做了同樣的事情。關于Alder Lake,這里有一個快速回顧:

文章圖片2

據英特爾稱,與 Cypress Cove 相比,新內核在單線程工作負載中的 IPC 增益將超過 19%,而 Cypress Cove 是英特爾對 Ice Lake 的反向移植。這歸結為一些重大的核心變化,包括:

  • 16B → 32B length decode
  • 4-wide → 6-wide decode
  • 5K → 12K branch targets
  • 2.25K → 4K μop cache
  • 5 → 6 wide allocation
  • 10 → 12 execution ports
  • 352 → 512-entry reorder buffer

任何內核的目標都是更快地處理更多的事情,而最新一代的內核試圖比以前做得更好。英特爾的許多變化都是有道理的。

Alder Lake 的消費者版本核心與 Sapphire Rapids 中的服務器核心之間存在一些差異。最明顯的一個是消費者版本沒有 AVX-512,而 SPR 將啟用它。SPR 每個內核還有一個 2 MB 的私有二級緩存,而消費者版本僅有 1.25 MB。除此之外,我們還討論了高級矩陣擴展 (AMX) 和新的加速器接口架構 (AIA)。

到目前為止,在 Intel 的 CPU 內核中,我們有標量操作(正常)和向量操作(AVX、AVX2、AVX-512)。下一階段是專用矩陣求解器,或者類似于 GPU 中的張量核心。這就是 AMX 所做的,通過以 TMUL 指令的形式添加具有專用 AMX 指令的新可擴展寄存器文件。

文章圖片3

AMX 將 8 個 1024 位寄存器用于基本數據運算( basic data operators),并且通過內存引用(memory references),TMUL 指令將使用這些塊寄存器對數據塊進行操作。TMUL 通過一個內置于內核中的專用引擎協處理器(每個內核有一個)來支持,而 AMX 背后的基礎是 TMUL 只是一個這樣的協處理器。英特爾將 AMX 設計為更廣泛的范圍,而不僅僅是這樣——如果英特爾更深入地實施其多芯片戰(zhàn)略,在某個時候我們可以看到通過 AMX 啟用自定義加速器。

英特爾確認我們不應該看到任何比 AVX 更糟糕的頻率下降——當調用向量和矩陣指令時,每個內核都有新的細粒度電源控制器。

文章圖片4

這非常適合討論新的加速器接口 AIA。通常,在使用附加加速卡時,命令必須在內核空間和用戶空間之間導航( navigate )、設置內存并在多個主機之間引導任何虛擬化。英特爾描述其新加速引擎接口的方式類似于與 PCIe 設備交談,就好像它只是 CPU 板上的加速器,即使它是通過 PCIe 連接的。

文章圖片5

最初,英特爾將擁有兩個功能強大的 AIA 硬件位。

英特爾快速輔助技術 (QAT) 是我們之前見過的一種技術,因為它展示了 Skylake Xeon 芯片組的特殊變體(需要 PCIe 3.0 x16 鏈接)以及附加 PCIe 卡——該版本將支持高達400 Gb/s 對稱加密,或高達 160 Gb/s 壓縮加 160 Gb/s 解壓同時進行,是之前版本的兩倍。

另一個是英特爾的數據流加速器 (DSA)。 自 2019 年以來,英特爾一直在網絡上提供有關 DSA 的文檔,稱它是一種高性能數據復制和轉換加速器,用于通過 DMA 重新映射硬件單元/IOMMU 將數據從存儲和內存或系統的其他部分流式傳輸。DSA 是特定超大規(guī)模客戶的請求,他們希望將其部署在自己的內部云基礎設施中,英特爾熱衷于指出一些客戶將使用 DSA,一些將使用英特爾的新基礎設施處理單元,而一些將使用兩者,取決于他們感興趣的集成或抽象級別。英特爾告訴我們,DSA 是對 Purley (SKL+CLX) 平臺上的 Crystal Beach DMA 引擎的升級。

文章圖片6

最重要的是,Sapphire Rapids 還支持半精度的 AVX512_FP16 指令,主要用于人工智能工作負載,作為其 DLBoost 策略的一部分。除了 INT8 和 BF16 支持外,這些 FP16 命令還可用作 AMX 的一部分。英特爾現在還支持 CLDEMOTE 進行緩存行管理。

關于 CXL 的一個副詞

在 Sapphire Rapids 的演示中,英特爾一直熱衷于強調它將在發(fā)布時支持 CXL 1.1。CXL 是一種連接標準,旨在處理比 PCIe 做的更多的事情——除了簡單地作為從主機到設備的數據傳輸之外,CXL 還支持三個分支,稱為 IO、緩存和內存。正如 CXL 1.0 和 1.1 標準中定義的那樣,這三個標準構成了連接主機與設備的新方法的基礎。
文章圖片7

當然,我們期望所有 CXL 1.1 設備都支持所有這三個標準。直到幾天后的 Hot Chips,我們才了解到 Sapphire Rapids 僅支持部分 CXL 標準,特別是 CXL.io 和 CXL.cache,但 CXL.memory 不會成為 SPR 的一部分。我們不確定這在多大程度上意味著 SPR 不符合 CXL 1.1,或者這對 CXL 1.1 設備意味著什么——沒有 CXL.mem,如上圖所示,英特爾失去的只是 Type-2 支持。也許這更多地表明 CXL 2.0 更好地服務于 CXL 周圍的市場,這無疑會出現在以后的產品中。

接下來,我們將了解英特爾針對 Sapphire Rapids 的全新tiled架構。

向更多的硅前進:連接性很重要

迄今為止,英特爾所有領先的至強可擴展處理器都是單片的,即一塊硅。擁有單片硅有其優(yōu)勢,即內核之間的快速硅內互連,以及需要管理的單一電源接口。
然而,隨著我們轉向越來越小的工藝節(jié)點,擁有一大塊硅也有缺點:它們很難在沒有缺陷的情況下批量制造,如果您想要高核數版本,就會增加成本,且最終這會受到限制。

文章圖片8

大型單片設計的替代方案是將其切成更小的硅片并將它們連接在一起。這里的主要優(yōu)點是更好的硅產量,而且還可以根據需要為不同的功能使用不同的硅進行配置。

使用多芯片設計,您最終會得到比單片設計所能提供的更多的硅——單個硅芯片的掩模版(制造)限制為 ~700-800mm2,而多芯片處理器則要小幾個硅芯片可以放在一起,輕松推動超過1000mm2。英特爾表示,其每塊硅片約為400mm2,總面積約為1600mm2。但多芯片設計面臨的主要挑戰(zhàn)是連接性和功耗。

將兩個芯片封裝在一個基板中的最簡單方法是通過基板內連接,或者本質上相當于 PCB 走線。這是一個高良率的做法,但它有上面列出的兩個缺點:連接性和功耗。與通過硅連接相比,通過 PCB 連接發(fā)送一點需要更多的功耗,但帶寬也低得多,因為信號不能密集打包。因此,如果沒有仔細規(guī)劃,多芯片連接產品在任何時候都必須知道數據有多遠,這是單片產品很少有的問題。

解決這個問題的方法是使用更快的內部互連。與其將這種連接性通過基板、封裝,還不如通過硅來實現?通過將這些連接的裸片放置在一塊硅片上,例如中介層,連接走線具有更好的信號完整性和更好的功率。使用中介層,這通常稱為 2.5D 封裝。它的成本比標準封裝技術高一點(也有帶邏輯的有源中介層的空間),但我們還有另一個限制,即中介層必須大于所有硅片的總和。但總的來說,這是一個更好的選擇,特別是如果您希望您的多芯片產品表現得像整體一樣。

文章圖片9

英特爾認為,要克服中介層的缺點但仍能從有效的單片硅設計中獲益,最好的方法是創(chuàng)建位于基板內部的超小型中介層。通過將它們預先嵌入到正確的位置,使用正確的封裝工具,兩個芯片可以放置在這個小型嵌入式多芯片互連橋 (EMIB) 上,瞧,這是一個在物理上盡可能接近單片設計的系統.

英特爾致力于 EMIB 技術已超過十年。從我們的角度來看,該發(fā)展具有三個主要里程碑:(1) 能夠以高良率將橋嵌入到封裝中;(2) 能夠以高良率將大硅片放置在橋上;(3)能夠將兩個大功率骰子并排放置在橋上。我認為英特爾最難解決的就是第三部分——將兩個大功率die并排放置,特別是如果芯片具有不同的熱膨脹系數和不同的熱特性,則有可能削弱基板圍繞橋或與橋本身的連接。

到目前為止,幾乎所有使用 EMIB 的英特爾產品都圍繞著將 CPU/GPU 連接到高帶寬內存,這比它所連接的功耗低一個數量級。正因為如此,我不相信將兩個高性能tile放在一起是可能的,直到英特爾在2019年末用EMIB將兩個高性能 FPGA tile連接成多芯片 FPGA。從那時起,英特爾在其 CPU 產品堆棧上啟用該技術僅,我們也終于在 Sapphire Rapids 上看到了這一點。

Sapphire Rapids 上的 10x EMIB

Sapphire Rapids 將使用通過 55 微米連接間距通過 10 個 EMIB 連接連接的四個tiles。通常你可能認為 2x2 的tiels陣列中,每個tile到tile連接可能需要相等的 EMIB,所以在這種情況下,每個連接有 2 個 EMIB,那就是 8 個。但為什么英特爾在這里引用 了10 個?這就要從 Sapphire Rapids 的設計方式談起。

由于英特爾希望 SPR 對每個操作系統來說都是單一的,因此英特爾基本上已經在水平和垂直方向上削減了其內核間網格。這樣,通過 EMIB 的每個連接都被視為網格上的下一步。但是英特爾的單片設計在這兩個維度上都不是對稱的——通常像 PCIe 或 QPI 這樣的特性在邊緣,而不是在每個角落的同一個地方。Intel 告訴我們,在 Sapphire Rapids 中,情況也是如此,一個維度每個連接使用 3 個 EMIB,而另一個維度每個連接使用 2 個 EMIB。

文章圖片10

通過在其設計中避免嚴格的旋轉對稱,并且沒有中央 IO 集線器,英特爾非常傾向于把這個產品看作單片芯片 。只要tile之間的 EMIB 連接是一致的,軟件就不必擔心,盡管在我們在這里獲得更多詳細信息之前,如果不經過試圖弄清楚英特爾的網格設計以及額外零件都連接在一起。如果有意義的話,SPR 聽起來像是一個單片設計,而不是一個全新的多芯片設計。

英特爾今年早些時候宣布,它將使用四個 HBM tiles制作 HBM 版本的 Sapphire Rapids。這些也將通過 EMIB 連接,每個tile都有一個EMIB。

全都有關Tiles

英特爾確實深入解讀了每個單獨的Tile內部究竟有什么:

文章圖片11

據介紹,在每個tile中有:

  • 核心、緩存和網格
  • 具有 2x64 位 DDR5 通道的內存控制器
  • UPI 鏈接
  • 加速器鏈接
  • PCIe 鏈路

在這種情況下,在整個演示文稿中,看起來所有四個tile都是相當的,并且具有我上面提到的旋轉對稱性。以所呈現的方式制造具有此功能的硅并不像將設計鏡像并將其打印到硅晶圓上那么容易。硅片的晶面限制了設計的構建方式,因此任何鏡像都必須完全重新設計。因此,英特爾確認它必須使用兩組不同的掩膜來構建 Sapphire Rapids,每組一個用于它必須制造的兩個die。然后它可以旋轉這兩個模具中的每一個以構建 2x2 tile網格,如圖所示。

我們認為,值得將英特爾的設計與 AMD 的第一代 EPYC 進行比較。后者也使用 2x2 的小芯片設計,盡管通過封裝進行連接。AMD 通過旋轉對稱避免了對多個硅片設計的需求——AMD 在硅片上構建了四個die到die接口,但每次旋轉只使用三個。這是一種以芯片面積為代價的更便宜的解決方案(并且適合當時 AMD 的財務狀況),但也實現了一定程度的簡單性。AMD 在較新的 EPYC 中的中央 IO 芯片方法完全擺脫了這個問題。從我的角度來看,如果英特爾想要擴展到 SPR 之外,但出于不同的原因,他們將不得不朝著這個方向發(fā)展。

就目前而言,每個tile都擁有 128 位的 DDR5 內存接口,所有四個tile共有 512 位。從物理上講,這意味著我們將看到系統中每個插槽有 8 個或 16 個內存模塊的 8 個 64 位內存控制器(從技術上講,DDR5 在單個模塊上放置了兩個 32 位通道,但目前業(yè)界還沒有一個術語來區(qū)分具有一個 64 位內存通道的模塊與具有兩個 32 位內存通道的模塊在上面。迄今為止,“通道”一詞經常與“內存插槽”互換,但這必須改變)。對于具有所有四個計算塊的 Sapphire Rapids 版本來說,這完全沒問題。

添加一些 HBM和Optane

了解Sapphire Rapids 的另一個角度是他們提供了搭載 HBM 的版本。英特爾在 6 月份宣布了這一消息,但沒有太多細節(jié)。作為架構日的一部分,英特爾表示 Sapphire Rapids 的 HBM 版本也公開,并與標準 Sapphire Rapids 兼容。SPR HBM 版本的第一個客戶是阿貢國家實驗室,作為其 Aurora Exascale 超級計算機的一部分。

文章圖片12

該圖展示了四個 HBM 連接,每個計算塊一個。然而,從封裝來看,我認為實際上沒有足夠的空間,除非英特爾委托了一些如圖所示又長又窄的新型 HBM。

文章圖片13

盡管英特爾表示 HBM 變體將在同一個插槽中,但即使他們自己來自 Hot Chips 的幻燈片也表示不同。


此處 HBM 的封裝尺寸為 100x57mm,而 SPR 為 78x57mm。因此,除非英特爾計劃為 78x57mm 插槽提供縮小版本,否則它將位于不同的插槽中。

重要的是要注意,HBM 將在與 Optane 類似的容量中發(fā)揮作用——要么作為 HBM 平面(flat)模式,DRAM 等同于兩者,要么作為 HBM 緩存(caching )模式,在訪問主內存之前類似于 L4 緩存。在此之上的 Optane 也可以處于平面模式、緩存模式或作為單獨的存儲卷。

HBM 會增加封裝的功耗,這意味著如果 HBM 超過插槽限制,我們不太可能看到與 HBM 配對的最佳 CPU 頻率。英特爾尚未宣布 SPR 將使用多少 HBM 堆?;蛉萘浚硎舅鼈儗⑽挥谏崞飨路?。如果英特爾打算采用非標準 HBM 尺寸,那么任何人都可以猜測容量是多少。但我們確實知道它將通過 EMIB 連接到tile。

關于 Optane DC 持久性內存的旁注 – Sapphire Rapids 將支持新的 300 系列 Optane 設計。我們問英特爾這是否是 200 系列但使用 DDR5 控制器,并被告知不是,這實際上是一種新設計。更多細節(jié)敬請關注。

UPI 鏈接

每個 Sapphire Rapids 處理器將有多達四個 x24 UPI 2.0 鏈接,以連接到多插槽設計中的其他處理器。借助 SPR,英特爾的目標是多達 8 個插槽平臺,并且為了增加帶寬已從 ICL 中的三個鏈接升級到四個(從技術上講,CLX 為 2x3),并轉向 UPI 2.0 設計。英特爾不會詳細說明這意味著什么,但是他們將擁有新的八插槽 UPI 拓撲。

文章圖片14
當前的英特爾超立方體

當前的八插槽設計使用雙絞超立方體拓撲(twisted hypercube topology):兩組四個組成一個盒子,一對連接到另一組四個的同一頂點,而第二對則相反。
本質上,每個 CPU 都直接連接到其他三個 CPU,而另外四個 CPU 相距兩跳(wo hops away)。使用新的拓撲結構,每個 CPU 都可以直接連接到另一個 CPU,這使設計更趨向于完全連接的拓撲結構,但具體應該連接到哪個 CPU,英特爾尚未說明。

安全

英特爾表示將在稍后宣布 SPR 的完整安全更新,但 MKTME 和 SGX 等功能是關鍵優(yōu)先事項。

結論

對我來說,改進的內核、升級的 PCIe/DDR 和“作為單體出現”的方法是迄今為止的亮點。然而,仍有一些非常明顯的問題需要回答——核心數量、功耗、更低的核心數量如何工作(甚至建議 LCC 版本實際上是單片的),以及啟用 HBM 的版本會是什么樣子。HBM 版本增加了 EMIB,成本會很高,這在 AMD 的定價結構非常有競爭力的時候并不好。

預計當 Sapphire Rapids 發(fā)布時,AMD 仍將與 Milan 一起進入市場(或者像一些人推測的那樣,Milan 的 3D V-Cache 版本,但沒有得到證實),并且要到 2022 年底當 AMD 推出 Zen 4 時。如果英特爾能夠執(zhí)行并將 SPR 推向市場,它將在吸引潛在客戶方面具有很小的時間優(yōu)勢。Ice Lake 的賣點在于其特定的加速器優(yōu)勢,而不是原始核心性能,我們將不得不拭目以待 Sapphire Rapids 能否帶來更多優(yōu)勢。

多年來,人們一直期待英特爾轉向企業(yè)中的 tile/chiplet 戰(zhàn)略——至少在圍欄的這一邊,自從 AMD 讓它工作并超越標準硅限制后,無論采用何種粘合劑,并將其用在硅片之間,英特爾就不得不走這條路。它已被推遲,主要是由于制造以及優(yōu)化 EMIB 之類的東西,這也需要時間。EMIB 作為一項技術確實令人印象深刻,但是您放在一起的芯片和橋接器越多,即使您有 99% 的成功率,這也會降低良率。但這正是英特爾一直在努力的方向,對于企業(yè)市場,Sapphire Rapids 是第一步。

但是,我們知道 Sapphire Rapids 處理器產品將不得不縮減到更少的內核。過去,英特爾會創(chuàng)建三種不同的硅單片變體來迎合這些市場并優(yōu)化硅輸出,但所有處理器都將具有相同的內存控制器數量。

這意味著,如果 SPR 將提供具有更少內核的版本,它將創(chuàng)建沒有任何內核的虛擬塊,但仍然根據需要保留 PCIe/DDR5,或者很簡單,那些較低的內核數量將減少內存控制器。對于想要構建包羅萬象的系統的系統制造商來說,這將是一個痛苦,因為他們將不得不為兩個極端進行構建。

另一種選擇是英特爾擁有單片版本的 SPR,具有所有 8 個內存通道,用于較低內核數的設計。但此時,英特爾尚未透露將如何迎合這些市場。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多