▲GDDR6/6X Combo IP是風華GPU高帶寬的核心技術
今天,我們一起深入探討一下GDDR內存技術在Soc中的重要性和發展歷程,GDDR6/6X接口如何滿足高算力GPU對高帶寬數據交換的需求。
GDDR和GPU的關系
說起GDDR就必須要先講GPU的發展歷史,圖形處理器GPU(Graphics processing unit),作為CPU的協處理器加速卡,早期主要對游戲、視頻、圖像等應用進行加速。
圖像的計算包含了頂點著色、屏幕映射、片元著色、裁剪、三角形遍歷等大量數學運算,GPU在大規模、并發計算上對比CPU有著先天的優勢。
▲ GPU主要實現的算法結構
GPU基于圖形處理的架構上,有成百上千個計算核心,在高性能計算、并行計算、矩陣運算上有巨大優勢,所以在需求的推動下,GPU自然成為了當下人工智能、高性能計算的硬件核心平臺。
▲ 與CPU相比,GPU的多核心計算架構有利于并行矩陣運算
由于GPU的架構有成百上千個運算核心,因此并行計算的流水線數據流,并不適用傳統的CPU+DDR數據訪問模型,相應的GDDR技術也就應運而生。
GDDR顯存技術是主流先進GPU的標配
先進工藝半導體迅猛發展點亮了人工智能、自動駕駛、神經網絡、高性能游戲等五光十色的海量新應用。而GPU作為高性能、高并發的基礎算力平臺,讓黃教主和蘇媽成為這個舞臺最耀眼的雙星!
▲ 英偉達的RTX、titan系列和AMD YES不斷轟炸著大家的想象力天花板!
當所有的高性能GPU都在追求極致算力時,內存數據交換逐漸成了整個SoC的瓶頸,高帶寬高速率的內存交換技術,成為提升GPU運算效率的關鍵要點。
▲ GDDR是GPU系統的核心數據交換技術
在需求的刺激和推動下,GDDR技術得到了飛速發展,DDR5 6.4Gbps/pin還沒大規模鋪開,GDDR早已經迭代到GDDR6X 21Gbps/pin速率了。一般DDR5的位寬為32~64bit,單Chip帶寬為72Gbps,而GDDR6的帶寬則達到嘆為觀止的512Gbps。
▲ GDDR的發展迅速超過了DDR
好馬配好鞍,GDDR是GPU算力提升最重要的技術環節之一,為GPU高性能引擎鋪平了高速賽道。
▲ 法拉利在泥巴里也跑不動!
GDDR主要優勢
1、GDDR和傳統的DDR做對比
常規的DDR系列,是8、16位的預取,array 32~128bit,而GDDR5/6X是16n的預取,實現單個array 256~512bit的大塊內容存取,單次Access granularity 32~64Byte,系統數據寬度能達到384bit,以滿足GPU對高帶寬的需求。
▲ GDDR的結構和速率有利于更大的總線寬度
由于GDDR的顆粒array大,所以同等密度的情況下,列地址CA的寬度更小,如下圖所示:
▲ LPDDR4的列地址為10bit,而GDDDR6X的列地址為6~7bit
以上技術特征表明GDDR的內存單元更大,讀取長度大,數據總線寬,與傳統DDR呈現出不一樣的鮮明特征。
GDDR5~GDDR6X使用管腳170~180 pin,而傳統的LPDDR4需要200個pin,當然比起DDR3 80~90pin還是有顯著增長,但是獲得的帶寬收益更大。
GDDR和DDR則各有千秋。
GDDR在帶寬、核心速率、管腳少的特點在GPU、NPU、AI等高并發計算等應用上有極大優勢。DDR在隨機訪問、突發讀寫延時較小、高密度內存顆粒應用上,搭配CPU仍然更有優勢。
GPU發展一日千里,各種旗艦機層出不窮的同時,GDDR的進步也毫不遜色,甚至大有技高一籌勢頭。
▲ 美光的GDDR顆粒在GPU旗艦機的搭載對比
美光的主要顯存顆粒在各個旗艦GPU上搭配應用,對于超大帶寬的應用,美光在3個維度做出了對比。
▲ 主流GDDR性能比較
GDDR6X已經達到21Gbps/pin速率、1TB/S帶寬,GPU大廠都表示“這么大的帶寬,我要搞多高算力才配用這么大帶寬的GDDR顆粒嘛?”真是GDDR有多大膽,GPU有就有多大產!
美光于2020年9月宣布推出基于GDDR6X內存顆粒的超帶寬解決方案產品,英偉達在高性能旗艦卡GeForce RTX 3090和GeForce RTX 3080 GPU中首次搭載了該顯存顆粒。
GDDR6X與英偉達GeForce RTX 系列GPU的搭配引領了最先進的圖形處理設備,榨干了我們的想象力,也榨干了玩家們錢包!
▲ GeForce RTX 3080 Ti + GDDR6X 12GB顯存顆粒
▲ 醒目的32GB GDDR6X喊著玩家快點打錢!
芯動率先推出商用GDDR6/6X combo IP
為全球智能芯片提供加速服務
作為數據交換基礎的GDDR技術對于智能芯片發展的重要性不言而喻。自動駕駛、人工智能、游戲引擎等產品需求呈現井噴式增長,而與之配套的GDDR6/6X高帶寬接口技術因為太過復雜、工藝先進,在商用IP市場上的選擇并不多。
因此,GDDR6/6x顯存技術的發展需要顆粒廠商,IP技術公司和智能芯片公司共同的推動。
2021年美光和芯動共同開發推出首個硅驗證GDDR6/6X Combo IP,為更多的芯片公司提供了GDDR6/6X的高帶寬核心技術!
美光甚至表示:這個 IP 改變了人工智能的版圖!
芯動科技的GDDR6/6X PHY和Controller IP 基于14納米工藝,應用PAM4信號技術,單pin速率高達 21 Gbps,256 位寬度,系統帶寬超過5Tb/秒,滿足了眾多高帶寬熱門應用,如圖像處理,游戲引擎、信號分析和人工智能等。
▲ 全球首個商用GDDR6/6X Combo IP量產
▲ 21Gbps GDDR6X PAM4 DQ眼圖
▲ GDDR6 WCK眼圖 15GHZ
▲ GDDR6 DQ眼圖5Gbps
芯動科技也成為實現從GDDR5到GDDR6X全覆蓋的IP廠商,GDDR6X這個節點更是成為第一款商用量產IP,為全球廣泛高性能芯片公司提供了重要的接口技術!
GDDR6/6X Combo IP技術解讀
▲ PAM4信號技術框架-有4個相位-單cycle發送2bit信息
▲ QDR技術實現了每個時鐘采集4個信號,滿足PAM4的信號速率要求
▲ GDDR6和GDDR6X的結構對比(請注意時鐘和數據采樣的倍頻關系)
GDDR6X和GDDR6最大不同的地方在于數據通道利用PAM4技術實現4倍的取樣速率,實現21Gbps的單端速度。
▲ GDDR6X-時鐘頻率和PAM4的倍頻關系
主要的技術難點
▲ 低電壓帶來功耗優勢,但是對信號提出苛刻的要求
為了滿足高帶寬要求,GDDR6X將核心頻率設定為2.5GHZ,對比傳統DDR5(400~800MHZ核心頻率),為了實現預取的數據取樣要求,換算2.5G x 16預取 ÷ 2 (PAM4) =20Gbps,于是I/O速率必須大于20Gbps才能完成采樣。
GDDR6/6X的VDDQ電壓1.25/1.35v、速率16~21Gbps高速信號,對內部高速緩存、IO(125~135pins)的設計、走線、封裝都提出了極為挑剔的要求,任何微小的噪音在經過衰減路徑之后,都將導致信號眼圖無法張開。
▲ GDDR6(8Gbps)和GDDR6x PAM4(16Gbps)的DQ眼圖對比
▲ FinFet工藝對IP的設計有著極高的要求
GDDR6/6X IP速率高,電壓幅值低,必須使用先進FinFet工藝,先進工藝的驗證成本高,單次流片要200~300萬美元,設計收斂規則復雜,測試設備和成本高昂,對研發團隊的經驗有極高要求。
芯動提供整套技術打包方案
除了GDDR6/6X Combo PHY+Controller本身,設計企業仍然面臨著復雜的布線、封裝等問題,在量產之前每一個技術點都有風險,對此,芯動提供打包的一站式方案。
芯動提供IP配套的IO走線、封裝設計、PCB板級參考、信號完整性分析等,大大降低了用戶的風險和集成時間,真正一站式將全球領先的GDDR6/6X技術部署到SoC中,實現超大帶寬的內存訪問。
▲ PCB走線參考方案
▲ 信號完整性分析-返回損耗和插入損耗
結語
芯動在先進工藝IP有著大量的量產和驗證經驗,從DDDR5/4/3/2到LPDDR5/4/3/2,以及領先的GDDR5/5X、GDDR6/6X、HBM3、Innolink Chiplet、32/56G Serders等等,芯動率先投入了巨大的研發力量進行量產驗證,為廣泛的高性能SoC提供了高速接口方案,為全球高性能芯片提供加速服務!
▲ HBM3 6.4Gbps高速眼圖
▲ 全球首個GDDR6/6X Combo IP量產
▲32/56G SerDes眼圖(支持PCIE5/SATA/USB3.0/SGMII/MIPI等高速協議)
▲ 風華1號應用Innolink Chiplet,GDDR6/6X 等先進接口IP
這些先進IP在技術層面互相依賴、相互關聯,每一項單獨拿出來在市場上都是獨步領先的技術,更可貴的是以上的實物圖可不是PPT產品,是16年來芯動團隊在CEO敖海先生的帶領下持續投入、專注研發、長期耕耘的收獲,在當下浮躁的資本炒作造芯環境下顯得尤為可貴。
▲ 芯動科技CEO敖海先生
芯動的先進IP技術,一方面引領行業技術創新,塑造半導體企業的全球化長遠發展視野,另一方面滿足高性能芯片的市場需求,助力高端芯片發展,腳踏實地發展創新技術!
▲ 豐富的應用場景
芯動16年來重兵投入全球先進工藝、專注高端IP研發,在高性能計算平臺、多媒體終端&汽車電子平臺、IoT物聯網平臺等應用領域打造了核心優勢,超過200次的流片記錄、逾60億顆授權量產芯片、10億顆以上高端定制SoC量產,默默耕耘、腳踏實地,為賦能高端芯片做出重要貢獻!