異構計算平臺是非常熱的話題,那為什么要構建異構計算平臺以及如何來構建異構計算平臺呢?
8月17日,在AspenCore旗下《EDN電子技術設計》、《EET電子工程專輯》和《ESM國際電子商情》三大媒體共同舉辦的“2022國際集成電路展覽會暨研討會(IIC)”南京站的“2022中國IC領袖峰會”上,安謀科技智能物聯及汽車業務線負責人趙永超帶來了“立足產業創新,構建多元化異構計算平臺”主題演講。
趙永超表示,現在的技術發展越來越快,飛速發展的技術給我們的生活帶來了非常大的便利性和高效性,同時飛速增長的技術也帶來了非常大的技術成本的增加以及軟件復雜度的增加。以汽車為例,如果是一輛量產的燃油車,它的技術成本大概在2000美元左右,其中軟件大概占10%;混動的汽車技術成本大概在1.5萬美元,其中軟件成本在20%。未來,L5級別的自動駕駛汽車,它的技術成本則將達到將近4萬美元,其中軟件部分占50%。這樣,技術成本及軟件成本就將有非常大的提升,也就是說,技術的成本以及軟件將會越來越重要,而且影響到了系統以及硬件的設計。
現在在服務器市場基本都提到了軟件定義硬件,其中的容器技術、虛擬化技術、微服務技術,帶來了現在軟件定義計算、軟件定義網絡、軟件定義存儲等,所有這些都是軟件定義硬件帶來的趨勢。“未來軟件定義不僅僅會從云,而且會發展到邊緣,發展到端,其中一些關鍵技術,像功能安全的技術、時延技術、通信質量的技術,所有這些技術會使我們需要用軟件去定義汽車、軟件定義邊緣、軟件定義智能攝像頭、軟件定義IoT,所以軟件帶來的影響會影響到系統以及硬件設計。”趙永超談到。
場景化的軟件提升了系統的碎片化以及復雜度。“其中交互性以及沉浸式體驗讓我們在硬件上不僅僅是GPU的任務?,F在人工智能技術體現在各種應用中,不會一直是特殊化的技術,那么相應的安全技術和隱私管理也會帶來硬件上相應技術的復雜度。對于我們來講,要思考的就是不僅僅從IP角度來解決這樣一個系統問題,更多要從場景化的角度來解決系統的性能功耗面積(PPA)的問題。”趙永超指出。
但是場景化又非常的碎片化,有各種各樣的場景需要我們思考,例如拍照優化的過程。這其中需要把原始圖片最終進行虛化、超分,顯示出我們關心的一部分高質量的圖片。這其中需要用RGB圖像深度摳圖,做背景虛化,做超分處理。這背后的硬件上涉及到CPU和ISP協同,涉及到GPU和NPU的協同,整個過程涉及到了SOC中各個異構計算的協同和配合。
對于越來越多復雜的碎片化的場景,怎么去滿足這樣一個硬件上的需求呢?“我們需要評估真實的需求。通常來講,評估的時候考慮如何去評估性能的需求。當我們用手機打開一個游戲的時候,我們希望它能夠非??焖俚膯?,這也就是我們對峰值性能有需求。同時,我們也希望手機不能夠每時每刻或者非常頻繁地去充電,這就是我們需要有持續性能的要求?,F在在手機上面有各種各樣多線程的應用在運行,所有這些都提升了場景化的復雜度。”趙永超介紹說。
那么,是否能夠用Benchmark去設計我們的產品和系統呢?趙永超認為:“非常通用的Benchmark是無法代表真實場景的。舉個例子,我們現在在做自動駕駛場景的分析,進而設計我們的系統,優化我們的軟件,但是我們能用一個賽道上簡單的幾輛車在運行的場景,看哪個車開得快就認為是真實的性能需求嗎?顯然不是這樣。如果是一個真實的場景,就像城市里的交通一樣,有交通指示、有人、有各種各樣的物體、各種交互,真實的場景一定是非常復雜、交互更多的場景。所以,一個簡單的Benchmark是無法代表真實場景進行系統設計的。”
因此,就需要進行真實系統性能的評估。“對于安謀科技來講,也需要思考不僅僅是從IP角度給我們的合作伙伴帶來好處,更多的是怎么從真實場景上去把IP和IP的組合,把一個系統級給到客戶而帶來更多的好處。那么我們的IP需要通過軟件,通過組合,給客戶帶來更好的性能,有了更好的Benchmark。那么我們開發的軟件、物理庫的產品就能夠幫助客戶產品達到最優化的面積以及最好的功耗。”趙永超指出。
安謀科技在此提出了基于場景的分析辦法,這也是基于Arm的分析方法。安謀科技認為,需要將客戶關心的關鍵場景進行分析。“這其中有幾個典型的應用,包括游戲、智能攝像頭、編碼、安全應用,我們根據關鍵的應用場景進行分類和提取,可以分化出CPU的工作量,GPU的工作量,NPU、VPU等異構核心的工作。我們有一個非常豐富的生態,可以從客戶芯片中,從FPGA當中,軟件棧中提取工作量的評估,進而得到性能模型和功耗模型進行進一步分析,通過對帶寬、對功耗、對性能的分析達到最優化的系統設計,最終可以在RTL級別進行仿真,對前面做的評估進行優化。”趙永超介紹說。
游戲,智能攝像頭等典型的場景,都會用到很多復雜的異構模型。對于游戲場景,我們可能想到的是GPU場景,其實在評估游戲Benchmark的時候,還會有更多的復雜度需要我們去思考,比如在游戲里希望有更好的光照、更好的光影效果,包括最新的光線追蹤技術,在后處理的時候需要有更多后處理的效果,希望游戲場景復雜度越真實越好,同時需要它有可靠的性能,比如現在游戲都能達到120fps的幀率。
據介紹,通過Total Compute對系統級異構進行分析,用安謀科技的工具進行圖像后處理分析,就可以分化出GPU和NPU工作量,包括光影效果。對于3D重構也可以計算出對CPU、GPU的工作量。還有ACL工具來評估各項,包括GPU、NPU,帶寬延時的分析。
“我們進行場景分析不是我們閉門造車自己做這樣的系統,我們是跟客戶一起,通過Total Compute來做場景分析,優化我們的系統,為我們的客戶定制更好的解決方案,更能夠滿足復雜場景的技術方案。”趙永超指出,“在前期定義出客戶關心的復雜場景,能夠通過我們的軟件工作對任務進行分析,包括搭建類似于IP精確模型的性能模型,可以通過全系統的性能模型去分析系統的工作量,客戶的場景,通過系統分析,能夠得到所需要的系統架構,得到整體的系統性能。在這個基礎上可以提供SoC級別的Reference System,進一步跑系統,可以在FPGA上面重復認證剛才的真實場景,這樣可以達到最優化的系統級的設計。”
Arm平臺包含開發工具,包括分析工具以及一個非常強大軟件生態,可以提供各種各樣相關的驅動、軟件和分析工具。“我們有自己的物理庫的產品,可以為CPU、GPU定制最優的PPA物理實現所需要的基礎單元。我們有非常優秀的計算IP以及在行業里面引領相關的標準。所有這些,我們希望能夠提供給客戶最優的性能,滿足客戶真實的應用場景的設計。”趙永超說。
整個異構計算有CPU和GPU,安謀科技已經完成完整異構計算IP核心矩陣?;?nbsp;Total Compute,安謀科技有CPU產品線、安全產品線、物理庫產品線、NPU產品線,以及形成了星辰系列、山海系列、周易系列和玲瓏系列產品。安謀科技和Arm產品形成了完整的Total Compute異構核心計算的矩陣。
趙永超表示,Total Compute方法的提出,是能夠跟客戶一起真正的結合客戶的應用分析出真實的需求,定義出真實有效高效的應用場景的系統設計和芯片設計。“Total Compute方案也得到了中國合作伙伴的深度參與,舉個例子,就是騰訊游戲和我們一起通過Total Compute分析來提升騰訊游戲的游戲開發引擎。其中一項成果就是在內存帶寬上面節省了30%。通過30%帶寬的節省,其實對提升性能以及對減少功耗,以及對芯片的成本都是有非常大的提升。同時,騰訊游戲也大大增強了他們的游戲引擎的效果,”趙永超說。
“安謀科技希望和客戶一起成功。我們有一個完整的軟件生態,有很多開源的軟件,希望有一個完整的生態,使我們客戶的產品更快的上市。Arm在做產品、做IP,都是以最高的標準來開發,能夠滿足市場上真正需求的特性來進行設計,能夠給客戶帶來最大化的好處優勢。同時,我們產品的成熟度以及軟件應用,可以讓客戶更快的開發他們的產品,減少他們上市的風險。”
Arm生態已經是世界上最大的計算生態,目前全球大概有70%的人口都在使用Arm技術,有超過530多個客戶在設計Arm相關的SoC和相關產品。Arm截止到現在的出貨量已經超過了2300億,在2021財年出貨量就超過了290億。“我們希望通過Arm生態助力中國的IC產業,我們也歡迎越來越多的合作伙伴加入到Arm生態。”趙永超總結道。