邁入人工智能 (AI) 時代,系統(tǒng)性能越來越多地受到功耗、散熱、內存帶寬和數(shù)據(jù)傳輸?shù)榷嘀匾蛩刂萍s,而且影響所有計算場景,從千兆瓦級超大規(guī)模數(shù)據(jù)中心到毫瓦級邊緣設備,無一例外。
正如Futurum 的報告《Arm 處于 AI 和數(shù)據(jù)中心變革的中心》中所述:“AI 并非單一工作負載,也不存在單一理想化的基礎設施。相反,AI 是一系列工作負載的集合,需要一套連貫的策略,兼顧成本效益與性能,滿足多樣化需求?!?/p>
代理式 AI 的興起,進一步催生了上述需求。此類模型不再僅對單條提示詞做出響應,而是以多個自主智能體的協(xié)作運行,完成規(guī)劃、推理并執(zhí)行各類任務。與孤立的推理調用不同,代理式 AI 系統(tǒng)會生成持續(xù)的工作流,涉及內存檢索、工具調用、跨模型與跨服務協(xié)同調度,對算力、內存帶寬和系統(tǒng)編排提出源源不斷的要求。
在這一趨勢的影響下,計算基礎設施的設計思路正在發(fā)生根本性轉變。AI 系統(tǒng)不再是各種芯片的簡單堆砌,而是形成一體化的整體,CPU、加速器、內存與網絡組件全都協(xié)同運行。由此,系統(tǒng)級智能如今已成為決定芯片性能、能效與可擴展性的重中之重。
追求可持續(xù)的系統(tǒng)級表現(xiàn),而非不計成本的極致性能
在現(xiàn)代 AI 數(shù)據(jù)中心的建設中,客戶不再單純選購“最強 CPU”或“最快加速器”,而是著重于優(yōu)化機架能效,重點關注每瓦性能,尤其看重在持續(xù)、真實工作負載下的表現(xiàn),而非短時峰值跑分成績。如今單個機架的設計功耗可達 50kW 至 300kW 以上,因此不得不從整體層面進行權衡,單芯片“極限”性能指標的重要性因此下降。
系統(tǒng)平衡變得更為關鍵:
在各個計算組件之間高效傳輸數(shù)據(jù);
在機架層面實現(xiàn)每瓦功耗產生更多有效算力;
讓 CPU、GPU、NPU、內存池與互聯(lián)架構協(xié)同一致、整體運行。
Futurum 報告也指出,行業(yè)關注點已從:“能堆多少原始算力”轉向“如何在系統(tǒng)層面,針對多樣化的需求與環(huán)境,更加智能地編排算力?”
這一轉變重構了芯片的定位。加速器決定了原始算力吞吐能力,而系統(tǒng)編排(涵蓋任務調度、內存管理、安全管控與數(shù)據(jù)傳輸)則決定了這種吞吐能否在大規(guī)模下持續(xù)。若缺少高效的系統(tǒng)編排,從機架層面,受制于內存、網絡或控制面瓶頸,即便最強大的加速器也可能陷入閑置狀態(tài),無法充分發(fā)揮性能。
在代理式 AI 工作負載場景中,這種現(xiàn)象會愈發(fā)明顯。數(shù)百萬軟件智能體并發(fā)運行,查詢數(shù)據(jù)、調用工具、生成輸出、跨服務協(xié)同,算力需求從“突發(fā)式”供給,轉變?yōu)榻Y構性持續(xù)供給。為此,基礎設施必須能夠支撐持續(xù)不間斷的系統(tǒng)編排與數(shù)據(jù)傳輸,而非僅滿足模型的瞬時峰值吞吐需求。
CPU 在 AI 時代的重要性愈發(fā)凸顯
隨著 AI 模型、工作負載與部署環(huán)境的多樣化發(fā)展,CPU 正越來越多地充當 AI 的頭節(jié)點,即系統(tǒng)的控制中樞,負責對整個系統(tǒng)進行協(xié)調與編排。
在大規(guī)模 AI 平臺中,CPU 主要負責:
在各種異構加速器之間分派與調度任務;
為各類工作負載管理內存一致性、數(shù)據(jù)本地化與主機內存卸載,例如 KV 緩存和向量數(shù)據(jù)庫;
處理純矩陣運算之外的數(shù)據(jù)預處理與后處理任務;
在整個系統(tǒng)范圍內執(zhí)行控制平面操作、安全防護與資源隔離。
簡而言之,加速器負責執(zhí)行驅動 AI 模型的運算,而 CPU 則是將算力轉化為可靠、可擴展、具備實際應用價值的核心。
CPU 的重要性已得到行業(yè)頭部企業(yè)的驗證和認可。在彭博社的一次采訪中,NVIDIA 創(chuàng)始人兼 CEO 黃仁勛證實,全新 Vera Rubin 平臺所搭載的基于 Arm 架構的 Vera CPU 將作為獨立產品推出。此舉清楚表明,CPU 在 AI 系統(tǒng)設計中的重要性正與日俱增。
此外,隨著 AI 基礎設施日益多元化,CPU 架構憑借靈活性、高能效和系統(tǒng)協(xié)同能力,價值和重要性將大幅提升。Arm 的優(yōu)勢也由此顯現(xiàn)。Futurum 的研究報告明確指出:“GPU 和 TPU 等專用加速器通常會與基于 Arm 架構的 CPU 搭配使用,以承擔通用控制與數(shù)據(jù)管理任務,同時有效避免高昂的成本與功耗開銷?!?/p>
Arm 引領系統(tǒng)級基礎設施的發(fā)展
Arm 計算架構的優(yōu)勢體現(xiàn)在性能、能效、可擴展性與龐大的生態(tài)系統(tǒng)上,能夠幫助系統(tǒng)架構師在日新月異的 AI 領域更好地管控風險,而且精準匹配新一代機架級 AI 系統(tǒng)的需求。
以上優(yōu)勢已在頭部超大規(guī)模云服務提供商的實踐中得到驗證:
亞馬遜云科技將基于 Arm 架構的 Graviton CPU 與 Nitro DPU 及 Trainium 加速器相結合,優(yōu)化機架級能效;
Google 基于 TPU 的系統(tǒng)正越來越多地搭配集成 Arm CPU 核心的 Google Axion 處理器,承擔編排與控制任務;
NVIDIA 的 Grace、Grace-Hopper 和即將推出的 Vera 平臺,均將 GPU 與基于 Arm 架構的 CPU,以及 DPU 配對,打造高度集成化的 AI 系統(tǒng)。
Arm 計算平臺正作為系統(tǒng)基石,將加速器、內存與網絡組件整合到一起,構成協(xié)同統(tǒng)一、高能效的整體系統(tǒng)。
AI 正邁向以推理為先的發(fā)展階段
盡管模型訓練常常占據(jù)新聞頭條,但推理才是 AI 實現(xiàn)規(guī)?;暮诵?。代理式 AI 的興起進一步提升了推理的重要性,因為智能體需要持續(xù)運行,執(zhí)行一連串推理操作,而非單次調用模型。
從眾多路線圖來看,未來十年內推理工作負載將超越訓練工作負載,而推理對系統(tǒng)的要求,與訓練截然不同,主要體現(xiàn)在:
需要更低的延遲;
對內存帶寬更為敏感;
需要持續(xù)不間斷運行;
功耗與散熱限制嚴格。
上述要求不僅針對數(shù)據(jù)中心,同樣適用于邊緣側場景,包括我們日常生活中的消費電子設備與物聯(lián)網系統(tǒng)。與云端一樣,邊緣計算同樣遵循相同的系統(tǒng)級設計原則:
性能由加速能力與系統(tǒng)間的數(shù)據(jù)傳輸效率共同決定;
安全防護依賴系統(tǒng)級協(xié)同,實現(xiàn)跨工作負載與內存間的全域防護;
集成速度直接影響產品上市時間。
在邊緣 AI 系統(tǒng)中,如果加速器與內存、互聯(lián)沒有緊密耦合,系統(tǒng)就會迅速陷入帶寬、功耗及軟件復雜度等多重瓶頸。只有將 CPU 加速、內存與互聯(lián)進行深度集成,才能提供更穩(wěn)定的性能、更高效的擴展能力,也更利于開發(fā)者使用。
Futurum 的報告指出:“以往需要依托云端完成的任務,如今可借助 Arm 高能效核心與集成的 AI 引擎在本地實現(xiàn)?!?/p>
規(guī)?;到y(tǒng)設計
隨著系統(tǒng)復雜度不斷攀升,集成與驗證環(huán)節(jié)(而非晶體管設計)正成為成本與風險的主要來源。因此,行業(yè)開始轉向采用預集成的計算子系統(tǒng)和標準化系統(tǒng)接口。
在此行業(yè)趨勢下,Arm 計算子系統(tǒng) (Compute Subsystems, CSS)應運而生,市場需求持續(xù)增長。CSS 提供經過預先驗證的子系統(tǒng),為定制化系統(tǒng)設計提供了明確路徑,在降低集成風險的同時,助力合作伙伴實現(xiàn)產品差異化。CSS 不再僅提供獨立的 IP 模塊,而是提供預先驗證的系統(tǒng)設計方案,涵蓋 CPU、互聯(lián)、一致性協(xié)議與內存管理機制,實現(xiàn)各組件原生協(xié)同。
此外,Arm 的系統(tǒng) IP 產品組合涵蓋互聯(lián)控制器、內存控制器與一致性互聯(lián)架構,能夠幫助合作伙伴以更低風險、更快速度,設計出全方位面向 AI 優(yōu)化的系統(tǒng)。在 AI 工作負載同時對帶寬、延遲與功耗提出嚴苛要求的背景下,此等系統(tǒng)級基礎平臺的重要性愈發(fā)凸顯。
核心價值與意義
隨著 AI 從孤立的模型推理轉向由智能體驅動的系統(tǒng),計算基礎設施面臨的核心挑戰(zhàn)變?yōu)閰f(xié)同調度,要確保各類處理器、內存系統(tǒng)與網絡能夠作為協(xié)調統(tǒng)一的整體運行。
AI 領域的核心競爭力將聚焦于系統(tǒng)層面的四大能力:
在功耗約束下構建高能效系統(tǒng);
整合異構計算資源,避免架構割裂;
以盡可能低的能耗完成數(shù)據(jù)傳輸;
將安全與性能內化為系統(tǒng)原生屬性,而非附加功能。
Futurum 的報告總結道:“行業(yè)格局的重塑,不僅取決于誰能制造出性能最強的芯片,更取決于誰能打造出覆蓋全場景、高度集成化且高能效的系統(tǒng)?!?/p>
憑借系統(tǒng)層面的定制化、高能效與多樣化選擇,Arm 架構正支撐越來越多高可擴展性 AI 計算環(huán)境,覆蓋超大規(guī)模數(shù)據(jù)中心至邊緣設備全場景。
AI 的未來,并非單純追求芯片算力提升,而是依托 Arm 架構打造更智能、更高效、更具擴展性的整體系統(tǒng)。
-
ARM
+關注
關注
135文章
9582瀏覽量
393435 -
AI
+關注
關注
91文章
40908瀏覽量
302486 -
算力
+關注
關注
2文章
1657瀏覽量
16827
原文標題:從云到邊緣:系統(tǒng)級智能為何是 AI 發(fā)展的基石?
文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
Java并發(fā)編程的“基石”——多線程概念初識
AI Agent發(fā)展浪潮下,芯片級安全為何成為關鍵?主流芯片廠商如何布局?
嵌入式AI開發(fā)必看:杜絕幻覺,才是工業(yè)級IDE的核心底氣
論馬斯克的預言:AI使人類邊緣化
邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產業(yè)價值
【「芯片設計基石——EDA產業(yè)全景與未來展望」閱讀體驗】--中國EDA的發(fā)展
【「芯片設計基石——EDA產業(yè)全景與未來展望」閱讀體驗】+ 芯片“卡脖子”引發(fā)對EDA的重視
Magna AI加入NVIDIA Inception計劃,推動生產級人工智能規(guī)?;?b class='flag-5'>發(fā)展
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
AI 芯片浪潮下,職場晉升新契機?
信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代
光纖為何是AI就緒型數(shù)據(jù)中心的基石?
邊緣AI的優(yōu)勢和技術基石
系統(tǒng)級智能為何是AI發(fā)展的基石
評論