chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

從NPU、GPU、內(nèi)存、EDA工具等角度,看現(xiàn)在的邊緣AI技術

穎脈Imgtec ? 2026-04-22 09:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言:邊緣AI涉及的問題不僅是算力芯片,還與存儲、設計工具、測試等方方面面有關…

AI從數(shù)據(jù)中心走向邊緣、端側(cè)的原因這兩年探討得夠多了,包括數(shù)據(jù)中心資源限制(與海量IoT設備與數(shù)據(jù)涌入的矛盾)、部分應用的低延遲或?qū)崟r決策需求、隱私與安全性、AI應用的個性化要求等;與此同時,隨著AI全棧技術的發(fā)展,邊緣或端側(cè)AI也正走向成熟——無論是硬件還是包括AI模型在內(nèi)的軟件。

前不久IIC Shanghai 2026同期舉辦的邊緣AI與算力芯片論壇上,華邦電子資深工程師雷家鋒在主題演講中給出了一組邊緣AI市場發(fā)展趨勢數(shù)據(jù):2023-2030年,邊緣AI市場的CAGR(年復合增長率)在21%左右(來源:華邦)。

這是邊緣AI與算力芯片論壇近兩年持續(xù)火熱的重要背景,也是市場海量玩家未來發(fā)展的關注點。恰巧參與本屆論壇主題演講的企業(yè)涉及NPU、GPU、存儲、測試、市場研究。本文就從這幾個方面做邊緣AI技術發(fā)展現(xiàn)狀的零散呈現(xiàn)——或許讀者也有機會從中發(fā)現(xiàn)更多當代邊緣AI技術的特點。


NPU進化:要滿足當代大模型推理需求

去年國際電子商情雜志4月刊封面故事就提到,在短短2年時間里,達到GPT-3相似智能水平的AI模型,推理成本下降了多達1200倍:這是AI技術全棧發(fā)展所致,不僅是芯片或硬件的性能提升。國科微AI算法部部長倪亞宇在主題演講中就談到了FlashAttention-4,就是Transformer模型之中的典型算法優(yōu)化;并由此引出NPU架構(gòu)設計的思考與實踐。

倪亞宇介紹說FlashAttention“通過這一軟件方案、借助流水線的編排、帶寬壓縮等,第4代實現(xiàn)了將近5倍的推理加速?!盕lashAttention V4相比V3在部分場景下可達2倍以上提升,“還加入了AI預編譯技術”——“對不管GPU還是NPU而言,都是個無本萬利的技術?!?/p>

“從以往更強調(diào)tensor的GPU和NPU來看,LLM推理面臨的瓶頸往往在注意力計算上,矩陣乘算力利用率低?!庇绕涫窃赿ecode階段,注意力成為主要瓶頸。FlashAttention則“通過一個有趣的數(shù)學變換,最后落在GPU上將計算過程藏在矩陣乘之中,最終能夠?qū)ttention部分(所需時間)壓到1/5左右”;“而且變換之后,注意力的3次矩陣乘計算不會出SRAM,省去3次DDR讀寫,帶寬需求也大幅降低?!?/p>

現(xiàn)在的絕大部分NPU都能通過tensor和vector單元來支持FlashAttention的部分特性,獲得一定的存儲、IO和cycle收益。但倪亞宇表示,NPU離實現(xiàn)“滿血版FlashAttention還有很大鴻溝”,具體如下圖所示。“NPU當年設計時陷進一個誤區(qū)或者說思維定勢:強調(diào)堆tensor計算單元?!?/p>

3bebf778-3de7-11f1-ab55-92fbcf53809c.png

“在大模型推理、agentic AI、小龍蝦時代,推理序列越來越長,矩陣在其中所占算力比重反而沒那么大;向量計算、常數(shù)計算的耗時卻越來越大。”“簡單來說,vector, scalar算力不夠,與NPU的矩陣乘能力不匹配;還有一些問題,比如tensor core與vector core不能同時讀寫SRAM,以及諸多流水線的限制...”

對于這些問題,倪亞宇介紹了學術界此前給出的一套相對激進的解決方案:FSA(增強型脈動陣列架構(gòu))架構(gòu)NPU?!案纱嗑筒灰獀ector單元,將vector做到矩陣乘里面去”;“增加12%的面積,加了一些邏輯單元,在算矩陣乘的同時,支持做注意力相關計算”。

這套方案的具體改進包括“雙向數(shù)據(jù)路徑:新增向上數(shù)據(jù)通路,支持rowmax/rowsum等在線reduce操作”;“列級比較器陣列:在MAC陣列頂部部署專用比較器,實時完成rowmax計算”;“線性插值擴展:每個處理單元新增Split單元,復用MAC完成exp函數(shù)的分段線性插值(PWL)近似”——“基于上述擴展,F(xiàn)SA在陣列內(nèi)原生實現(xiàn)FlashAttention全流程操作”。

只不過在倪亞宇來看,這是個有借鑒價值,但于產(chǎn)業(yè)界未必實用的方案。比如他提到,“增加12%的面積如果直接放在vector單元上,會不會更實用?”“畢竟NPU不僅要考慮大模型推理,還要兼容各種各樣的模型推理;如此才能實現(xiàn)更強、更綜合的NPU設計?!?/p>

3c61f054-3de7-11f1-ab55-92fbcf53809c.png

這些除了體現(xiàn)國產(chǎn)NPU在發(fā)展之路上的創(chuàng)新與思考,也在于國科微的端側(cè)NPU架構(gòu)已經(jīng)過了幾代演進——如上圖所示。“我們做NPU將近8年時間:從第1代開始就做全棧自研;V2.0做端側(cè)小算力,兼顧CNN模型實踐;第3代主力算力提高,不僅支持卷積也支持Transformer,也是我們的圓鸮AIISP黑光全彩算法的主力推理芯片?!?/p>

“第4代正在研發(fā),開始走向中高算力(4T-16T)。就像前面談到的,我們還對整個流水線和架構(gòu)做了重新設計,實現(xiàn)更低功耗、更低成本的大模型推理?!薄安粌H在矩陣乘、vector、scalar等方面做了算力平衡,雙tensor core還支持異步矩陣乘,支持UB并行讀寫,在線transpose、快速scaled Softmax等等...”總體而言,“這代NPU是更為務實的設計?!?/p>

另外倪亞宇還提到配套“更激進進化”的軟件方案(GK Toolchain V3.0):“整套工具鏈基于MLIR基座,構(gòu)建了一套能夠覆蓋NPU研發(fā)全流程的軟件棧,覆蓋芯片仿真、模型編譯,和端側(cè)靈活推理?!?/p>

其中有不少特性是能夠體現(xiàn)國科微的創(chuàng)新:除了這是“國內(nèi)較早就做到離散化的最優(yōu)配置搜索”,以及“硬件感知的模型預編譯”實現(xiàn)性能優(yōu)化的同時做到更大程度的自動化;針對“動態(tài)推理優(yōu)化”部分,比如Flash-DRAM混合——基于“大模型里面接近20%的參數(shù)是embedding的(把離散的token映射到連續(xù)向量空間的權(quán)重矩陣),加載頻率較低,放進flash之中對推理耗時影響微乎其微,卻節(jié)省了DDR存儲;對于很長的KV cache,也有小部分可以放進flash之中,通過流水線重排可以隱藏延時,實現(xiàn)推理成本的節(jié)約。”


GPU要實現(xiàn)邊緣AI高效推理,不光是算力問題

除了NPU之外,參與邊緣AI與算力芯片論壇的GPU相關企業(yè)也是少不了的。Imagination作為歷屆IIC大會的??停苍谡搲戏窒砹似銭系列GPU IP對于邊緣AI大規(guī)模落地的價值和重要性:不單是算力,而要同時考量計算、存儲、功耗、軟件的平衡。

如Imagination產(chǎn)品總監(jiān)鄭魁所說,“計算能力之外,如何提升計算效率,就要考慮做好memory架構(gòu)設計、考慮power,還要加上軟件”,“這4點是Imagination GPU架構(gòu)向前演進的基本出發(fā)點”。鄭魁重點談到了memory的層級結(jié)構(gòu)(hierarchy)設計,對發(fā)熱的控制,以及模型發(fā)展速度之快要求硬件靈活性,都是邊緣AI應用需要考量的。

“E系列的目標就是要提高計算效率、對模型的利用率,提高整個系統(tǒng)層面的效率,減少部署的開銷。”去年,電子工程專輯對Imagination的E系列GPU IP做過比較詳細的介紹。除了Burst Processor新架構(gòu)帶來相較上代25%的能效提升(具體負載平均FPS/mW提升),E系列的另一大看點是USC之中的Neural Core能夠大幅提升AI算力。

鄭魁在演講中說,E系列GPU“能夠提供出色的性能伸縮(scaling),不管是tensor級別的,還是多核,乃至多chiplet的scaling”——這也是Imagination GPU IP一直以來的優(yōu)勢。如下圖所示,在AI性能表現(xiàn)上,除了對諸多數(shù)據(jù)格式的廣泛支持,“8個USC處理單元/核的4核GPU,能夠提供200 TOPS INT8算力?!?/p>

3cb96c44-3de7-11f1-ab55-92fbcf53809c.png

如前所述,不止于TOPS數(shù)字,鄭魁在此還強調(diào)了Imagination在E系列架構(gòu)設計中,為打破存儲墻、提升AI推理效率所做的各種努力。比如說最短的數(shù)據(jù)路徑,最小化數(shù)據(jù)遷移,盡可能讓數(shù)據(jù)保持在本地。

“GPU具備高并發(fā)能力”,“對于GPU架構(gòu)而言,我們建議比如將原本DSP、VPU的很多workload放到GPU之中,充分利用GPU的高吞吐、高并發(fā)SIMT能力,令內(nèi)存使用天然更友好”。“因為GPU有著很大的register、local shared memory,具備高效的內(nèi)存管理能力?!盓系列GPU IP在這方面的優(yōu)勢就體現(xiàn)得淋漓盡致,如最大化數(shù)據(jù)復用、高度的硬件模塊復用,以及面向開發(fā)更友好和標準的編程范式等。

另外,針對模型“Imagination也有自己的優(yōu)化方式,比如量化:支持全面的數(shù)據(jù)格式,也有量化工具;結(jié)合壓縮算法和硬件加速單元”,提升AI推理效率。“我們在這些領域(無損壓縮)已經(jīng)發(fā)布了對應的研究paper?!编嵖榻B說。

除此之外,他還提到了GPU在開發(fā)方面具備靈活性和標準化的優(yōu)勢,以及Imagination現(xiàn)如今的GPU IP具備諸如硬件級虛擬化支持、更高安全性等特點——電子工程專輯的歷史文章對這些皆有詳細介紹,感興趣的讀者可移步閱讀。

值得一提的是,Imagination的GPU IP在邊緣AI應用的另一個關鍵價值還在于超高的靈活性:包括它不僅限于AI應用,還支持圖形渲染和其他任務類型的通用計算加速;與此同時,Imagination也強調(diào),自家GPU不僅可藉由伸縮能力來搭建更大規(guī)模的算力基礎設施,而且也可以搭配三方NPU做異構(gòu)計算,”實現(xiàn)最大化的pipeline overlapping”。

3d13dbde-3de7-11f1-ab55-92fbcf53809c.jpg


走向2.5D/3D堆疊:芯片設計范式要變

AI技術不僅對AI芯片提出了更高的要求,就連AI芯片設計工具也要變。比如說,談AI芯片就不得不談先進封裝——而當涉及先進封裝、異構(gòu)集成、chiplet,芯片與電子系統(tǒng)設計的方式就要變。

2.5D/3D先進封裝的本質(zhì),就是將die/chiplet以橫向或縱向的方式做同封裝內(nèi)的堆疊。珠海硅芯科技有限公司創(chuàng)始人兼CEO趙毅在演講中說,“由于AI的推動,現(xiàn)在我們能看到最多的可能是邏輯+HBM die的堆疊;未來還會有各種形式的堆疊,比如模擬+數(shù)字+射頻...”

他舉例提到業(yè)界前不久“很火的一顆3.5D芯片,整個SoC拆成了compute die, IO die, memory die;且三顆die垂直堆疊。雖然看起來就3層,但從設計、仿真、測試流程來看,需要解決的問題非常之多。”“在堆疊場景發(fā)生變化的情況下,于設計工具鏈而言也提出了新需求?!?/p>

總的來說,“當先進封裝碰上EDA,整套EDA工具鏈、design flow都會發(fā)生重大改變;且在全新工具鏈之外,“一定要加上先進封裝各種類型工藝的深度協(xié)同,并考慮堆疊的具體場景”。即簡單來說,工具鏈要變,設計范式也要變。這對EDA市場參與者而言就構(gòu)成了挑戰(zhàn)。

3da62f98-3de7-11f1-ab55-92fbcf53809c.png

設計流程上發(fā)生的轉(zhuǎn)變,是從單芯片的DTCO走向了多芯片的STCO(system-technology co-optimization)。首先是頂層架構(gòu)探索規(guī)劃:每片die的類型、架構(gòu)、工藝選擇(連的是什么);每片die的擺放規(guī)劃、如何連接、IO分布等(可以怎么連);以及“die連接后的性能預分析問題”(怎么連得好)...“做單die設計時我們原本熟悉的4個環(huán)節(jié)需要全部重構(gòu)”。

到具體實現(xiàn)的布局布線,呈現(xiàn)的幾大難點被趙毅歸結(jié)為“CIS”(Chiplet, Interposer, Substrate):首先是對于每顆chiplet,核心模塊、IO分布,die-to-die物理設計工具、約束等;涉及基于interposer的互聯(lián)時的電源網(wǎng)絡與信號布線,“要全部重做”;以及substrate基板層的RDL與跨層協(xié)同設計。

他還特別舉例提及,諸如hybrid bonding混合鍵合技術能夠?qū)崿F(xiàn)顯著更高的鍵和密度,“但沒有EDA工具的支持,根本無法達到這樣的布線密度”,所以“工藝要與算法深度綁定”?!皬?.5D/3D布局布線角度看,所有算法都需要重做;面對不同的場景可能還需要做針對性適配”。

最終,chiplet、silicon interposer(硅中介)、package substrate(封裝基板)的“跨層級協(xié)同優(yōu)化”是趙毅在演講中反復強調(diào)的關鍵。而當涉及垂直堆疊的3D IC設計時,相比2.5D更需要面對“解空間爆發(fā)性增長”的挑戰(zhàn)...

有關仿真,多物理場協(xié)同是不少EDA企業(yè)都意識到的挑戰(zhàn);另外相關跨工藝(不同類型的chiplet)、跨層級(CIS);以及設計仿真協(xié)同——“如果不做真正的設計仿真協(xié)同,一定會面臨非常多的回調(diào);甚至可能因為堆疊復雜度變高,面臨設計無法收斂的問題”。

針對設計仿真協(xié)同的問題,他還舉例提到了翹曲(warpage):設計復雜度變高以后,“解決thermal induced可靠性問題一定要做兩件事:一是將可靠性前置,在做頂層架構(gòu)設計規(guī)劃時,就分析thermal profile、current density、power density...通過前期仿真,就從設計角度做規(guī)避——所謂的可靠性就是設計出來的;二是針對生命周期的可靠性問題,加上片上測試與修復、冗余?!?/p>

有關驗證,“多die的LVS, DRC與單die又不一樣。橫向與縱向互聯(lián)時,有其特殊的設計規(guī)則”;

有關測試,“測試是剛需”,面臨的挑戰(zhàn)包括需要新的缺陷機制和失效模型,對應的多die新型DFT電路設計,到新標準的誕生——“IEEE因此做了3D IC DFT的1838標準——這是我們當時和我的導師一起做的,我們從2010年就開始研究了”;以及“需要有自修復機制”等等...以上這些就是STCO的大致流程,“當然DFT需要前置”。

趙毅表示,硅芯對“所有的點工具都做了重構(gòu);我們的設計范式也走向了PPPAC,將package作為深度思考的一部分,加入到設計理念中來”,“做完架構(gòu),要把DFT,包括冗余、自修復的機制加進來,還要做die-to-die的布局布線、同時做仿真協(xié)同,最后做多die LVS......所有這些都要加個multi-die,因為它從工具到算法都與單die差別很大”。

3de888f2-3de7-11f1-ab55-92fbcf53809c.png

硅芯的設計平臺名為3Sheng Integration,“我們的整個工具鏈平臺可以做CIS多層級的協(xié)同設計,并關注性能、成本、可測試性的協(xié)同優(yōu)化。”據(jù)說客戶落地案例已經(jīng)涵蓋了同構(gòu)堆疊、邏輯+存儲、模擬+數(shù)字+射頻、硅光EIC+PIC,“甚至超大規(guī)模堆疊”。

總的來說,硅芯引入的“EDA+”新范式是指,“新一代基于chiplet的EDA工具鏈+先進封裝制造工藝+不同的異構(gòu)異質(zhì)集成堆疊芯片場景”協(xié)同,“在EDA+新范式下,實現(xiàn)產(chǎn)業(yè)鏈上下游的共同合作?!?/p>


滿足“小容量高帶寬”的邊緣AI存儲需求

而談到2.5D/3D堆疊,華邦電子在論壇現(xiàn)場介紹的恰是一款強調(diào)2.5D/3D堆疊的存儲解決方案,只不過不是HBM。近半年AI數(shù)據(jù)中心的HBM存儲需求飆升,令存儲芯片的價格跟著水漲船高,包括邊緣和端側(cè)應用的LPDDR4/5。當AI從云端向邊緣演進,尤其在推理近拐點之時,“邊緣AI需要高效的存儲架構(gòu)、優(yōu)化的功耗和帶寬,這是我們擅長的。”華邦電子資深工程師雷家鋒表示。

前年的媒體活動上,華邦就向我們介紹過AI時代的戰(zhàn)略和打法——當時提到的CUBE(Customized Ultra Bandwidth Element)存儲解決方案就引發(fā)了我們極大的興趣——這是一種以大量并行IO口實現(xiàn)超高帶寬、與SoC die藉由TSV(硅過孔)做3D堆疊的存儲產(chǎn)品。


3eb03f1e-3de7-11f1-ab55-92fbcf53809c.png

雷家鋒在演講中給出了上面這張圖,展示當代主流端側(cè)AI模型與存儲產(chǎn)品的對應關系——其中就特別列出了CUBE所在位置:“現(xiàn)在很火的Llama2, Llama3,Qwen的0.8B/2B/4B/9B模型,我們的CUBE產(chǎn)品(8GB容量,1TB/s帶寬)就能進行很好的支持?!薄叭绻龅絩eticle尺寸,則能達成80GB容量、30TB/s帶寬,可以用在邊緣服務器上。”

對于邊緣計算市場,CUBE可以解決內(nèi)存墻的問題,“特別是在滿足小容量高帶寬需求這塊”。而“小容量高帶寬”是關鍵詞,也與邊緣AI應用的需求契合。

“我們的產(chǎn)品完全可以達到甚至超過HBM的帶寬水平,但容量更小。容量方面,單層0.5GB,4Hi疊4層是4GB;帶寬則在128GB/s-1TB/s之間”。由于CUBE主要是面向客戶的定制產(chǎn)品,可根據(jù)容量和帶寬需求做不同層數(shù)(“8層很快會出來,達到最高16GB容量、4TB/s帶寬”)的定制。

他舉了兩個將CUBE與NPU搭配的案例,包括為一款NPU芯片搭配>4GB >512GB/s的CUBE存儲——“傳統(tǒng)端側(cè)的存儲方案,可能會用LPDDR4的多顆KGD,整個系統(tǒng)會很擁擠;而CUBE一顆就能解決。”對于上述消費類應用的案例,“達成的帶寬>128GB/s,CoW方案的功耗做到了<1.0pJ/bit”,相比帶寬更低的LPDDR4x,功耗低了4倍不止;

另一個案例是達到reticle尺寸、超過70GB容量、>30TB/s帶寬的CUBE,與NPU堆疊的AI邊緣服務器應用,此案例中,CUBE也做到了較低的功耗,“WoW的hybrid bonding可以實現(xiàn)<0.6pJ/bit”。

另外雷家鋒還介紹了特別面向TinyML端側(cè)AIoT設備的1Gb CUBE-Lite產(chǎn)品,目標應用如AI ISP、可穿戴設備等?!斑@款產(chǎn)品容量1Gb, 128 IO”;“相比很多產(chǎn)品采用的LPDDR4X,CUBE-Lite實現(xiàn)了顯著更小的尺寸”。“比如對尺寸和功耗要求都很高的AI眼鏡,我們的這款產(chǎn)品就很適用?!?/p>

總的來說,“小容量高帶寬”完美契合了AI邊緣側(cè)的需求,“借助華邦的hybrid bonding、TSV等2.5D/3D相關堆疊技術,實現(xiàn)低延時、低功耗、寬IO,都十分適配邊緣推理需求?!?/p>


邊緣AI產(chǎn)品的低功耗測試:避免踩坑

在邊緣AI的落地鏈條中,測試對產(chǎn)品可靠性、功耗表現(xiàn)乃至用戶體驗的影響也至關重要。是德科技在本屆論壇的分享,既包括低功耗AI設備的動態(tài)電流分析方法,也展示了其最新一代高性能示波器平臺 XR8。

是德科技電源和通用產(chǎn)品市場經(jīng)理饒騫指出,低功耗邊緣AI設備(如智能眼鏡、實時血糖監(jiān)測儀、可穿戴設備等)普遍采用電池供電,其功耗模式呈現(xiàn)典型的“高峰 + 深度休眠”結(jié)構(gòu):Active 狀態(tài)與Sleep之間的電流往往相差10^5量級。

這樣的變化意味著測試設備必須同時滿足:極寬動態(tài)范圍、ms級響應速度、長時間數(shù)據(jù)記錄能力(數(shù)小時到數(shù)百小時),饒謙強調(diào),這正是許多工程師在功耗分析中“踩坑”的根源。

他以工程師最常用的幾類儀器為例,逐一分析其適用場景與限制:(1)萬用表,優(yōu)點在于測靜態(tài)小電流準確;但缺點是采樣速度慢、不同量程的shunt電阻會引入電壓跌落,甚至導致被測設備重啟——不適合動態(tài)功耗分析;

3f739aae-3de7-11f1-ab55-92fbcf53809c.png

(2)示波器,雖然適合觀察啟動波形、瞬態(tài)電流,但對mA以下電流不夠敏感,也無法長時間記錄;(3)源表也是個重要方案,它能測nA級靜態(tài)電流,無需串聯(lián)分流電阻;只是也不適合長時間、寬動態(tài)范圍的完整功耗分析。

“沒有一種儀器能覆蓋所有場景,關鍵是理解每種方法的邊界,避免在功耗測試中踩坑?!别堉t總結(jié)道。

針對完整的功耗周期評估(包括電池續(xù)航),是德科技提出了更系統(tǒng)化的工具鏈:直流電源分析儀——如N6705系列:28bit分辨率、200KHz采樣率,無縫量程技術可以三個量程并行工作覆蓋nA到A級,而且可記錄上千小時數(shù)據(jù),自動計算最大/最小/平均值。在饒謙展示的案例中,一個設備從深度休眠(數(shù)μA)到峰值工作電流(200+ mA)的完整周期被一次性捕獲,動態(tài)范圍跨越10^5,且所有能量指標(mAh、mWh)均被自動計算。

他還介紹了CX3300系列高速電流波形分析儀,適用于高速、小電流場景,電壓噪聲低至400nV,電流噪聲150pA,帶寬可達百兆級,適合芯片級、瞬態(tài)級的高速電流分析。

40332b94-3de7-11f1-ab55-92fbcf53809c.png

值得一提的是,是德科技在論壇上也公開展示最新XR8示波器平臺。雖然示波器并非本次演講的重點,但XR8的出現(xiàn)本身反映了一個趨勢:AI推動高速數(shù)字接口與測試儀器同步進化。隨PCIe 5.0/6.0/7.0、PAM4調(diào)制光模塊速率不斷提升,傳統(tǒng)示波器在帶寬、底噪、處理速度上已難以滿足需求。

所以XR8的核心改進包括:“無可匹敵的”信號完整性:12bit ADC、顯著降低底噪、提升ENOB;新一代軟件平臺,支持多核CPU并行處理,分析能力與性能提升3-10倍;模擬前端與采集板高度集成,相較UXR面積縮小75%,設備深度和重量都降低了30%;更低功耗、更輕重量、更安靜的風道設計。

在實際測試中,XR8在 USB4 v2、PAM4、MIPI等深存儲場景下的響應速度顯著提升,工程師在放大、移動波形時幾乎無需等待。是德科技表示,XR8只是新平臺的起點,未來將繼續(xù)面向400G及下一代高速接口擴展。

40f63d32-3de7-11f1-ab55-92fbcf53809c.jpg

邊緣AI正在經(jīng)歷一次真正意義上的“全棧重構(gòu)”。NPU廠商在思考如何讓端側(cè)芯片承接大模型推理的復雜性;GPU IP供應商在重新定義計算、存儲與能效的平衡;EDA企業(yè)則在為2.5D/3D堆疊時代重寫設計范式;存儲廠商以“小容量高帶寬”回應邊緣推理的帶寬瓶頸;而測試廠商則提醒我們,只有可靠的測量體系,才能讓這些技術真正落地。

這些技術并非孤立存在,而是共同構(gòu)成了邊緣AI時代的基礎設施。它們的演進速度,也遠超過去十年移動計算時代的節(jié)奏。隨著大模型繼續(xù)向端側(cè)滲透,未來的邊緣AI系統(tǒng)將不再只是“輕量化AI”,而是具備實時感知、推理、交互能力的智能終端。而在這一過程中,算力、存儲、封裝、工具鏈、測試體系的協(xié)同演進,將決定邊緣AI真正的落地速度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5268

    瀏覽量

    136054
  • eda
    eda
    +關注

    關注

    72

    文章

    3142

    瀏覽量

    183696
  • NPU
    NPU
    +關注

    關注

    2

    文章

    386

    瀏覽量

    21340
  • 邊緣AI
    +關注

    關注

    1

    文章

    267

    瀏覽量

    6216
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    TI的TinyEngine NPU為嵌入式系統(tǒng)解鎖邊緣AI加速能力

    邊緣 AI 不僅適用于高端應用。TI 微控制器 (MCU) 集成了 TinyEngine 神經(jīng)處理單元 (NPU),可在更多電子產(chǎn)品中實現(xiàn)邊緣 AI
    的頭像 發(fā)表于 04-10 10:49 ?425次閱讀

    論馬斯克的預言:AI使人類邊緣

    呈指數(shù)級爆炸增長,在這種級別的AI面前,人類的智能總和將顯得微不足道,從而導致人類被邊緣化。 合理性 技術發(fā)展趨勢角度當前
    發(fā)表于 03-14 05:27

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    幀數(shù)據(jù)不被阻塞,快速喂給NPU,實現(xiàn)真正的實時而非準實時分析。 3. 向量數(shù)據(jù)庫的本地化 RAG是目前大模型落地的核心技術。AI Station的大內(nèi)存允許在
    發(fā)表于 03-10 14:19

    使用NORDIC AI的好處

    提升能效,適合音頻、圖像和高采樣率傳感器等更重的 AI 負載。[Axon NPU 技術頁] 模型更小、更快、更省電 Neuton 模型相較 TensorFlow Lite:* 內(nèi)存
    發(fā)表于 01-31 23:16

    瑞芯微SOC智能視覺AI處理器

    。B2版本通常在功耗、穩(wěn)定性和部分外圍接口支持上有所優(yōu)化。NPU: 集成0.8 TOPS的NPU,支持INT8/INT16混合運算,能滿足大多數(shù)邊緣側(cè)的輕量級AI推理需求(如分類、檢測
    發(fā)表于 12-19 13:44

    應對端側(cè)AI算力、內(nèi)存、功耗“三堵墻”困境,安謀科技Arm China “周易”X3給出技術錦囊

    AI大模型正加速云端向邊緣與端側(cè)滲透,然而,算力、內(nèi)存、功耗等卻成了制約其規(guī)?;涞氐摹案邏Α薄?b class='flag-5'>AI計算而生的神經(jīng)網(wǎng)絡處理器(
    的頭像 發(fā)表于 12-18 13:45 ?523次閱讀
    應對端側(cè)<b class='flag-5'>AI</b>算力、<b class='flag-5'>內(nèi)存</b>、功耗“三堵墻”困境,安謀科技Arm China “周易”X3給出<b class='flag-5'>技術</b>錦囊

    AI硬件全景解析:CPU、GPUNPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設備的基礎運行;GPU憑借并行算力,成為AI訓練與圖形處理的“主力”;TPU在Google生態(tài)中深耕云端大模型訓練;NPU則讓AI
    的頭像 發(fā)表于 12-17 17:13 ?2214次閱讀
    <b class='flag-5'>AI</b>硬件全景解析:CPU、<b class='flag-5'>GPU</b>、<b class='flag-5'>NPU</b>、TPU的差異化之路,一文看懂!?

    如何利用NPU與模型壓縮技術優(yōu)化邊緣AI

    隨著人工智能模型設計階段走向?qū)嶋H部署,工程師面臨著雙重挑戰(zhàn):在計算能力和內(nèi)存受限的嵌入式設備上實現(xiàn)實時性能。神經(jīng)處理單元(NPU)作為強大的硬件解決方案,擅長處理 AI 模型密集的計
    的頭像 發(fā)表于 11-07 15:26 ?1406次閱讀
    如何利用<b class='flag-5'>NPU</b>與模型壓縮<b class='flag-5'>技術</b>優(yōu)化<b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>

    工業(yè)視覺網(wǎng)關:RK3576賦能多路檢測與邊緣AI

    ~150ms6TOPS NPU 邊緣AI推理易對接 MES / 追溯系統(tǒng) 一、產(chǎn)線痛點:“人”到“機判”的轉(zhuǎn)變· 多工位/多
    發(fā)表于 10-16 17:56

    適應邊緣AI全新時代的GPU架構(gòu)

    電子發(fā)燒友網(wǎng)站提供《適應邊緣AI全新時代的GPU架構(gòu).pdf》資料免費下載
    發(fā)表于 09-15 16:42 ?47次下載

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    景嘉微電子、海光信息技術、上海復旦微電子、上海壁仞科技、上海燧原科技、上海天數(shù)智芯半導體、墨芯人工智能、沐曦集成電路等。 在介紹完這些云端數(shù)據(jù)中心的AI芯片之后,還為我們介紹了邊緣AI
    發(fā)表于 09-12 16:07

    科普:什么AI 內(nèi)存技術

    問題。 為什么 AI 內(nèi)存很重要? 在 AI 模型訓練和推理過程中,大量的數(shù)據(jù)需要從內(nèi)存傳輸?shù)教幚砥鳎ㄈ?GPU 或 TPU)進行計算。傳統(tǒng)
    的頭像 發(fā)表于 09-03 15:44 ?1637次閱讀

    AI的未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”

    ”,再聰明的模型也只能停留在實驗室。典型的場景有:場景需要的“雙棲能力”將YOLOv8部署到邊緣盒子算法裁剪 + NPU指令調(diào)優(yōu) + 電源與內(nèi)存優(yōu)化AI PC系統(tǒng)集成
    發(fā)表于 07-30 16:15

    MCU內(nèi)嵌AI技術成為行業(yè)新標配:技術路線:頭部廠商的三大策略

    芯片市場2019年120億美元增至2024年430億美元,終端AI計算成為剛需。 ? 技術瓶頸突破 ? 傳統(tǒng)MCU受限于算力、內(nèi)存和功耗,無法運行復雜
    的頭像 發(fā)表于 07-16 18:10 ?2652次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術應用到原理

    。。) 原理學習 在「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中,作者詳解了帕斯卡架構(gòu)到40系的Hopper架構(gòu)的技術演變進化,按照出版時間算是囊括了NVIDIA
    發(fā)表于 06-18 19:31