chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

新型的FPGA器件將支持多樣化AI/ML創(chuàng)新進程

半導體芯科技SiSC ? 來源:半導體芯科技SiSC ? 作者:半導體芯科技SiS ? 2024-04-02 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:郭道正

職務:Achronix半導體中國區(qū)總經(jīng)理

近日舉辦的GTC大會把人工智能/機器學習AI/ML)領域中的算力比拼又帶到了一個新的高度,這不只是說明了通用圖形處理器(GPGPU)時代的來臨,而是包括GPU、FPGA和NPU等一眾數(shù)據(jù)處理加速器時代的來臨,就像GPU以更高的計算密度和能效勝出CPU一樣,各種加速器件在不同的AI/ML應用或者細分市場中將各具優(yōu)勢,未來并不是只要貴的而是更需要對的。

此次GTC上新推出的用于AI/ML計算或者大模型的B200芯片有一個顯著的特點,它與傳統(tǒng)的圖形渲染GPU大相徑庭并與上一代用于AI/ML計算的GPU很不一樣。在其他算力器件品種中也是如此,AI/ML計算尤其是推理應用需要一種專為高帶寬工作負載優(yōu)化的新型FPGA,下面我們以Achronix的Speedster7t FPGA芯片為例來看看技術的演進方向,以及在實際推理應用中展現(xiàn)出來的在性價比和能效比等方面優(yōu)于先進GPU的特性。

先來快速看看Speedster7t的產(chǎn)品亮點:該器件集成了800K到1500K等效邏輯單元以及326K到692K 6輸入查找表(LUT),高達120T算力的機器學習處理單元(MLP),同時還配備了高性能存儲和I/O接口,以及最高可達190Mb的嵌入式存儲容量。在外部連接接口部署上,Speedster7t包含16個GDDR6通道,可提供高達4 Tbps的高速存儲帶寬;32對SerDes通道,支持1-112Gbps的數(shù)據(jù)速率;4個400G以太網(wǎng)端口(4× 400G或16× 100G)和2個PCIe Gen5端口,支持16通道(×16)和8通道(×8)配置。

Achronix的Speedster7t FPGA芯片被用戶認為非常適合AI/ML推理原因是:足夠的算力,靈活可配的計算精度;高帶寬大容量低成本的GDDR6(4Tbps帶寬, 32GB容量);革命性的全新二維片上網(wǎng)絡(2D NoC)路由架構;靈活通用的芯片間互聯(lián);支持用戶基于該芯片開發(fā)自定義的推理系統(tǒng),比如單板多片F(xiàn)PGA甚至多板互聯(lián)以組成更高性能(如1TBbps/64GB,2TBbps/128GB, 4TBbps/256GB…等更高帶寬和更大容量的計算存儲)以支持更大或超大模型推理部署。

簡而言之,相比傳統(tǒng)的推理算力平臺,Speedster7t FPGA可以提供更高性價比和能耗比的大模型推理能力;另外,在傳統(tǒng)的FPGA處理功能中,越來越多的用戶在該系統(tǒng)中加入機器學習的能力, Speedster7t FPGA能很好勝任傳統(tǒng)FPGA功能和高性能機器學習融合在一起。

一類創(chuàng)新性的高性能FPGA系列產(chǎn)品

Achronix Speedster?7t系列FPGA基于革命性的FPGA架構,該架構經(jīng)過了高度優(yōu)化提供了高速、高帶寬內(nèi)外連接,可以滿足日益增長的人工智能/機器學習、網(wǎng)絡密集型和數(shù)據(jù)加速應用的需求。Speedster7t系列FPGA芯片具有一個革命性的全新二維片上網(wǎng)絡,以及一個針對人工智能/機器學習進行優(yōu)化的高密度的機器學習處理單元陣列。通過將FPGA的可編程性與類似ASIC路由架構和計算引擎相結合,Speedster7t系列提高了高性能FPGA的標準。

全新的二維片上網(wǎng)絡(2D NoC)提供ASIC級別的性能

Speedster7t系列FPGA芯片具有革命性的2D NoC,可在整個FPGA邏輯陣列中傳輸數(shù)據(jù),并將數(shù)據(jù)傳輸?shù)礁咝阅躀/O和內(nèi)存子系統(tǒng),同時可提供高達20 Tbps的總帶寬。憑借2D NoC,在Speedster7t FPGA芯片不需要消耗任何可編程邏輯資源的情況下來進行數(shù)據(jù)傳輸。在該芯片上的2D NoC提供了20 Tbps的二維片上網(wǎng)絡總帶寬;該2D NoC不僅覆蓋了芯片全域,而且還連接到各類高速接口和總帶寬高達4 Tbps的高速存儲接口。

高速接口

無論是支持輸入和輸出的數(shù)據(jù)流,還是存儲緩沖這些數(shù)據(jù),對于高性能計算、機器學習和硬件加速解決方案而言,都需要在片內(nèi)和片外傳輸數(shù)據(jù)。Speedster7t系列FPGA芯片的架構可支持前所未有的帶寬。包括:

400G以太網(wǎng):Speedster7t系列FPGA芯片支持多達4個400GbE端口或16個100GbE端口,通過2D NoC連接到FPGA邏輯。

PCI Express Gen5:Speedster7t系列FPGA芯片配備了多個PCle Gen5接口,支持速率達32GT/s。

存儲接口:GDDR6 + DDR4/5

Speedster7t器件是唯一在片上支持GDDR6存儲器的FPGA,以最低的DRAM成本(每存儲位)提供最快的SDRAM訪問速度。Speedster7t系列FPGA芯片具有高達4 Tbps的GDDR6帶寬,以很低的成本就可提供相當于基于HBM的FPGA存儲器帶寬。Speedster7t系列FPGA芯片包括了DDR4/5存儲器接口,以支持更深入的緩沖需求。PHY和控制器支持由JEDEC規(guī)范定義的所有標準功能。

機器學習處理單元

每個Speedster7t FPGA器件都具有可編程的數(shù)學計算單元,這些單元被集成至全新的機器學習處理單元(MLP)模塊中。每個MLP都是一個高度可配置的計算密集型模塊,具有多達32個乘法器/累加器(MAC),支持4到24位整數(shù)格式和各種浮點模式,包括Tensorflow的bfloat16格式以及高效的塊浮點格式,大大提高了性能。

MLP模塊包括緊密集成的嵌入式存儲器模塊,以確保機器學習算法將以750 MHz的最高性能運行。這種高密度計算和高性能數(shù)據(jù)傳輸?shù)慕Y合造就了高性能機器學習處理結構,該結構可提供市場上基于FPGA的極高TOPS級別運算能力(TOPS即Tera-Operations Per Second,每秒萬億次運算)。

wKgaomYLsuuAQtmXAACXryWEzHM364.jpg

圖中文字說明:Register File - 寄存器文件,F(xiàn)racturable Adder/Accumulator - 可拆分的加法器/累加器,F(xiàn)loat MAC - 浮點乘累加單元(MAC),Memory Cascade in - 存儲器級聯(lián),Operand Cascade in - 操作數(shù)級聯(lián)。

設計工具支持

Achronix Tool Suite工具套件是一個支持所有Achronix硬件產(chǎn)品的工具鏈。它可與行業(yè)標準的邏輯綜合和仿真工具結合使用,從而使FPGA設計人員能夠輕松地將其設計映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的優(yōu)化版本和Achronix Snapshot調(diào)試器。Achronix仿真庫由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。

展望:在推理等領域幫助開發(fā)者打造綜合性能優(yōu)于先進GPU的應用

隨著AI/ML技術在各個領域開始廣泛走進應用,Achronix根據(jù)Speedster7t FPGA器件的高性能和高帶寬特性,選擇了推理這一個應用面非常廣的技術市場方向,與合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研發(fā),以期幫助更多的創(chuàng)新者實現(xiàn)突破。

該芯片提供了足夠的算力,并利用其片上搭載的二維片上網(wǎng)絡(2D NoC)和機器學習處理單元(MLP),各種高速接口和GDDR6高帶寬存儲接口,提供了用于大規(guī)模推理應用需要的計算器件內(nèi)外連接、硬件加速和存儲調(diào)用等新技術,從而可以支持開發(fā)者快速去實現(xiàn)創(chuàng)新。

這個策略取得了顯著的成果,其中一個領域是加速自動語言識別(ASR)解決方案,它由搭載Speedster7t FPGA器件的VectorPath加速卡提供支持,運行Myrtle.ai提供的基于Achronix FPGA的ASR IP,從而提供業(yè)界領先的、實時的、超低延遲的語音轉文本功能。運行在服務器中的單張VectorPath加速卡可替代多達20臺僅基于CPU的服務器或10張GPU加速卡。

Speedster7t FPGA的技術創(chuàng)新為人工智能推理帶來了更高性價比和更高能效比以及可以讓用戶開發(fā)自定義的推理硬件平臺和系統(tǒng)。 在ASR實際性能方面,其出色的超低單詞錯誤率和僅有最先進GPU解決方案八分之一以下的端到端延遲(包括了預處理和后處理以及與CPU做數(shù)據(jù)交互的時間)顛覆了ASR領域。該解決方案可以在標準的機器學習框架中使用垂直應用特定的或自定義的數(shù)據(jù)集進行定制或重新訓練。

對于越來越多的其他的推理應用,Speedster7t FPGA的獨創(chuàng)高帶寬架構也可以為這些應用提供有力的支撐。Achronix正在通過不斷研發(fā),以完善其工具鏈和應用生態(tài),將在2024年推出更好的工具來幫助各種推理應用的開發(fā),使眾多的用戶更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡來實現(xiàn)性價比和能效提升,而不用去爭搶緊俏的高性能GPU加速卡。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1663

    文章

    22491

    瀏覽量

    638839
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5258

    瀏覽量

    136032
  • AI
    AI
    +關注

    關注

    91

    文章

    40908

    瀏覽量

    302482
  • ML
    ML
    +關注

    關注

    0

    文章

    154

    瀏覽量

    35520
  • 大模型
    +關注

    關注

    2

    文章

    3746

    瀏覽量

    5266
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    連接器的多樣化應用有哪些?

    可以傳輸電力、信號和數(shù)據(jù)等信息,廣泛應用于計算機、通信、汽車、航空航天和醫(yī)療設備等領域中。連接器的多樣化應用有哪些?
    的頭像 發(fā)表于 04-16 16:47 ?99次閱讀
    連接器的<b class='flag-5'>多樣化</b>應用有哪些?

    飛凌嵌入式ElfBoard-進程的相關信息之父進程和子進程

    進程在創(chuàng)建時,創(chuàng)建進程新進程的父進程新進程是創(chuàng)建進程的子
    發(fā)表于 03-12 17:12

    Banana Pi開源硬件社區(qū)基于龍芯2K3000+多樣化AI算力卡構建的全國產(chǎn)化工業(yè)邊緣AI算力底盤

    智聯(lián)萬物,芯啟未來 ——基于龍芯2K3000+多樣化AI算力卡構建的 全國產(chǎn)化工業(yè)邊緣AI算力底座 添加圖片注釋,不超過 140 字(可選) 在數(shù)字經(jīng)濟與人工智能深度融合的今天,大模型正從云端
    的頭像 發(fā)表于 02-06 14:14 ?571次閱讀
    Banana Pi開源硬件社區(qū)基于龍芯2K3000+<b class='flag-5'>多樣化</b><b class='flag-5'>AI</b>算力卡構建的全國產(chǎn)化工業(yè)邊緣<b class='flag-5'>AI</b>算力底盤

    進程的控制

    進程控制的主要功能是對系統(tǒng)中的所有進程實施有效的管理,它具有創(chuàng)建新進程、撤銷已有進程、實現(xiàn)進程狀態(tài)轉換等功能。在操作系統(tǒng)中,一般把
    發(fā)表于 01-15 06:05

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實現(xiàn)深度學習AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊的指令集架構(ISA)。優(yōu)勢如下: ①模
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    AI的應用多種多樣。比如:DALL-E2、Midjourney、Stable Diffusion等,不僅包括對話功能,還包括生成圖像、視頻、語音和程序代碼等功能。 竟然連代碼都可以生成,會取代程序員
    發(fā)表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實現(xiàn)深度學習AI芯片的創(chuàng)新方法和架構。以及一些新型的算法和思路。第四章是全面介紹半導體芯產(chǎn)業(yè)的前沿技
    發(fā)表于 09-05 15:10

    iTOF技術,多樣化的3D視覺應用

    視覺傳感器對于機器信息獲取至關重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類的視覺能力,從而推動創(chuàng)新應用。3D 視覺解決方案大致分為立體視覺、結構光和飛行時間 (TOF) 技術
    發(fā)表于 09-05 07:24

    接口多樣化:M-ITX國產(chǎn)主板的豐富連接性能

    在數(shù)字化時代,設備間的互聯(lián)互通愈發(fā)重要。對于主板而言,豐富且實用的接口不僅是連接外部設備的橋梁,更是決定其能否廣泛應用于各種復雜場景的關鍵因素。高能計算機的國產(chǎn)飛騰主板GM-M201F-D作為一款標準M-ITX 主板,在接口設計上獨具匠心,為用戶帶來了多樣化的連接選擇。
    的頭像 發(fā)表于 08-14 09:22 ?829次閱讀
    接口<b class='flag-5'>多樣化</b>:M-ITX國產(chǎn)主板的豐富連接性能

    MCU AI/ML - 彌合智能和嵌入式系統(tǒng)之間的差距

    本文探討MCU技術和AI/ML的交集,以及它如何影響低功耗邊緣設備。同時討論在電池供電設備的MCU上運行人工智能的困難、創(chuàng)新和實際應用場
    的頭像 發(fā)表于 08-01 09:02 ?650次閱讀

    AIBOX 產(chǎn)品矩陣:支持主流大模型的私有部署,滿足個性 AI 應用需求

    AIBOX系列產(chǎn)品具備高性能、低功耗、環(huán)境適應性強等特點,算力覆蓋6-157TOPS,通過搭配多樣化深度學習算法,體積小巧,能夠支持主流大模型的私有部署,為多個智慧行業(yè)進行數(shù)字賦能
    的頭像 發(fā)表于 06-25 16:32 ?1995次閱讀
    AIBOX 產(chǎn)品矩陣:<b class='flag-5'>支持</b>主流大模型的私有<b class='flag-5'>化</b>部署,滿足個性<b class='flag-5'>化</b> <b class='flag-5'>AI</b> 應用需求

    適配多種系統(tǒng),米爾瑞芯微RK3576核心板解鎖多樣化應用

    米爾電子發(fā)布的基于瑞芯微 RK3576 核心板和開發(fā)板,具備高性能數(shù)據(jù)處理能力、領先的AI智能分析功能、多樣化的顯示與操作體驗以及強大的擴展性與兼容性,適用于多種應用場景。目前米爾電子為
    發(fā)表于 05-23 16:07

    米爾RK3576核心板適配多種系統(tǒng),解鎖多樣化應用

    米爾電子發(fā)布的基于瑞芯微RK3576核心板和開發(fā)板,具備高性能數(shù)據(jù)處理能力、領先的AI智能分析功能、多樣化的顯示與操作體驗以及強大的擴展性與兼容性,適用于多種應用場景。目前米爾電子為RK3576
    的頭像 發(fā)表于 05-23 08:03 ?1697次閱讀
    米爾RK3576核心板適配多種系統(tǒng),解鎖<b class='flag-5'>多樣化</b>應用

    Intel-Altera FPGA:通信行業(yè)的加速引擎,開啟高速互聯(lián)新時代

    Agilex(高端)、Stratix(高性能)、Arria(中端)、Cyclone(低成本)等系列,滿足從數(shù)據(jù)中心到工業(yè)自動多樣化需求。技術特點:可重構性:支持“現(xiàn)場編程”,靈活適配AI
    發(fā)表于 04-25 10:19

    NanoEdge AI Studio 面向STM32開發(fā)人員機器學習(ML)技術

    NanoEdge? AI Studio*(NanoEdgeAIStudio)是一種新型機器學習(ML)技術,可以讓終端用戶輕松享有真正的創(chuàng)新成果。只需幾步,開發(fā)人員便可基于最少量的數(shù)據(jù)
    的頭像 發(fā)表于 04-22 11:09 ?1502次閱讀
    NanoEdge <b class='flag-5'>AI</b> Studio 面向STM32開發(fā)人員機器學習(<b class='flag-5'>ML</b>)技術