chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

五年完成從0到1,國產TPU的算力突圍

Simon觀察 ? 來源:電子發(fā)燒友網 ? 作者:黃山明 ? 2025-12-30 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網報道(文/黃山明)如今,AI已被全球廣泛確認為未來發(fā)展的核心驅動力,不僅是科技前沿,更是重塑經濟、社會、產業(yè)乃至人類生活方式的關鍵力量。而在AI技術蓬勃發(fā)展的背后,是靠著算法、數據、算力三大支柱的系統(tǒng),而硬件是算力的唯一載體,也是數據處理、算法落地的物理基礎。

在過去,AI的算法硬件主要依靠GPUCPU,但隨著AI技術的發(fā)展,傳統(tǒng)GPU的弊端開始顯現,市場需要一種更高能效比、更低延遲和更便宜的大規(guī)模部署成本的產品,此時TPU開始逐漸在市場中顯現。

從GPU到TPU

說起GPU,相信大多數人都不會陌生,作為專為圖形渲染設計,擁有數千個并行計算核心,能同時處理大量簡單任務的芯片,GPU與深度學習的海量矩陣運算需求完美契合。因此早在2011年,就有AI研究者發(fā)現英偉達的GPU能夠處理深度學習的巨大計算需求,谷歌、斯坦福等企業(yè)與機構都開始使用。

而在此之前,AI的最大問題不是算法,而是神經網絡算不過來,訓練一次就需要幾周或者幾個月,模型稍微一大就“跑不動”了。

到了2012年,多倫多大學的Alex Krizhevsky用兩塊GTX 580 GPU訓練出AlexNet,在ImageNet圖像識別大賽中準確率從74%飆升至85%,震驚業(yè)界,這是深度學習第一次碾壓傳統(tǒng)方法。以至于后來黃仁勛直言,沒有GTX 580,就沒有今天的英偉達,也沒有現代的AI。

不過在2013年,谷歌卻面臨了一場算力災難,若1億安卓用戶每天使用3分鐘的語音搜索,那么現有數據中心算力將不足應對,需要翻倍擴建。傳統(tǒng)CPU/GPU在處理神經網絡的大規(guī)模矩陣運算時效率極低,功耗卻極高。

顯然,GPU解決了能不能做AI的問題,但面對AI太貴了、太耗電以及太難規(guī)?;膯栴}無能為力。2015年,第一代TPU(v1)在谷歌數據中心悄然部署,2016年5月Google I/O大會正式亮相,此時已內部使用一年多。

TPU(Tensor Processing Unit)并不像GPU那樣追求通用型,而是針對神經網絡犧牲一切多余能力的專用芯片。因此TPU在AI發(fā)展中解決了這三件事,成本、能效、可預測性上都要超過GPU。

具體來說,TPU采用systolic array結構,把矩陣乘法/累加操作做成硬連線流水線,數據在陣列內部流動完成計算,幾乎省去了傳統(tǒng)GPU需要反復讀寫共享緩存或顯存的步驟。谷歌第六代Trillium與第七代Ironwood的實測數據顯示,在同等7nm工藝下,TPU的每瓦AI算力達到GPU的1.4–2.0倍;若與2018年的初代TPU相比,能效提升了近30倍。

并且由于片上HBM距離計算單元更近,且去掉了圖形渲染所需的大量控制邏輯,TPU在批量推理場景下的延遲普遍比GPU低15–40%;在谷歌搜索、推薦、Claude等線上業(yè)務中,同樣模型TPU的P99延遲顯著優(yōu)于GPU。

在成本上更是優(yōu)勢顯著,當部署到9000+芯片的Pod級別時,TPU配合光電路交換(OCS)可把網絡功耗再降30%,整機柜成本比同規(guī)模GPU集群低40–60%。Anthropic、Meta等選擇與谷歌合作,正是看中長期推理成本可以比GPU方案低4倍以上。

中國的TPU之路

想要制造TPU并不簡單,TPU也并非單純的芯片,而是包含了專用架構設計、配套軟件棧與編譯器支持(例如谷歌的XLA、TensorFlow/JAX集成)、大規(guī)?;ヂ?lián)和集群調度能力以及針對深度學習訓練與推理的整體工程設計。

而這種整體系統(tǒng)設計相比通用GPU更難拆解學習,這是需要跨領域積累,而非練出一塊芯片就算完,TPU背后的項目是谷歌多年針對AI任務優(yōu)化的結果。

而在TPU領域,中國方面起步較晚,到了2019年, 谷歌TPU核心架構師楊龔軼凡回國創(chuàng)辦中昊芯英,國內才首次出現要做真正的張量處理器的創(chuàng)業(yè)公司。

并且在2021年,在北京大學、清華等高校團隊配合下,中昊芯英完成自研指令集、脈動陣列RTL和12nm物理設計,流片前夕拿到10億元的融資。

2023年,首顆訓練級TPU“剎那?”一次流片成功,算力可以達到A100的1.5倍,功耗降低30%,單位成本只有A100的42%,并且實現了量產交付,也讓中國首次擁有了可商用的TPU芯片。

而到了2024年,基于“剎那”打造的千卡集群“泰則?”在長三角、京津冀兩地上線,實測可穩(wěn)定訓練千億參數模型;太極股份、浙數文化、艾布魯等上市公司先后入股,形成“芯片+系統(tǒng)+云運營商”小生態(tài)。

今年,天津移動TPU智算中心點亮,標志著國產TPU完成“單卡→整機柜→智算中心”三級跳,開始對外提供商業(yè)化算力服務,官方稱同等精度下推理成本比GPU低40–60%。

值得注意的是,除了與運營商、智算中心協(xié)同部署能力,中昊芯英不僅做芯片,還在構建支撐國產大模型運行的軟硬件棧,并且在行業(yè)生態(tài)中逐漸建立合作,讓產品從芯片實現向算力服務能力邁進。

此前,中昊芯英創(chuàng)始人楊龔軼凡表示,目前實現高性能TPU AI芯片量產與交付的主要是該公司。同時,該公司是少數已盈利的AI芯片企業(yè),盈利源于國家支持國產化進程以及創(chuàng)新帶來的高性價比產品結構。

據了解,中昊芯英保持著“一年一芯、一年兩?!惫?jié)奏,第二代7nm芯片已在實驗室回片,配套軟件棧同步開發(fā),預計2026年Q2規(guī)模出貨;軟件側每季度滾動發(fā)版,持續(xù)追加PyTorch 2.x新算子與MoE并行策略。

這不僅是中國在高性能AI處理器路徑上的突破性成果之一,也能減少對國外AI算力產品的依賴、增強自主可控能力具有戰(zhàn)略意義,對國內AI算力生態(tài)建設是一種實質推動。

總結

TPU的發(fā)展,本質上是AI算力需求與硬件供給之間矛盾不斷突破的歷程,從最初解決 算力危機 的專用推理芯片,到支撐大模型訓練的 AI超算,再到如今面向生成式AI的推理引擎,TPU發(fā)展始終圍繞著性能、能效、架構創(chuàng)新持續(xù)突破。正是TPU提供的超算級算力,讓大語言模型、多模態(tài)生成等前沿AI成為可能,推動AI從實驗室研究走向產業(yè)落地和消費級應用。

而隨著中昊芯英等國內企業(yè)推出了真正的高性能TPU芯片,其重要性不在于短期能否完全超越英偉達或谷歌,而是為國內AI算力提供一個可自主控制的高級方向,推動國產算力生態(tài)成長,包括算力集群部署、模型適配、本地數據中心落地,這類戰(zhàn)略意義比單純單項性能更重要。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • TPU
    TPU
    +關注

    關注

    0

    文章

    170

    瀏覽量

    21635
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RISC-V+類TPU架構:國產實現從"堆砌""精耕"的范式躍遷

    電子發(fā)燒友網報道(文/吳子鵬)在AI大模型技術迅猛發(fā)展的今天,已成為決定模型性能與商業(yè)價值的關鍵因素。然而,隨著模型參數量與訓練計算量的激增,傳統(tǒng)"堆砌"模式已難以為繼。當前,
    的頭像 發(fā)表于 02-11 09:29 ?3269次閱讀
    RISC-V+類<b class='flag-5'>TPU</b>架構:<b class='flag-5'>國產</b><b class='flag-5'>算</b><b class='flag-5'>力</b>實現從&quot;堆砌&quot;<b class='flag-5'>到</b>&quot;精耕&quot;的范式躍遷

    2025中科曙光DeepAI深智能引擎完成全面進化

    2025,中科曙光DeepAI深智能引擎完成技術突破生態(tài)建設的全面進化。2月全球開發(fā)
    的頭像 發(fā)表于 12-30 15:47 ?639次閱讀

    云端集中邊緣分布:邊緣智如何重塑網絡布局

    隨著大模型推理延遲進入毫秒級時代,整個科技行業(yè)都意識網絡的規(guī)則正在被改寫。這場變革的核心,正是云端集中式計算向邊緣分布式智能的范式轉移。據行業(yè)多家分析機構綜合預測,全球AI基
    的頭像 發(fā)表于 12-25 11:34 ?383次閱讀
    <b class='flag-5'>從</b>云端集中<b class='flag-5'>到</b>邊緣分布:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>網絡布局

    云天勵飛出席GAIR 2025 AI新十專場

    12月13日,GAIR 2025「AI 新十」專場在深圳舉行。作為國內前沿技術與產業(yè)變革的重要風向標,GAIR大會歷經七屆積淀,見證并推動了中國 AI 產業(yè)算法突破、硬件迭代,
    的頭像 發(fā)表于 12-22 09:38 ?399次閱讀

    湘軍,讓變成生產?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    CPU、GPUNPU,美格智能持續(xù)優(yōu)化異構計算效能

    前言AI已成為數字經濟時代的核心生產,但全球AI產業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據行業(yè)統(tǒng)計,行業(yè)資源平均利用率
    的頭像 發(fā)表于 11-21 16:05 ?1125次閱讀
    <b class='flag-5'>從</b>CPU、GPU<b class='flag-5'>到</b>NPU,美格智能持續(xù)優(yōu)化異構<b class='flag-5'>算</b><b class='flag-5'>力</b>計算效能

    國產AI芯片真能扛住“內卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“是AI的命門”,但國產芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下
    發(fā)表于 10-27 13:12

    擁抱DeepSeek開源生態(tài)| TPU接入TileLang,集結北大復旦山大頂尖團隊!

    TPU的TileLang-TPU項目也于近日完成工程驗證。TileLang發(fā)布之初,能聯(lián)合北京大學、復旦大學、山東大學等高校的科研團隊,共同開展TileLang接
    的頭像 發(fā)表于 10-03 19:08 ?1386次閱讀
    擁抱DeepSeek開源生態(tài)| <b class='flag-5'>算</b>能<b class='flag-5'>TPU</b>接入TileLang,集結北大復旦山大頂尖團隊!

    不夠、交付太慢?捷智裸金屬租賃對標物理機性能,讓你立馬用上高!

    2025國產大模型升級帶動租賃需求爆發(fā),高性能服務器“一機難求”。中研普華預測,今年我
    的頭像 發(fā)表于 09-12 20:06 ?1287次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不夠、交付太慢?捷智<b class='flag-5'>算</b>裸金屬租賃對標物理機性能,讓你立馬用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    國產飛騰工控機重大突破:推動國產升級!

    當下,已成為衡量國家綜合實力和產業(yè)競爭的關鍵指標。隨著數字化轉型的加速,各行業(yè)對的需求呈爆發(fā)式增長,
    的頭像 發(fā)表于 08-22 10:07 ?463次閱讀

    萬卡集群十萬卡集群,燧原科技始終踐行普惠

    健康、教育等垂直領域,對設施有著更加廣泛的需求,包括智中心和訓推一體機等。 ? 在 2025 世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2025)上,作為國產人工智
    發(fā)表于 07-30 09:54 ?4417次閱讀
    <b class='flag-5'>從</b>萬卡集群<b class='flag-5'>到</b>十萬卡集群,燧原科技始終踐行<b class='flag-5'>算</b><b class='flag-5'>力</b>普惠

    國產新旗艦!集特GM0-5602主板:海光芯加持,重塑高性能計算版圖

    一塊精心鍛造的國產計算基石,正以澎湃填補中國高端計算平臺的最后空缺。在為王的時代,一顆真正的“中國芯”正在掀起巨浪。2025
    的頭像 發(fā)表于 07-04 10:44 ?2102次閱讀
    <b class='flag-5'>國產</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新旗艦!集特GM<b class='flag-5'>0</b>-5602主板:海光芯加持,重塑高性能計算版圖

    軟通智完成超億級A輪融資,加速AI產業(yè)布局

    北京 20256月18日 /美通社/ -- 近日,軟通動力旗下軟通智科技(廣東)集團有限公司(以下簡稱"軟通智")完成超億級A輪融資,本輪融資由盛景嘉成創(chuàng)投領投,廣發(fā)信德、毅達資
    的頭像 發(fā)表于 06-18 15:37 ?555次閱讀

    芯片的生態(tài)突圍革命

    電子發(fā)燒友網報道(文 / 李彎彎)大芯片,即具備強大計算能力的集成電路芯片,主要應用于高性能計算(HPC)、人工智能(AI)、數據中心、自動駕駛等需要海量數據并行計算的場景。隨著 AI 與大數
    的頭像 發(fā)表于 04-13 00:02 ?3175次閱讀

    【一文看懂】什么是端側

    隨著物聯(lián)網(IoT)、人工智能和5G技術的快速發(fā)展,端側正逐漸成為智能設備性能提升和智能化應用實現的關鍵技術。什么是端側,它的應用價值是什么,與云計算、邊緣計算有哪些區(qū)別?本文
    的頭像 發(fā)表于 02-24 12:02 ?3921次閱讀
    【一文看懂】什么是端側<b class='flag-5'>算</b><b class='flag-5'>力</b>?