好男人在线观看西瓜视频,激情毛片免费全部播放无码

電子發(fā)燒友網報道（文/黃山明）如今，AI已被全球廣泛確認為未來發(fā)展的核心驅動力，不僅是科技前沿，更是重塑經濟、社會、產業(yè)乃至人類生活方式的關鍵力量。而在AI技術蓬勃發(fā)展的背后，是靠著算法、數據、算力三大支柱的系統(tǒng)，而硬件是算力的唯一載體，也是數據處理、算法落地的物理基礎。

在過去，AI的算法硬件主要依靠GPU與CPU，但隨著AI技術的發(fā)展，傳統(tǒng)GPU的弊端開始顯現，市場需要一種更高能效比、更低延遲和更便宜的大規(guī)模部署成本的產品，此時TPU開始逐漸在市場中顯現。

從GPU到TPU

說起GPU，相信大多數人都不會陌生，作為專為圖形渲染設計，擁有數千個并行計算核心，能同時處理大量簡單任務的芯片，GPU與深度學習的海量矩陣運算需求完美契合。因此早在2011年，就有AI研究者發(fā)現英偉達的GPU能夠處理深度學習的巨大計算需求，谷歌、斯坦福等企業(yè)與機構都開始使用。

而在此之前，AI的最大問題不是算法，而是神經網絡算不過來，訓練一次就需要幾周或者幾個月，模型稍微一大就“跑不動”了。

到了2012年，多倫多大學的Alex Krizhevsky用兩塊GTX 580 GPU訓練出AlexNet，在ImageNet圖像識別大賽中準確率從74%飆升至85%，震驚業(yè)界，這是深度學習第一次碾壓傳統(tǒng)方法。以至于后來黃仁勛直言，沒有GTX 580，就沒有今天的英偉達，也沒有現代的AI。

不過在2013年，谷歌卻面臨了一場算力災難，若1億安卓用戶每天使用3分鐘的語音搜索，那么現有數據中心算力將不足應對，需要翻倍擴建。傳統(tǒng)CPU/GPU在處理神經網絡的大規(guī)模矩陣運算時效率極低，功耗卻極高。

顯然，GPU解決了能不能做AI的問題，但面對AI太貴了、太耗電以及太難規(guī)?；膯栴}無能為力。2015年，第一代TPU（v1）在谷歌數據中心悄然部署，2016年5月Google I/O大會正式亮相，此時已內部使用一年多。

TPU（Tensor Processing Unit）并不像GPU那樣追求通用型，而是針對神經網絡犧牲一切多余能力的專用芯片。因此TPU在AI發(fā)展中解決了這三件事，成本、能效、可預測性上都要超過GPU。

具體來說，TPU采用systolic array結構，把矩陣乘法/累加操作做成硬連線流水線，數據在陣列內部流動完成計算，幾乎省去了傳統(tǒng)GPU需要反復讀寫共享緩存或顯存的步驟。谷歌第六代Trillium與第七代Ironwood的實測數據顯示，在同等7nm工藝下，TPU的每瓦AI算力達到GPU的1.4–2.0倍；若與2018年的初代TPU相比，能效提升了近30倍。

并且由于片上HBM距離計算單元更近，且去掉了圖形渲染所需的大量控制邏輯，TPU在批量推理場景下的延遲普遍比GPU低15–40%；在谷歌搜索、推薦、Claude等線上業(yè)務中，同樣模型TPU的P99延遲顯著優(yōu)于GPU。

在成本上更是優(yōu)勢顯著，當部署到9000+芯片的Pod級別時，TPU配合光電路交換（OCS）可把網絡功耗再降30%，整機柜成本比同規(guī)模GPU集群低40–60%。Anthropic、Meta等選擇與谷歌合作，正是看中長期推理成本可以比GPU方案低4倍以上。

中國的TPU之路

想要制造TPU并不簡單，TPU也并非單純的芯片，而是包含了專用架構設計、配套軟件棧與編譯器支持（例如谷歌的XLA、TensorFlow/JAX集成）、大規(guī)?；ヂ?lián)和集群調度能力以及針對深度學習訓練與推理的整體工程設計。

而這種整體系統(tǒng)設計相比通用GPU更難拆解學習，這是需要跨領域積累，而非練出一塊芯片就算完，TPU背后的項目是谷歌多年針對AI任務優(yōu)化的結果。

而在TPU領域，中國方面起步較晚，到了2019年，谷歌TPU核心架構師楊龔軼凡回國創(chuàng)辦中昊芯英，國內才首次出現要做真正的張量處理器的創(chuàng)業(yè)公司。

并且在2021年，在北京大學、清華等高校團隊配合下，中昊芯英完成自研指令集、脈動陣列RTL和12nm物理設計，流片前夕拿到10億元的融資。

2023年，首顆訓練級TPU“剎那?”一次流片成功，算力可以達到A100的1.5倍，功耗降低30%，單位成本只有A100的42%，并且實現了量產交付，也讓中國首次擁有了可商用的TPU芯片。

而到了2024年，基于“剎那”打造的千卡集群“泰則?”在長三角、京津冀兩地上線，實測可穩(wěn)定訓練千億參數模型；太極股份、浙數文化、艾布魯等上市公司先后入股，形成“芯片+系統(tǒng)+云運營商”小生態(tài)。

今年，天津移動TPU智算中心點亮，標志著國產TPU完成“單卡→整機柜→智算中心”三級跳，開始對外提供商業(yè)化算力服務，官方稱同等精度下推理成本比GPU低40–60%。

值得注意的是，除了與運營商、智算中心協(xié)同部署能力，中昊芯英不僅做芯片，還在構建支撐國產大模型運行的軟硬件棧，并且在行業(yè)生態(tài)中逐漸建立合作，讓產品從芯片實現向算力服務能力邁進。

此前，中昊芯英創(chuàng)始人楊龔軼凡表示，目前實現高性能TPU AI芯片量產與交付的主要是該公司。同時，該公司是少數已盈利的AI芯片企業(yè)，盈利源于國家支持國產化進程以及創(chuàng)新帶來的高性價比產品結構。

據了解，中昊芯英保持著“一年一芯、一年兩?！惫?jié)奏，第二代7nm芯片已在實驗室回片，配套軟件棧同步開發(fā)，預計2026年Q2規(guī)模出貨；軟件側每季度滾動發(fā)版，持續(xù)追加PyTorch 2.x新算子與MoE并行策略。

這不僅是中國在高性能AI處理器路徑上的突破性成果之一，也能減少對國外AI算力產品的依賴、增強自主可控能力具有戰(zhàn)略意義，對國內AI算力生態(tài)建設是一種實質推動。

總結

TPU的發(fā)展，本質上是AI算力需求與硬件供給之間矛盾不斷突破的歷程，從最初解決算力危機的專用推理芯片，到支撐大模型訓練的 AI超算，再到如今面向生成式AI的推理引擎，TPU發(fā)展始終圍繞著性能、能效、架構創(chuàng)新持續(xù)突破。正是TPU提供的超算級算力，讓大語言模型、多模態(tài)生成等前沿AI成為可能，推動AI從實驗室研究走向產業(yè)落地和消費級應用。

而隨著中昊芯英等國內企業(yè)推出了真正的高性能TPU芯片，其重要性不在于短期能否完全超越英偉達或谷歌，而是為國內AI算力提供一個可自主控制的高級方向，推動國產算力生態(tài)成長，包括算力集群部署、模型適配、本地數據中心落地，這類戰(zhàn)略意義比單純單項性能更重要。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴