国产午夜三级一区二区三区,fc2ppv黑人无码

電子發(fā)燒友網(wǎng)報(bào)道（文/黃晶晶）日前業(yè)界消息稱，DeepSeek正廣泛招募芯片設(shè)計(jì)人才，加速自研芯片布局，其芯片應(yīng)用于端側(cè)或云側(cè)尚不明朗。不少科技巨頭已有自研芯片的動(dòng)作，一方面是自研芯片能夠節(jié)省外購(gòu)芯片的成本，掌握供應(yīng)鏈主動(dòng)權(quán)，另一方面隨著AI推理應(yīng)用的爆發(fā)，AI推理芯片有機(jī)會(huì)被重新定義。

DeepSeek不完全依賴英偉達(dá)

去年12月底發(fā)布的DeepSeek-V3模型，整個(gè)訓(xùn)練使用2048塊英偉達(dá)H800 GPU。H800是英偉達(dá)特供中國(guó)顯卡，相較于它的旗艦芯片H100降低了部分性能。也就是說(shuō)DeepSeek-V3模型的訓(xùn)練并不需要追求使用最尖端的GPU。

DeepSeek在訓(xùn)練過(guò)程中采用了多種方法來(lái)優(yōu)化硬件利用效率。例如，通過(guò)繞過(guò)CUDA編程框架，直接使用英偉達(dá)的中間指令集框架Parallel Thread Execution (PTX)，DeepSeek能夠更高效地利用硬件資源，提供更細(xì)粒度的操作控制，從而避免由于CUDA的通用性導(dǎo)致的訓(xùn)練靈活性損失。這種做法使得DeepSeek能夠在五天內(nèi)完成其他模型需要十天才能完成的訓(xùn)練任務(wù)，極大地提高了訓(xùn)練效率。

DeepSeek的V3和R1大模型得到了不少芯片廠商的適配。如1月25日AMD宣布將DeepSeek-V3模型集成到其Instinct MI300X GPU上。而適配DeepSeek-R1大模型的廠商包括英偉達(dá)、英特爾以及國(guó)內(nèi)廠商昇騰、龍芯、摩爾線程、海光信息等等。而采用這些芯片所獲得的DeepSeek-R1模型推理性能不亞于英偉達(dá)GPU的效果。

DeepSeek有著對(duì)架構(gòu)更深層次的理解，如若自研芯片，發(fā)揮其軟硬件結(jié)合的能力，那么研發(fā)更具性價(jià)比的訓(xùn)練或推理芯片，進(jìn)一步降低成本，或許將在更大程度上促進(jìn)端側(cè)AI的應(yīng)用爆發(fā)，以及帶動(dòng)AI芯片的多樣性發(fā)展。

OpenAI 3nm 推理芯片

去年，OpenAI進(jìn)行硬件戰(zhàn)略調(diào)整，旨在優(yōu)化計(jì)算資源和降低成本。OpenAI將引入AMD的MI300系列芯片，并繼續(xù)使用英偉達(dá)的GPU。而其自研芯片也提上日程。去年10月，OpenAI與芯片制造商博通合作開(kāi)發(fā)首款專注于推理的人工智能芯片。雙方還在與臺(tái)積電進(jìn)行磋商，以推進(jìn)這一項(xiàng)目。

據(jù)外媒最新報(bào)道OpenAI 將在未來(lái)幾個(gè)月內(nèi)完成其首款內(nèi)部芯片的設(shè)計(jì)，并計(jì)劃將其送往臺(tái)積電制造，臺(tái)積電將使用 3nm 技術(shù)制造 OpenAI 芯片，該芯片有望在 2025 年底進(jìn)行測(cè)試以及在 2026 年開(kāi)始大規(guī)模生產(chǎn)，預(yù)計(jì)該芯片將具有“高帶寬內(nèi)存”和“廣泛的網(wǎng)絡(luò)功能”。

根據(jù)機(jī)構(gòu)測(cè)算，到2028年人工智能的推理負(fù)載占比有望達(dá)到85%，考慮到云端和邊緣側(cè)巨大的推理需求，未來(lái)推理芯片的預(yù)期市場(chǎng)規(guī)模將是訓(xùn)練芯片的4～6倍。OpenAI自研推理芯片正好趕上這波人工智能推理應(yīng)用的全面爆發(fā)。

亞馬遜3nm制程Trainium3芯片
實(shí)際上，為了擺脫對(duì)英偉達(dá)GPU的依賴，亞馬遜、微軟和 Meta 等科技巨頭也開(kāi)始自研芯片。

去年12月，亞馬遜 AWS 宣布，基于其內(nèi)部團(tuán)隊(duì)所開(kāi)發(fā) AI 訓(xùn)練芯片 Trainium2 的 Trn2 實(shí)例廣泛可用，并推出了 Trn2 UltraServer 大型 AI 訓(xùn)練系統(tǒng)，同時(shí)還發(fā)布了下代更先進(jìn)的 3nm 制程 Trainium3 芯片。

單個(gè) Trn2 實(shí)例包含 16 顆 Trainium2 芯片，各芯片間采用超高速高帶寬低延遲 NeuronLink 互聯(lián)，可提供 20.8 petaflops 的峰值算力，適合數(shù) B 參數(shù)大小模型的訓(xùn)練和部署。

而亞馬遜 AWS下代 Trainium3 AI 訓(xùn)練芯片，是 AWS 首款采用 3nm 制程的芯片產(chǎn)品。亞馬遜表示基于 Trainium3 的 UltraServer 性能可達(dá) Trn2 UltraServer 的 4 倍，首批基于 Trainium3 的實(shí)例預(yù)計(jì)將于2025年底推出。

LPU語(yǔ)言處理單元

在AI推理大潮下，Groq公司開(kāi)發(fā)的語(yǔ)言處理單元（Language Processing Unit，即LPU），以其獨(dú)特的架構(gòu)，帶來(lái)了極高的推理性能的表現(xiàn)。

Groq的芯片采用14nm制程，搭載了230MB SRAM以保證內(nèi)存帶寬，片上內(nèi)存帶寬達(dá)80TB/s。在算力方面，該芯片的整型（8位）運(yùn)算速度為750TOPs，浮點(diǎn)（16位）運(yùn)算速度為188TFLOPs。

在Llama 2-70B推理任務(wù)中，LPU系統(tǒng)實(shí)現(xiàn)每秒近300 token的吞吐量，相較英偉達(dá)H100實(shí)現(xiàn)10倍性能提升，單位推理成本降低達(dá)80%。在Llama 3.1-8B推理任務(wù)中，LPU系統(tǒng)實(shí)現(xiàn)每秒736 token的吞吐量。

圖源：Groq官網(wǎng)

公開(kāi)信息顯示，LPU的運(yùn)作方式與GPU不同，它使用時(shí)序指令集計(jì)算機(jī)（Temporal Instruction Set Computer）架構(gòu)，與GPU使用的SIMD（單指令，多數(shù)據(jù)）不同。這種設(shè)計(jì)可以讓芯片不必像GPU那樣頻繁地從HBM內(nèi)存重載數(shù)據(jù)。并避免了HBM短缺的問(wèn)題，從而降低成本。

在能效方面，LPU 通過(guò)減少多線程管理的開(kāi)銷和避免核心資源的未充分利用，實(shí)現(xiàn)了更高的每瓦特計(jì)算性能，在執(zhí)行推理任務(wù)時(shí)，從外部?jī)?nèi)存讀取的數(shù)據(jù)更少，消耗的電量也低于英偉達(dá)的GPU。

LPU的推出為AI推理芯片帶來(lái)了新的思路，但不得不說(shuō)的是，Groq LPU芯片的成本相對(duì)較高，主要是購(gòu)卡成本和運(yùn)營(yíng)成本。若以大模型運(yùn)行吞吐量來(lái)計(jì)算，同等數(shù)據(jù)條件下，Groq LPU的硬件成本價(jià)格不菲。盡管這一芯片的性能表現(xiàn)突出，但對(duì)于成本優(yōu)化還需要做出很多努力。希望隨著硬件技術(shù)、生產(chǎn)制造以及規(guī)模效應(yīng)的逐步成熟，其應(yīng)用成本有望得到改善。

DeepSeek的出現(xiàn)，以低成本特性降低了企業(yè)準(zhǔn)入門(mén)檻，使更多企業(yè)能夠開(kāi)展 AI 項(xiàng)目，推理端需求大幅增長(zhǎng)。但這還不夠，要使AI訓(xùn)練或推理成本進(jìn)一步下探，不再局限于采用某一家的GPU，而是SoC、ASIC、FPGA等芯片都有機(jī)會(huì)，一些新的技術(shù)架構(gòu)、不依賴先進(jìn)工藝的芯片等有更多發(fā)展的空間，從而推動(dòng)AI芯片的多元化發(fā)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴