chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)要小心了!爆火的Groq芯片能翻盤嗎?AI推理速度「吊打」英偉達(dá)?

GPU視覺(jué)識(shí)別 ? 來(lái)源:GPU視覺(jué)識(shí)別 ? 作者:GPU視覺(jué)識(shí)別 ? 2024-03-08 09:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著科技的飛速發(fā)展,人工智能公司Groq挑戰(zhàn)了英偉達(dá)的王者地位,其AI芯片不僅展現(xiàn)出卓越的實(shí)力,還擁有巨大的潛力。Groq設(shè)計(jì)了一種獨(dú)特的推理代幣經(jīng)濟(jì)學(xué)模式,該模式背后牽動(dòng)著眾多因素,卻也引發(fā)了深度思考:新的技術(shù)突破來(lái)自何處?中國(guó)該如何應(yīng)對(duì)并抓住變革中的機(jī)遇?Groq成本如何評(píng)估?這些都是值得研究和思考的問(wèn)題。

Groq芯片的實(shí)力與潛力

近期AI芯片領(lǐng)域嶄Groq可謂是火爆全球,其在處理大型模型token生成上所展示出的表現(xiàn)令人驚嘆。這意味著我們可以在與GPT等復(fù)雜聊天機(jī)器人互動(dòng)時(shí),實(shí)時(shí)獲得回應(yīng),無(wú)需等待機(jī)器人逐個(gè)生成答案。

那么,Groq驅(qū)動(dòng)的大模型生成速度究竟有多快呢?令人難以置信的是,當(dāng)Groq的LPU驅(qū)動(dòng)含有700億參數(shù)的Llama 2大模型時(shí),其生成速度被推至新高度,平均每秒生成185個(gè)token。該速度遠(yuǎn)超其他使用GPU驅(qū)動(dòng)的AI云服務(wù)提供商。

而在面對(duì)Mix Strore8x7B模型時(shí),Groq的性能更是達(dá)到新峰值,其生成速度飆至每秒488.6個(gè)token,相比依賴英偉達(dá)GPU的系統(tǒng)每秒僅能產(chǎn)生15個(gè)token的速度,可以說(shuō)是取得了壓倒性的勝利。從這些事實(shí)中,不難看出Groq的LPU在大型模型生成速度上占據(jù)絕對(duì)優(yōu)勢(shì)。LPU曾被稱為TSP(Tensor Streaming Processor),即一個(gè)裝配有大量Tensor單元的流式處理器。

wKgZomXqbYmANPw6AAMZMntLydA602.png

那么對(duì)于Groq公司,大家一定對(duì)它的來(lái)歷感到好奇吧?

Groq是由前谷歌TPU團(tuán)隊(duì)核心成員喬納斯羅斯2016年創(chuàng)立的公司,其推出產(chǎn)品被稱為L(zhǎng)PU(Language Processing Unit),專為處理大模型設(shè)計(jì)的加速芯片。

一、GPU的局限性

盡管GPU在訓(xùn)練機(jī)器學(xué)習(xí)模型方面的強(qiáng)大作用無(wú)可替代,其強(qiáng)大的計(jì)算能力、快速參數(shù)更新速度和豐富的生態(tài)系統(tǒng)使之成為業(yè)內(nèi)的主流選擇,但它并非模型推理的理想選擇。一方面是因?yàn)镚PU架構(gòu)復(fù)雜,其中只有部分核心專門針對(duì)AI場(chǎng)景。其次,GPU承載存儲(chǔ)和計(jì)算兩個(gè)部分,導(dǎo)致數(shù)據(jù)需要頻繁讀寫,從而降低運(yùn)行速度,提高功耗。

wKgaomXqbYqAEnO6AAVD0QAjm0o097.png

二、GPU、TPU和Groq的LPU的優(yōu)勢(shì)與挑戰(zhàn)

下面我們一起來(lái)分析專門為AI應(yīng)用設(shè)計(jì)的芯片,以谷歌的TPU和Groq的LPU為例。TPU和LPU都有自身的獨(dú)特優(yōu)勢(shì),但也有著各自的挑戰(zhàn)需要我們?nèi)ダ斫夂吞接憽?/p>

1、谷歌TPU

TPU專為AI應(yīng)用設(shè)計(jì)的芯片,專門處理矩陣運(yùn)算(AI應(yīng)用中超過(guò)90%的計(jì)算任務(wù))。在執(zhí)行AI訓(xùn)練和推理過(guò)程中,TPU能夠便捷地處理不同的計(jì)算任務(wù),如激活函數(shù)、優(yōu)化算法以及損失函數(shù)等。這些都是通過(guò)高效的向量計(jì)算模塊來(lái)完成的。而其特色之處在于,TPU采用一種獨(dú)特的陣列設(shè)計(jì)方法,數(shù)據(jù)一旦導(dǎo)入,便會(huì)在內(nèi)部形成一個(gè)流水線,持續(xù)運(yùn)動(dòng)直到完成計(jì)算。這種持續(xù)流動(dòng)式處理方式極大地降低了數(shù)據(jù)的讀寫次數(shù),從而提升了在AI應(yīng)用中的計(jì)算效率。

2、Groq的LPU

Groq的LPU采用與TPU相同的處理模式,不同的是它在計(jì)算單元旁邊直接集成了大約230MB的SRAM,帶寬可達(dá)80TB/s。比起GPU,當(dāng)運(yùn)行同等參數(shù)的模型時(shí),LPU需要的內(nèi)存更多,這也是LPU在運(yùn)行速度上擁有優(yōu)勢(shì)的原因。

不過(guò),盡管LPU的速度令人矚目,但其昂貴的價(jià)格也是一個(gè)不容忽視的問(wèn)題。LPU每塊價(jià)格近20000美元,如果要運(yùn)行擁有上千億參數(shù)的大模型,可能需要購(gòu)買數(shù)百塊LPU。也就是說(shuō),盡管LPU的單獨(dú)計(jì)算率高,但在數(shù)量需求上,部分GPU在成本效益上更具優(yōu)勢(shì)。

wKgZomXqbYqANmFPAAsfM497ZsA220.png

3、SRAM的容量問(wèn)題

有人可能會(huì)提出為什么不直接擴(kuò)大到1TB?實(shí)際上,這樣做的技術(shù)難度很高,同時(shí)也會(huì)增加制造成本。因此,230MB的SRAM可能就是在權(quán)衡設(shè)計(jì)難度和制造成本后,現(xiàn)階段可以實(shí)現(xiàn)的一個(gè)平衡點(diǎn)。

wKgaomXqbYuAbFC8ABzTJPd13P4196.png

Groq的成本分析

Groq人工智能硬件公司因其在推理API領(lǐng)域的卓越性能以及為技術(shù)如思維鏈的實(shí)際應(yīng)用所鋪就道路的貢獻(xiàn)而廣受關(guān)注。它在單串性能方面的優(yōu)勢(shì)更是受到稱贊,對(duì)于特定的市場(chǎng)和應(yīng)用環(huán)境,Groq的速度優(yōu)勢(shì)已經(jīng)改變了原有的格局。然而,足夠的運(yùn)行速度只是解決方案的一部分。Groq的另一優(yōu)勢(shì)是供應(yīng)鏈的多元化,即所有制造和封裝流程都在美國(guó)完成。相比之下,洛基達(dá)、谷歌、AMD等依賴韓國(guó)內(nèi)存和臺(tái)灣先進(jìn)芯片封裝技術(shù)的AI芯片供應(yīng)商形成鮮明對(duì)比。

wKgZomXqbYuAG57RAAFqYLGHjbE002.png

雖然Groq的優(yōu)勢(shì)明顯,但一個(gè)硬件是否具有變革性的決定因素是其性能與總成本的比值。不同于傳統(tǒng)軟件,AI軟件的運(yùn)行需要更強(qiáng)大的硬件基礎(chǔ)設(shè)施,這無(wú)疑對(duì)資本和運(yùn)營(yíng)成本產(chǎn)生更大的影響,從而對(duì)凈利潤(rùn)形成影響。因此,優(yōu)化AI基礎(chǔ)設(shè)施以實(shí)現(xiàn)AI軟件的高效部署尤為重要,擁有優(yōu)越基礎(chǔ)設(shè)施的公司無(wú)疑將在使用AI部署和拓展應(yīng)用程序的競(jìng)賽中立于不敗之地。

根據(jù)"Inference Race to the Bottom"的研究,大量公司可能會(huì)在Mixtral API推理服務(wù)中虧本,以致于需要設(shè)定極低的訪問(wèn)率減少損失。然而,Groq卻敢于在定價(jià)上與這些公司一較高下,其每個(gè)代幣價(jià)格低至0.27美元。接下來(lái),我們將更深入地研究Groq的芯片、系統(tǒng)以及成本分析,看看他們是如何實(shí)現(xiàn)這樣卓越的性能。

wKgaomXqbYyAYa0QAANBsvRSJwQ398.png

Groq芯片采用固定的VLIW架構(gòu),并在Global Foundries的14nm工藝上實(shí)現(xiàn)約725mm2的規(guī)模。由于芯片并未裝配緩存器,所以所有權(quán)重、KVCache和激活數(shù)據(jù)在處理過(guò)程中都儲(chǔ)存于芯片中,不需外置存儲(chǔ)。然而,由于每枚芯片僅擁有230MB的SRAM,所以無(wú)法將實(shí)際的模型完整地裝入單一芯片中。因此,需要使用多個(gè)芯片來(lái)共同執(zhí)行模型的運(yùn)算,并連接在一起。

wKgZomXqbYyARmZjAAX78s5j-po832.png

要運(yùn)行Mixtral模型,Groq需將576個(gè)芯片串聯(lián)起來(lái),這些芯片被均勻地分布在72個(gè)服務(wù)器上,而這些服務(wù)器則被部署在8個(gè)不同機(jī)架中。相比之下,Nvidia的H100只需一個(gè)芯片就能運(yùn)行同樣的模型,而兩個(gè)芯片則能處理大規(guī)模數(shù)據(jù)。

在芯片成本方面,產(chǎn)出Groq芯片的每片晶圓價(jià)格不會(huì)超過(guò)6000美元。而對(duì)照到Nvidia的H100芯片(尺寸為814mm2,采用臺(tái)灣半導(dǎo)體制造公司的5nm自定義工藝),同樣一片晶圓的制作成本就近在16000美元。此外,Groq在設(shè)計(jì)上并未考慮到良率收縮,與Nvidia有著鮮明的對(duì)比,后者會(huì)關(guān)閉大約15%的H100 SKU,以反映出產(chǎn)品的主流族群。

當(dāng)考慮到內(nèi)存成本,Nvidia從SK Hynix采購(gòu)的每片80GB HBM芯片的預(yù)計(jì)價(jià)格為1150美元。另外,還需要額外付費(fèi)給臺(tái)積電的CoWoS服務(wù),導(dǎo)致總成本進(jìn)一步增加。然而,由于Groq并無(wú)額外的外部?jī)?nèi)存需求,因此其芯片構(gòu)成要素清單大大縮減。

下表將展示Groq部署策略的特點(diǎn),特別是在流水線并行性和批處理尺寸均為3時(shí)的情況。同時(shí),也會(huì)將經(jīng)過(guò)延遲和吞吐量?jī)?yōu)化后的Nvidia的H100推理部署情況做出對(duì)比。

wKgaomXqbY2AY4j0AAVl8F6f-m8679.png

本次分析簡(jiǎn)化了部分經(jīng)濟(jì)因素,未充分考慮進(jìn)一些系統(tǒng)成本及Nvidia巨大的利潤(rùn)空間。但卻明確突出Groq芯片架構(gòu)的優(yōu)勢(shì),尤其是與延遲優(yōu)化過(guò)的Nvidia系統(tǒng)進(jìn)行比較時(shí)。

對(duì)于Mixtral模型,八顆A100s芯片可以提供約220個(gè)代幣的吞吐量/秒,而這還不包括預(yù)測(cè)解碼。同樣地,八顆H100s芯片可以達(dá)到約280個(gè)代幣的吞吐量/秒,如果加上預(yù)測(cè)解碼,吞吐量更可以達(dá)到約420。當(dāng)前,由于經(jīng)濟(jì)收益不高,市場(chǎng)上尚未出現(xiàn)面向延遲優(yōu)化的API服務(wù)。然而,隨著代理及其他低延遲任務(wù)的日益普及,以GPU為基礎(chǔ)的API供應(yīng)商可能會(huì)提供相應(yīng)的優(yōu)化API。

Groq的優(yōu)勢(shì)表現(xiàn)在不需要預(yù)測(cè)解碼的高性能,且這一優(yōu)勢(shì)在實(shí)現(xiàn)批處理系統(tǒng)后仍然顯著。Groq仍在使用相對(duì)較舊的14nm工藝,并向Marvell支付較高的芯片利潤(rùn)。然而,隨著Groq的投資額增加,以及其下一代4nm芯片產(chǎn)量的提高,情況可能發(fā)生改變。

對(duì)性能優(yōu)化過(guò)的系統(tǒng)來(lái)說(shuō),其成本效益將會(huì)顯著改變。通過(guò)基于BOM計(jì)算,在每單位美元的投入中,Nvidia的性能增長(zhǎng)率顯著提升,但其用戶吞吐量卻相對(duì)較低。

簡(jiǎn)化的分析方式無(wú)法考慮到系統(tǒng)成本、利潤(rùn)率和功耗等因素,我們將在未來(lái)進(jìn)一步研究性能與總成本的關(guān)系。

一旦將上述因素考慮進(jìn)去,對(duì)Tokenomics的理解將發(fā)生改變。Nvidia的商業(yè)模式依賴于他們的GPU板的高額利潤(rùn),以及所收取的服務(wù)器費(fèi)用。

wKgaomXqbY6AckV3AAa-LCbzJ48815.png

如今,最大的模型參數(shù)范圍已達(dá)到1到2萬(wàn)億,而預(yù)期谷歌和OpenAI將研發(fā)超過(guò)10萬(wàn)億參數(shù)的模型。同時(shí),大模型如Llama3和Mistral也即將發(fā)布。此類模型需要搭配幾百個(gè)GPU和數(shù)十TB的內(nèi)存的強(qiáng)大推理系統(tǒng)支持。已經(jīng)有公司如Groq顯示出處理不超過(guò)1000億參數(shù)模型的能力,并計(jì)劃在未來(lái)兩年部署上百萬(wàn)芯片。

谷歌的Gemini 1.5 Pro能夠處理高達(dá)1000萬(wàn)token的上下文,這意味著它可以處理長(zhǎng)達(dá)10小時(shí)的影片、110小時(shí)的音質(zhì)、30萬(wàn)行的編碼或700萬(wàn)字的內(nèi)容。這樣的長(zhǎng)上下文處理能力未來(lái)有望得到很多公司和服務(wù)商的迅速支持以更好地管理大量的編碼庫(kù)和文檔庫(kù),取而代之低效的RAG模型。在處理這樣的長(zhǎng)上下文信息時(shí),Groq需要構(gòu)建由數(shù)萬(wàn)片芯片組成的系統(tǒng),而目前諸如谷歌、英偉達(dá)和AMD等公司使用的是幾十到幾百片芯片。盡管預(yù)計(jì)四年后,由于其優(yōu)秀的靈活性,GPU將能處理新模型,但對(duì)于Groq這樣沒(méi)有DRAM的公司來(lái)說(shuō),隨著模型規(guī)模的擴(kuò)大,系統(tǒng)壽命可能會(huì)縮短,從而增加成本。

利用樹(shù)狀/分支推測(cè)的方式,推測(cè)性解碼的速度已經(jīng)提高約3倍。如果這種技術(shù)能在生產(chǎn)級(jí)系統(tǒng)上得到有效部署,那么8塊H100的處理速度將會(huì)提升到每秒600個(gè)Token,從而消解了Groq在速度上的優(yōu)勢(shì)。英偉達(dá)也未坐視不理,他們計(jì)劃在下個(gè)月發(fā)布性能以及TCO超過(guò)H100兩倍的B100芯片,并計(jì)劃在下半年開(kāi)始發(fā)貨,同時(shí)旗下B200和X/R100的研發(fā)工作也正在積極推進(jìn)。然而,倘若Groq能有效地?cái)U(kuò)大到數(shù)千個(gè)芯片的系統(tǒng),那么便能大幅增加流水線數(shù)量,為更多的鍵值緩存提供空間,從而實(shí)現(xiàn)大規(guī)模的批處理,可能會(huì)大幅降低成本。即使有分析師認(rèn)為這是可能的方向,但實(shí)現(xiàn)的可能性并不大。關(guān)鍵問(wèn)題在于是否值得放棄靈活的GPU,轉(zhuǎn)而建立專門的基礎(chǔ)設(shè)施以滿足小型模型推理市場(chǎng)對(duì)于快速響應(yīng)的需求。

華為芯片應(yīng)對(duì)挑戰(zhàn)

Groq的出現(xiàn)為計(jì)算力市場(chǎng)提供新的選擇,這既暗示強(qiáng)勁的市場(chǎng)需求和供應(yīng)短缺,也說(shuō)明科技公司正在構(gòu)建自己的體系,以對(duì)抗英偉達(dá)、AMD等的壟斷地位。對(duì)于國(guó)內(nèi)市場(chǎng),這無(wú)疑為國(guó)產(chǎn)芯片提供了更大的發(fā)展空間。

華為已經(jīng)推出昇騰910和昇騰310兩款采用達(dá)芬奇架構(gòu)的AI芯片。該架構(gòu)具有強(qiáng)大的計(jì)算能力,可以在一個(gè)周期內(nèi)完成4096次MAC運(yùn)算,并集成多種運(yùn)算單元,支持混合精度計(jì)算和數(shù)據(jù)精度運(yùn)算。

以昇騰系列AI處理器為基礎(chǔ),華為構(gòu)建Atlas人工智能計(jì)算方案,包括多種產(chǎn)品形態(tài),以應(yīng)對(duì)各種場(chǎng)景的AI基礎(chǔ)設(shè)施需求,覆蓋了深度學(xué)習(xí)的推理和訓(xùn)練全流程。

基于昇騰系列處理器構(gòu)建的全棧AI解決方案,已逐漸完善。該方案包括昇騰系列芯片、Atlas硬件系列、芯片使能、異構(gòu)計(jì)算架構(gòu)CANN以及AI計(jì)算框架等。其中,昇騰910芯片的單卡算力已能媲美英偉達(dá)A100。

wKgaomXqbZOAaSR6AAMtd0QK6zU368.png

英偉達(dá)與華為參數(shù)比對(duì)

華為的昇騰計(jì)算平臺(tái)CANN已從無(wú)到有取得顯著突破。從2018年的CANN 1.0版本到目前的7.0版本,這個(gè)專為AI場(chǎng)景設(shè)計(jì)的異構(gòu)計(jì)算架構(gòu)平臺(tái),已成功成為上層深度學(xué)習(xí)框架和底層AI硬件間的橋梁。

CANN已形成了繁榮的生態(tài)體系,適用于50多個(gè)主流的大模型,如訊飛星火、GPT-3、Stable Diffusion等,而且兼容主流加速庫(kù)和開(kāi)發(fā)工具包,加速創(chuàng)新應(yīng)用的落地。同時(shí),CANN支持主流的深度學(xué)習(xí)框架,如Pytorch和Tensorflow,且能在周級(jí)時(shí)間內(nèi)適配新版本。PyTorch已升級(jí)到2.1版本,支持昇騰NPU,助力開(kāi)發(fā)者在華為昇騰平臺(tái)上開(kāi)發(fā)模型。此外,第三方開(kāi)源社區(qū),如清華大學(xué)的Jittor和飛漿的PaddlePaddle FastDeploy也已經(jīng)支持接入CANN。

隨著華為昇騰910B的算力接近英偉達(dá)A100的標(biāo)準(zhǔn),以科大訊飛為代表的國(guó)產(chǎn)AI模型廠商已開(kāi)始投入使用??拼笥嶏w宣布,即將以昇騰生態(tài)為基礎(chǔ),發(fā)布基于“飛星一號(hào)”平臺(tái)的訊飛星火大模型,開(kāi)啟與GPT-4相對(duì)標(biāo)的更大規(guī)模訓(xùn)練。科大訊飛星火大模型3.5版已發(fā)布,其語(yǔ)言理解和數(shù)學(xué)能力已超過(guò)GPT-4 Turbo,而代碼能力及多模態(tài)理解分別達(dá)到其96%和91%。

wKgZomXqbZOAWco9AAaUmLLzJR0085.png

華為 CANN 時(shí)間線

Groq的成本評(píng)估方式

原阿里副總裁賈揚(yáng)清教授對(duì)Groq的成本評(píng)估非常精準(zhǔn),他強(qiáng)調(diào)Groq相較于H100的性價(jià)比較低,這其中包含一部分運(yùn)營(yíng)成本。這種觀點(diǎn)很有可能不僅僅是針對(duì)Groq,而是整個(gè)DSA設(shè)計(jì)領(lǐng)域。然而,如果忽略存儲(chǔ)成本,僅按照每個(gè)單元(token)的理論成本重新計(jì)算,得出的結(jié)果可能與此前相差甚遠(yuǎn)。

在現(xiàn)實(shí)LLM需求環(huán)境中,推理工作負(fù)載對(duì)內(nèi)存容量的需求是剛性的,包括模型權(quán)重、上下文KV值、各芯片/節(jié)點(diǎn)產(chǎn)生的中間結(jié)果、優(yōu)化器狀態(tài)(僅訓(xùn)練)等,都需要進(jìn)行密集讀取和移動(dòng)。此種情況下,Groq在處理大批量任務(wù)時(shí)的性能可能就變得有限,流水線并行中可能會(huì)產(chǎn)生低效或負(fù)效益。總并行度受限于能存放KV值的內(nèi)存容量,而并行度不足會(huì)對(duì)每token的成本產(chǎn)生影響。

相較之下,采用類似結(jié)構(gòu)的Graphcore 7nm IPU面臨的情況也差不多,盡管其配備900MB的片上SRAM,遠(yuǎn)超Groq的230MB,但依然遭遇商業(yè)化的困境。這進(jìn)一步驗(yàn)證了,如果基于SRAM的解決方案真的可行,類似的產(chǎn)品早就應(yīng)該彌漫市場(chǎng)了。再者,這種特殊構(gòu)型對(duì)應(yīng)的軟件編程框架和引導(dǎo)編譯器也是極大挑戰(zhàn);倘若一定要景氣地運(yùn)行Llama2 70B的推理任務(wù),其復(fù)雜的軟件和運(yùn)維開(kāi)銷是不容忽視的。

接著,Groq的單卡計(jì)算單元規(guī)格似乎更適合處理小規(guī)模的推理任務(wù),但其頗高的內(nèi)存帶寬在處理這類任務(wù)時(shí)的利用率未必能夠達(dá)到最優(yōu)。而倘若要處理中大型任務(wù),則需要面臨內(nèi)存容量、通信瓶頸和復(fù)雜度的問(wèn)題。雖然官方的測(cè)試主要聚焦在最大70B-最小7B的任務(wù)規(guī)模,但這顯然是Groq比較擅長(zhǎng)的工作負(fù)載規(guī)模,并特別強(qiáng)調(diào)INT8的算力(up to 750TOPs),說(shuō)明Groq產(chǎn)品的主打應(yīng)該是“INT8量化下的、面向70B-7B規(guī)模”的推理場(chǎng)景。

最后,無(wú)論從硬件還是軟件層面來(lái)看,相較于片外HBM+更大的L4+CXL方案,Groq的方案似乎有較高的迭代局限性,可能并不滿足當(dāng)前LLM工作負(fù)載的剛性需求,邊際效益也可能不如前者。然而,如果堅(jiān)持設(shè)計(jì)基于SRAM的DSA加速器,為何不研究一下Tesla Dojo的構(gòu)型呢?他們通過(guò)小顆粒SRAM+PE配對(duì)分散排列形成的2D矩陣的近存結(jié)構(gòu),而非片上集中主存,應(yīng)該能降低一部分成本,而這種結(jié)構(gòu)可能處理相當(dāng)復(fù)雜的操作,在非LLM計(jì)算場(chǎng)景中可能表現(xiàn)優(yōu)異。

wKgaomXqbZSAbgpGABntTB869_0104.png

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40922

    瀏覽量

    302511
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4112

    瀏覽量

    99595
  • A10
    A10
    +關(guān)注

    關(guān)注

    1

    文章

    25

    瀏覽量

    13027
  • H100
    +關(guān)注

    關(guān)注

    0

    文章

    33

    瀏覽量

    616
  • Groq
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    218
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中國(guó)AI芯片市場(chǎng):華為將占半壁江山,英偉達(dá)跌落,這家第二

    2026年華為將占據(jù)中國(guó)AI芯片市場(chǎng)50%的份額,成為該領(lǐng)域的絕對(duì)領(lǐng)導(dǎo)者。 ? 目前,英偉達(dá)(NVIDIA)以39%的市場(chǎng)份額位居中國(guó)AI
    的頭像 發(fā)表于 12-07 11:04 ?9832次閱讀
    中國(guó)<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>市場(chǎng):華為將占半壁江山,<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>跌落,這家第二

    堪稱史上最強(qiáng)推理芯片!英偉達(dá)發(fā)布 Rubin CPX,實(shí)現(xiàn)50倍ROI

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)近日,英偉達(dá)AI infra峰會(huì)上發(fā)布專為大規(guī)模上下文推理設(shè)計(jì)的全新GPU系列Rubin CPX,性能堪稱
    的頭像 發(fā)表于 09-11 08:25 ?1.1w次閱讀
    堪稱史上最強(qiáng)<b class='flag-5'>推理</b><b class='flag-5'>芯片</b>!<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>發(fā)布 Rubin CPX,實(shí)現(xiàn)50倍ROI

    AI推理需求井噴!英偉達(dá)Q1營(yíng)收大漲,H20禁售難擋增長(zhǎng)步伐

    電子發(fā)燒友原創(chuàng) 章鷹 在中美科技企業(yè)爭(zhēng)奪人工智能高地的競(jìng)爭(zhēng)中,處于第一方陣的美國(guó)AI芯片公司英偉達(dá)公司最新交出了讓市場(chǎng)滿意的答卷。 5月28日,英偉
    的頭像 發(fā)表于 05-31 01:13 ?8379次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求井噴!<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>Q1營(yíng)收大漲,H20禁售難擋增長(zhǎng)步伐

    硅光成AI勝負(fù)手?英偉達(dá)20億美元戰(zhàn)略投資Marvell

    納入英偉達(dá) AI 生態(tài)體系,并在硅光子技術(shù)領(lǐng)域展開(kāi)深度合作,旨在幫助客戶更高效地搭建 AI 算力基礎(chǔ)設(shè)施。 ? 構(gòu)建 “異構(gòu)計(jì)算” 新范式 根據(jù)雙方簽署的戰(zhàn)略協(xié)議,此次合作的核心圍繞N
    的頭像 發(fā)表于 04-06 07:02 ?1.1w次閱讀

    GPU不是AI的唯一解:英偉達(dá)Groq LPU證明,推理賽道需要“另一條腿”

    大會(huì)上,英偉達(dá)CEO黃仁勛正式發(fā)布Vera Rubin AI超級(jí)計(jì)算機(jī)平臺(tái)。這一平臺(tái)的問(wèn)世,不僅標(biāo)志著英偉
    的頭像 發(fā)表于 03-24 11:27 ?5983次閱讀
    GPU不是<b class='flag-5'>AI</b>的唯一解:<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>用<b class='flag-5'>Groq</b> LPU證明,<b class='flag-5'>推理</b>賽道需要“另一條腿”

    企業(yè)級(jí)AI Agent王炸! 英偉達(dá)GTC將開(kāi)源 NemoClaw

    消息人士透露,英偉達(dá)計(jì)劃在下周在美國(guó)圣荷西舉行的年度開(kāi)發(fā)者大會(huì)前后正式公布 NemoClaw。據(jù)知情人士向 WIRED 透露,該平臺(tái)允許企業(yè)部署 AI 代理為內(nèi)部團(tuán)隊(duì)執(zhí)行任務(wù),且不限于使用英偉
    的頭像 發(fā)表于 03-10 11:35 ?9291次閱讀
    企業(yè)級(jí)<b class='flag-5'>AI</b> Agent王炸! <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>GTC將開(kāi)源 NemoClaw

    英偉達(dá)電話會(huì)看Agentic AI推理與FPGA價(jià)值

    2026年2月,英偉達(dá)發(fā)布2026財(cái)年Q4財(cái)報(bào):營(yíng)收681億美元,同比增長(zhǎng)73%,數(shù)據(jù)中心業(yè)務(wù)增長(zhǎng)75%——預(yù)期中的超預(yù)期。更值得關(guān)注的,是電話會(huì)中反復(fù)出現(xiàn)的幾個(gè)關(guān)鍵詞:Agentic AI
    的頭像 發(fā)表于 03-04 17:07 ?1249次閱讀
    從<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>電話會(huì)看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與FPGA價(jià)值

    英偉達(dá)重磅出手!AI 推理存儲(chǔ)全面覺(jué)醒

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)近日,有消息稱,英偉達(dá)將以大約200億美元收購(gòu)人工智能芯片初創(chuàng)公司Groq,這將是英偉
    的頭像 發(fā)表于 12-26 08:44 ?1.2w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>重磅出手!<b class='flag-5'>AI</b> <b class='flag-5'>推理</b>存儲(chǔ)全面覺(jué)醒

    黃仁勛:英偉達(dá)AI芯片訂單排到2026年 英偉達(dá)上季營(yíng)收加速增長(zhǎng)62%再超預(yù)期

    AI芯片總龍頭英偉達(dá)的財(cái)報(bào)終于帶來(lái)了驚喜;英偉達(dá)公司發(fā)布財(cái)報(bào)數(shù)據(jù)顯示,上季營(yíng)收加速增長(zhǎng)62%;再
    的頭像 發(fā)表于 11-20 11:36 ?1436次閱讀

    NVIDIA新聞:英偉達(dá)10億美元入股諾基亞 英偉達(dá)推出全新量子設(shè)備

    給大家分享一些NVIDIA新聞: 英偉達(dá)10億美元入股諾基亞 在當(dāng)?shù)貢r(shí)間10月28日,英偉達(dá)正式宣布將以10億美元入股諾基亞;據(jù)悉英偉
    的頭像 發(fā)表于 10-29 17:12 ?2371次閱讀

    第四次工業(yè)革命AI將實(shí)現(xiàn)十億倍增長(zhǎng) | 中國(guó)AI芯片英偉達(dá)的角色

    內(nèi)容提要:黃仁勛BG2專訪:英偉達(dá)、OpenAI、算力未來(lái)與美國(guó)夢(mèng)AI規(guī)模定律與推理的革命:在傳統(tǒng)的AI規(guī)模定律(預(yù)訓(xùn)練、后訓(xùn)練)之上,引入
    的頭像 發(fā)表于 09-29 07:20 ?1315次閱讀
    第四次工業(yè)革命<b class='flag-5'>AI</b>將實(shí)現(xiàn)十億倍增長(zhǎng) | 中國(guó)<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>與<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>的角色

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的我我們講解了這幾種芯片的應(yīng)用場(chǎng)景,設(shè)計(jì)流程、結(jié)構(gòu)等。 CPU: 還為我們講解了一種算法:哈希表算法 GPU: 介紹英偉達(dá)H100GPU
    發(fā)表于 09-12 16:07

    國(guó)家網(wǎng)信辦約談英偉達(dá)

    近日,英偉達(dá)算力芯片被曝出存在嚴(yán)重安全問(wèn)題。此前,美議員呼吁要求美出口的先進(jìn)芯片必須配備“追蹤定位”功能。美人工智能領(lǐng)域?qū)<彝嘎叮?b class='flag-5'>英偉
    的頭像 發(fā)表于 07-31 13:56 ?2819次閱讀
    國(guó)家網(wǎng)信辦約談<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>

    施耐德電氣與英偉達(dá)深化合作

    近日,施耐德電氣宣布與英偉達(dá)深化合作,旨在滿足市場(chǎng)對(duì)可持續(xù)、AI就緒基礎(chǔ)設(shè)施日益增長(zhǎng)的需求。
    的頭像 發(fā)表于 06-24 15:02 ?1474次閱讀