福利精品网站黄,欧美成人无免费码视频,免费一级无码啪啪片

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）ChatGPT的出現(xiàn)，對(duì)于數(shù)據(jù)中心硬件市場(chǎng)無(wú)疑是一針強(qiáng)心劑，不少GPU廠商更是從中受益，從再度興起的聊天機(jī)器人潮流中收獲了更多訂單。那么對(duì)于ChatGPT這類對(duì)AI算力有著不小需求的應(yīng)用來(lái)說，ASIC和FPGA是否也能借上這股東風(fēng)呢？

不同硬件的成本對(duì)比

在機(jī)器學(xué)習(xí)推理場(chǎng)景中，除了GPU外，還有一大通用AI硬件適合這一負(fù)載，那就是FPGA。與GPU一樣，在技術(shù)和算法還未成熟且仍在打磨階段時(shí)，可以隨時(shí)重新編程改變芯片功能的FPGA架構(gòu)前期硬件成本顯著低于GPU。在推理性能上，現(xiàn)如今的FPGA加速卡算力遠(yuǎn)超CPU，甚至高過不少GPU產(chǎn)品。

而且在ChatGPT這樣的聊天機(jī)器人應(yīng)用上，將FPGA用于推理得以發(fā)揮其最大的優(yōu)勢(shì)，那就是高吞吐量和低時(shí)延。更高的吞吐量和更低的時(shí)延也就意味著更大的并發(fā)，對(duì)ChatGPT這種應(yīng)用來(lái)說可以極大增強(qiáng)其響應(yīng)速度。

Alveo V70推理加速卡 / AMD

但隨著算法和模型逐漸成熟，F(xiàn)PGA在成本上的優(yōu)勢(shì)就慢慢不存在了，在大語(yǔ)言模型上需要用到更多的硬件，而FPGA量產(chǎn)規(guī)模的單價(jià)成本還是太高了，一旦擴(kuò)充至成千上萬(wàn)張加速卡，其成本也是不小的。比如AMD推出的新加速卡Alveo V70，據(jù)傳單卡價(jià)格就在2000美元左右。如果我們以INT8精度來(lái)衡量算力的話，假設(shè)ChatGPT需要28936塊A100 GPU，那么改用Alveo V70的話，也需要44693塊加速卡。

所以還是有不少人將目光投向了量產(chǎn)規(guī)模成本更低的ASIC，比如谷歌就選擇用自研的TPU來(lái)部署其聊天機(jī)器人Bard。ASIC方案在單芯片算力上或許不是最高的，但計(jì)算效率卻是最高的，而且隨著量產(chǎn)化單片成本會(huì)逐漸降低。比如谷歌的單個(gè)TPU v4 Pod就集成了4096個(gè)TPU v4芯片，單芯片的BF16算力達(dá)到275TFLOPS，已經(jīng)相當(dāng)接近A100單卡峰值算力了。如果只是這樣簡(jiǎn)單換算的話，只需幾個(gè)TPU v4 Pod，就能滿足與ChatGPT同量級(jí)的應(yīng)用了。

不過ASIC方案并沒有我們想象得那么美好，首先這類硬件的前期設(shè)計(jì)成本較大，要想投入數(shù)據(jù)中心商用，必須組建強(qiáng)大的硬件設(shè)計(jì)和軟件開發(fā)團(tuán)隊(duì)，這樣才能有與GPU相抗衡的性能。其次，因?yàn)楸旧韺Ｓ糜布奶匦裕瑢Ｓ糜跈C(jī)器學(xué)習(xí)推理的ASIC方案很難最大化數(shù)據(jù)中心的硬件利用率，不像GPU還可以同時(shí)用于訓(xùn)練、視頻編解碼等等。

搭建屬于自己的ChatGPT的成本有多高

對(duì)于GPT-3這樣的大型模型來(lái)說，要想個(gè)人搭建和部署從成本上看肯定不是實(shí)惠的選擇，所以我們可以選擇其他的模型，比如Meta推出的1750億參數(shù)OPT-175B模型。加州大學(xué)伯克利分校的Sky Lab就借助該模型推出了一個(gè)開源系統(tǒng)Alpa，同時(shí)具備聊天機(jī)器人、翻譯、代碼編寫和數(shù)學(xué)計(jì)算的功能。

要想部署OPT-175B模型并搭建Alpa這樣的文字聊天應(yīng)用，對(duì)GPU的要求要遠(yuǎn)遠(yuǎn)小于ChatGPT。但這是建立在其本身響應(yīng)速度和功能特性就顯著弱于ChatGPT的情況下，比如一旦設(shè)定的回答長(zhǎng)度過長(zhǎng)，就需要等上數(shù)十秒，何況它列出的GPU需求也不算小。

根據(jù)Alpa的官方說明，雖然不需要用到最新一代的A100 80GB這樣價(jià)格高昂的GPU或是InfiniBand這樣先進(jìn)的互聯(lián)方案，但對(duì)顯存的最低要求也已經(jīng)達(dá)到了350GB。所以Alpa給的建議是使用32個(gè)英偉達(dá)Tesla V100 GPU，從而提供512GB的顯存，這樣硬件造價(jià)在50萬(wàn)到150萬(wàn)之間。

Tesla V100 GPU / 英偉達(dá)

如果你只是想開展聊天機(jī)器人的服務(wù)，而不是自己買硬件的話，也可以選擇各大公有云服務(wù)廠商的方案，比如亞馬遜AWS的EC2 P3系列，就是專為機(jī)器學(xué)習(xí)和HPC準(zhǔn)備的實(shí)例。每個(gè)EC2 P3.16xlarge實(shí)例上有8塊Tesla V100 GPU，所以至少租賃4個(gè)實(shí)例就能運(yùn)行Alpa了。

不過這樣一來(lái)服務(wù)器的費(fèi)用也并不算便宜，單個(gè)實(shí)例按需付費(fèi)每小時(shí)的花費(fèi)在24.48美元左右，也就是說如果要全天運(yùn)行的話，運(yùn)行Alpa的成本為2400美元一天。哪怕云服務(wù)廠商通常都會(huì)給到長(zhǎng)期承諾使用的折扣，這也是一筆不小的支出。

谷歌推出的Cloud TPU方案也是如此，如果真的打算以租賃服務(wù)器的方式來(lái)打造ChatGPT，那么谷歌目前給出的按需定價(jià)是每芯片小時(shí)價(jià)格3.22美元。要想部署數(shù)萬(wàn)規(guī)模的TPU v4芯片媲美ChatGPT，那么一定逃不掉超高的費(fèi)用。

結(jié)語(yǔ)

不久前我們已經(jīng)提到了ChatGPT的加入或許會(huì)給微軟的現(xiàn)有產(chǎn)品帶來(lái)定價(jià)的提升，如今這個(gè)猜測(cè)也已經(jīng)成真。微軟近日宣布，從今年5月1日開始，微軟Bing搜索API的定價(jià)將會(huì)直線飆升，其中超大并發(fā)（每秒250次處理）的S1實(shí)例定價(jià)從每千次處理7美元提升至25美元，而額外的Bing統(tǒng)計(jì)更是從每千次處理1美元的價(jià)格拔高至10美元。如此看來(lái)，可見大語(yǔ)言模型的推理成本有多高可見一斑了，哪怕是微軟也經(jīng)不起這樣燒錢。

所以對(duì)于ChatGPT這種應(yīng)用，其運(yùn)營(yíng)者不同，對(duì)待硬件成本的看法也會(huì)不同，比如微軟、谷歌之類已經(jīng)擁有大規(guī)模服務(wù)器硬件的廠商，必然會(huì)利用現(xiàn)有GPU資源的同時(shí)，考慮如何用定制化的ASIC進(jìn)一步節(jié)省成本。而體量較小的運(yùn)營(yíng)者，例如聊天機(jī)器人應(yīng)用開發(fā)商、研究機(jī)構(gòu)等，還是會(huì)選擇租賃服務(wù)器或小規(guī)模本地部署，其首選硬件也會(huì)是GPU。

再說回FPGA，雖然從目前數(shù)據(jù)中心的市場(chǎng)現(xiàn)狀來(lái)看，F(xiàn)PGA的AI推理加速卡仍處于一個(gè)弱勢(shì)的位置。但隨著AMD開始推出Alveo V70這樣全新XDNA架構(gòu)的方案，或許能給未來(lái)需要更大吞吐量的模型提供新的出路，尤其是視頻分析推理應(yīng)用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴