日日澡日日添日日摸97影院,在线观看视频你懂的国产,肉欲丰满人妻影院

超級(jí)計(jì)算機(jī)對(duì)于科學(xué)研究、能源、工程設(shè)計(jì)領(lǐng)域具有重要意義，在商業(yè)用途中也發(fā)揮重要作用。2022年高性能計(jì)算專業(yè)大會(huì)發(fā)布的全球超級(jí)計(jì)算機(jī)Top500排行榜顯示，美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室（ORNL）的Frontier系統(tǒng)位列榜首，自2022年6月以來(lái)，F(xiàn)rontier一直是全球超級(jí)計(jì)算機(jī)Top500名單上的強(qiáng)大設(shè)備。

圖注：全球超級(jí)計(jì)算機(jī)Top10，發(fā)布時(shí)間為2022年11月（來(lái)源：中科院網(wǎng)信工作網(wǎng)）

進(jìn)入2023年，超級(jí)計(jì)算機(jī)的排行將發(fā)生改變。

芯查查APP顯示，在美國(guó)勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室（LLNL）安裝的“El Capitan”超級(jí)計(jì)算機(jī)最快于2023年底啟動(dòng)，從而可能刷新全球超級(jí)計(jì)算機(jī)榜單。El Capitan估計(jì)FP64峰值性能約為2.3 exaflops，比Frontier超級(jí)計(jì)算機(jī)的1.68 exaflops性能高出約37%。

同時(shí)，人工智能（AI）應(yīng)用掀起，超大規(guī)模云服務(wù)企和AI初創(chuàng)企業(yè)都開(kāi)始構(gòu)建大型數(shù)據(jù)中心，比如，NVIDIA和CoreWeave正在為Inflection AI開(kāi)發(fā)數(shù)據(jù)中心；Microsoft Azure正在為OpenAI構(gòu)建的數(shù)據(jù)中心。從下圖可以看出，目前在建的這兩個(gè)AI數(shù)據(jù)中心在TFLOPS算力性能上雖然不如現(xiàn)有的超級(jí)計(jì)算機(jī)，但是在成本上已經(jīng)超出很多。

圖注：超級(jí)計(jì)算機(jī)與AI數(shù)據(jù)中心對(duì)比（來(lái)源：nextplatform網(wǎng)站）

AI數(shù)據(jù)中心面向AI訓(xùn)練和推理進(jìn)行配置，在建的AI數(shù)據(jù)中心進(jìn)程如何？使用了哪些處理器？

Inflection AI使用處理器：NVIDIA H100Inflection AI是一家由Deep Mind前負(fù)責(zé)人創(chuàng)建，并由Microsoft和Nvidia支持的新創(chuàng)業(yè)公司。目前估值約為40億美元，產(chǎn)品為AI聊天機(jī)器人，支持計(jì)劃、調(diào)度和信息收集。

在籌集了13億美元的資金之后，Inflection AI將建立一個(gè)由多達(dá)22000個(gè)NVIDIA H100 GPU驅(qū)動(dòng)的超級(jí)計(jì)算機(jī)集群，其峰值理論計(jì)算能力將與Frontier相當(dāng)。理論上能夠提供1.474 exaflops的FP64性能。在CUDA內(nèi)核上運(yùn)行通用FP64代碼時(shí)，峰值吞吐量?jī)H為其一半：0.737 FP64 exaflops（與前文圖表數(shù)值略有出入，但相差不大）。雖然FP64性能對(duì)于許多科學(xué)工作負(fù)載很重要，但對(duì)于面向AI的任務(wù)，該系統(tǒng)可能會(huì)更快。FP16/BF16的峰值吞吐量為43.5 exaflops，F(xiàn)P8吞吐量的峰值吞吐量是87.1 exaflops。

圖片來(lái)源：NVIDIA

Inflection AI的服務(wù)器集群成本尚不清楚，但NVIDIA H100 GPU零售價(jià)超過(guò)30000美元，預(yù)計(jì)該集群的GPU成本將達(dá)到數(shù)億美元。加上所有機(jī)架服務(wù)器和其他硬件，將占13億美元資金的大部分。

在市場(chǎng)需求遠(yuǎn)遠(yuǎn)超過(guò)供應(yīng)的情況下，NVIDIA或AMD不會(huì)為其GPU計(jì)算引擎給予大幅折扣就，其服務(wù)器OEM和ODM合作伙伴同樣如此。因此，與美國(guó)的百億億次高性能計(jì)算系統(tǒng)相比，這些設(shè)備非常昂貴。Inflection AI的FP16半精度性能為21.8 exaflops，足以驅(qū)動(dòng)一些非常大的LLM和DLRM（大型語(yǔ)言模型和深度學(xué)習(xí)推薦模型）。

El Capitan使用處理器：AMD Instinct MI300A為超級(jí)計(jì)算機(jī)“El Capitan”提供算力的處理器是“Antares”AMD Instinct MI300A CPU-GPU混合體，其FP16矩陣數(shù)學(xué)性能仍然未知。

圖注：基于AMD MI300的刀片設(shè)施（來(lái)源：http://tomshardware.com）

Instinct MI300是一款數(shù)據(jù)中心APU，它混合了總共13個(gè)chiplet，其中許多是3D堆疊的，形成一個(gè)單芯片封裝，其中包含24個(gè)Zen 4 CPU內(nèi)核，融合CDNA 3圖形引擎和八個(gè)總?cè)萘繛?28GB的HBM3內(nèi)存堆棧。這個(gè)芯片擁有1460億個(gè)晶體管，使其成為AMD投入生產(chǎn)的最大芯片。其中，由9個(gè)計(jì)算die構(gòu)成的5nm CPU和GPU混合體，在4個(gè)6nm die上進(jìn)行3D堆疊，這4個(gè)die主要處理內(nèi)存和I/O流量。

預(yù)計(jì)每個(gè)MI300A在2.32 GHz時(shí)鐘頻率下可提供784 teraflops性能，常規(guī)MI300的時(shí)鐘頻率約為1.7GHz?；萜展荆℉PE）或許在El Capitan系統(tǒng)中為每個(gè)滑軌配置8個(gè)MI300A，El Capitan的計(jì)算部分應(yīng)該有大約2931個(gè)節(jié)點(diǎn)、46個(gè)機(jī)柜和8行設(shè)備。基于上述猜測(cè)，El Capitan應(yīng)該有大約23500個(gè)MI300 GPU，具備大約18.4 exaflops的FP16矩陣數(shù)學(xué)峰值性能。相比Inflection AI，用更少的錢(qián)，發(fā)揮出更大性能。

Microsoft/OpenAI使用處理器：NVIDIA H100傳聞Microsoft正在為OpenAI構(gòu)建25000 GPU集群，用于訓(xùn)練GPT-5。

從歷史上看，Microsoft Azure使用PCI-Express版本的NVIDIA加速器構(gòu)建其HPC和AI集群，并使用InfiniBand網(wǎng)絡(luò)將它們連接在一起。

為OpenAI構(gòu)建的集群使用NVIDIA H100 PCI-Express板卡，假設(shè)為每個(gè)20000美元，即5億美元。另外，使用英特爾“Sapphire Rapids”至強(qiáng)SP主機(jī)處理器、2TB的主內(nèi)存和合理數(shù)量的本地存儲(chǔ)，每個(gè)節(jié)點(diǎn)再增加150000美元，這將為容納這25000個(gè)GPU的3125個(gè)節(jié)點(diǎn)再增加4.69億美元。InfiniBand網(wǎng)絡(luò)將增加2.42億美元。合計(jì)12.1億美元，這些費(fèi)用要比國(guó)家實(shí)驗(yàn)室的超級(jí)計(jì)算機(jī)貴很多。

全球超級(jí)計(jì)算機(jī)追求新穎的架構(gòu)，為最終商業(yè)化而進(jìn)行研發(fā)。超大規(guī)模云服務(wù)商可以做同樣的數(shù)學(xué)運(yùn)算，構(gòu)建自己的計(jì)算引擎，包括亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌、百度和Facebook都是如此。即使有50%的折扣，諸如Inflection AI和OpenAI的設(shè)備單位價(jià)格仍然比國(guó)家實(shí)驗(yàn)室為超級(jí)計(jì)算機(jī)昂貴。

“神威·太湖之光”使用處理器：申威26010以2022年的全球超級(jí)計(jì)算機(jī)榜單來(lái)看，進(jìn)入Top10的我國(guó)超級(jí)計(jì)算機(jī)是“神威·太湖之光”。資料顯示，該計(jì)算機(jī)安裝了40960個(gè)中國(guó)自主研發(fā)的申威26010眾核處理器，采用64位自主神威指令系統(tǒng)，峰值性能為12.5億億次每秒，持續(xù)性能為9.3億億次每秒，核心工作頻率1.5GHz。

申威和龍芯目前是我國(guó)自研處理器的代表，兩者均采用自研處理器的指令集架構(gòu)。CPU國(guó)產(chǎn)化目前有3種方式，一個(gè)是獲得x86內(nèi)核授權(quán)，一個(gè)是獲得Arm指令集架構(gòu)授權(quán)，另一種是自研指令集架構(gòu)，這種方式的安全可控程度較高，也是自主化較為徹底的一種方式。

圖注：國(guó)內(nèi)服務(wù)器處理器廠商

小結(jié)隨著人工智能應(yīng)用發(fā)酵，超級(jí)計(jì)算機(jī)與AI數(shù)據(jù)中心的界限可能變得模糊，兩者的硬件和架構(gòu)已經(jīng)發(fā)展到可以更快地處理更多數(shù)據(jù)，因此其配置將會(huì)逐步超越，芯查查認(rèn)為，整體呈現(xiàn)為幾點(diǎn)趨勢(shì)：面向AI應(yīng)用，高性能處理器采用更多核心、異質(zhì)架構(gòu)將更加普遍，以支持更多的并行計(jì)算和更快的數(shù)據(jù)處理速度，處理器的內(nèi)存管理和緩存設(shè)計(jì)也得到了優(yōu)化，以減少對(duì)主存儲(chǔ)器的訪問(wèn)延遲。專門(mén)的加速器，比如圖形處理單元（GPU）和神經(jīng)網(wǎng)絡(luò)處理單元（NPU），將被引入處理器，高效地執(zhí)行矩陣計(jì)算和神經(jīng)網(wǎng)絡(luò)。能效是AI數(shù)據(jù)中心和超級(jí)計(jì)算機(jī)共同難點(diǎn)，處理器能效成為要點(diǎn)，設(shè)計(jì)趨向于降低功耗和散熱需求，采用更先進(jìn)的制程技術(shù)、優(yōu)化的電源管理以及動(dòng)態(tài)頻率調(diào)節(jié)等方法。AI數(shù)據(jù)中心和超級(jí)計(jì)算機(jī)建設(shè)的需求推動(dòng)了處理器的發(fā)展，也推動(dòng)了存儲(chǔ)、結(jié)構(gòu)和GPU的進(jìn)步，這些組件都將服務(wù)于系統(tǒng)的數(shù)據(jù)吞吐量和效率。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴