泽村玲子影音先锋,玉女心经十八禁

最近在華爾街舉行的 HPC + AI展會(huì)上舉辦了一場(chǎng)小組討論，匯聚了主要供應(yīng)商來討論當(dāng)前的 GPU Squeeze（短缺）問題。“擠壓”是由于生成型人工智能/ LLM的快速持續(xù)增長(zhǎng)造成的，現(xiàn)在已將 GPU 的需求推向前所未有的水平，并對(duì) GPU 的可用性造成了“擠壓”。

下面是主要討論內(nèi)容。

GPU到底有多缺貨？

根據(jù)我們報(bào)道的消息，我認(rèn)為 HPC 用戶訪問 GPU（購(gòu)買的或在云中）會(huì)遇到一些挑戰(zhàn)。我想檢查我的假設(shè)，并從貴公司的角度詢問“GPU 擠壓”問題有多大。

Supermicro 的 Thomas Jorgensen 分享了一個(gè)有趣的數(shù)據(jù)點(diǎn)?！拔铱梢愿嬖V你，由于缺乏 H100 GPU，我們有數(shù)以萬計(jì)的系統(tǒng)缺貨。但是，我還要說，市場(chǎng)上有很多替代品，例如，我們有一組更新的 CPU，用于 HPC 工作負(fù)載，而傳統(tǒng)上這些工作負(fù)載是由 GPU 提供服務(wù)的?！?/p>

Thomas 提到了帶有 64 GB 嵌入式 HBM2 內(nèi)存的新型 Intel Max Xeon CPU，極大地增強(qiáng)了一些 HPC 工作負(fù)載。他建議，如果無法獲得 Nvidia GPU，本地 HPC 是緩解這種情況的方法之一。作為硬件中立的供應(yīng)商，他還提到英特爾和 AMD 的其他 GPU 都很容易獲得。

Thomas還提到了重要的一點(diǎn)，“很多人都說我們依賴CUDA，但如果你要等NVidia GPUS一年，那段時(shí)間你可以轉(zhuǎn)換很多代碼。因此，市場(chǎng)上其他一些 GPU 絕對(duì)有生命力，其中一些可以在很短的等待時(shí)間內(nèi)被黑客攻擊?！?/p>

他最后還提到了 Nvidia L40 GPU，他認(rèn)為這是一個(gè)很好的替代品，或者至少是你可以購(gòu)買的東西。此外，Thomas還提到，“所以，我想說，對(duì)于我們的本地客戶來說，有很多替代方案，客戶現(xiàn)在正在探索這一點(diǎn)。我想補(bǔ)充一點(diǎn)，為了取得巨大成功?！?/p>

英特爾的 Kiran Agrahara 補(bǔ)充道：“這取決于用例。當(dāng)您查看短缺時(shí)，這取決于您正在研究的用例?！?他繼續(xù)說道，“還有其他選擇，并且大多數(shù)學(xué)習(xí)和推理現(xiàn)在都可以使用 Xeon Gen 4 處理器來完成?！?他提到英特爾有針對(duì)不同用例的基準(zhǔn)測(cè)試。他還指出，每個(gè)人都認(rèn)為每個(gè)用例都需要 NVidia GPU。

Kiran 還指出，英特爾擁有 Gaudi 2，它更像是一個(gè)推理處理器，而不是學(xué)習(xí)處理器，并且可以在本地和云端使用。他繼續(xù)提到 Datacenter GPU Max 系列可以作為 A100 的替代品或替代品。最后，他呼吁大家關(guān)注英特爾的 OpenVINO（開放式視覺推理和神經(jīng)網(wǎng)絡(luò)優(yōu)化）——所有英特爾 HPC 和人工智能產(chǎn)品之上的軟件層。

Nvidia 全球合作伙伴成功經(jīng)理Prabhu Ramamoorthy 指出，人們認(rèn)為 GPU 短缺是最近才發(fā)生的，但我們已經(jīng)看到這種情況好幾年了。例如，三年前，GPU 在云端運(yùn)行進(jìn)行 NLP（自然語言處理）。許多對(duì)沖基金都在運(yùn)行所有這些工作負(fù)載。生成式人工智能就像 NLP 的新的、美麗的、更性感的術(shù)語，現(xiàn)在對(duì)這些 GPU 的需求要大得多。正如Thomas所指出的，我們希望客戶選擇正確的用例。他還提醒大家，NVidia 雇傭的軟件工程師比硬件工程師更多。作為這些努力的結(jié)果，他提到 TensorRT-LLM 等 Nvidia 軟件可以優(yōu)化應(yīng)用程序并確保更有效地利用 GPU。

Google Cloud HPC 和 AI 基礎(chǔ)設(shè)施解決方案經(jīng)理Wyatt Gorman 總結(jié)道，他認(rèn)為長(zhǎng)期規(guī)劃 GPU 需求非常重要?，F(xiàn)在，看看替代方案，不要超出你的應(yīng)用程序太多?？紤]一下現(xiàn)在有哪些可能性，并且有一些方法可以優(yōu)化 GPU 使用，這是很好的替代方案。是很好的選擇。

GPU 替代方案

有關(guān)短缺的報(bào)道可能還會(huì)持續(xù) 18 個(gè)月。是否有其他方法建議 HPC 用戶運(yùn)行應(yīng)用程序（云、替代硬件、軟件優(yōu)化）？例如，NAMD（一種 HPC 分子動(dòng)力學(xué)代碼）將使用 CPU 和 MPI 和/或 GPU 運(yùn)行。用戶會(huì)恢復(fù)使用 MPI 嗎？

Kiran Agrahara 回憶起一個(gè)較舊的示例，其中用戶需要 20 個(gè) GPU，而要完成相同的工作，他們需要大約 180 個(gè) CPU。但他建議看看過去三年發(fā)生了什么變化。他繼續(xù)說道：“CPU 已經(jīng)取得了長(zhǎng)足的進(jìn)步。那時(shí)我們還沒有硬件加速器。如果你看看下一代 Xeon 處理器，我們有一個(gè)稱為 RMX 的先進(jìn)矩陣架構(gòu)。所以今天，CPU 已經(jīng)取得了長(zhǎng)足的進(jìn)步。你看到的是 128 個(gè)核心，然后你就有了 RMX 架構(gòu)，我可以說它就像是增強(qiáng)版的 AVX512。所以答案是肯定的，你可以用 CPU 來實(shí)現(xiàn)這一點(diǎn)?！?/p>

Wyatt Gorman 補(bǔ)充說，讓人們意識(shí)到較小的 GPU 非常重要?，F(xiàn)在每個(gè)人都在考慮 A100 和 H100。速度較慢的 Nvidia T4、L4 和 L40 GPU 有足夠的容量，并且可以在 Google Cloud 上使用，因?yàn)槟壳皩?duì)它們的需求并不高。如果您對(duì)這些 GPU 進(jìn)行一些調(diào)整和優(yōu)化，您可以看到代碼的加速。

HPC 和數(shù)據(jù)中心融合

通常，HPC 位于其自己的孤島中，然后您可以在另一個(gè)正在開發(fā)的孤島中使用快速增長(zhǎng)的 GenAI 和類似的硬件。當(dāng)人們開始認(rèn)識(shí)到我們可以將這兩種資源整合在一起時(shí)，您是否認(rèn)為這可能會(huì)使 HPC 受益？您如何看待在數(shù)據(jù)中心運(yùn)行的 HPC 應(yīng)用程序與在具有單獨(dú)硬件的研發(fā)實(shí)驗(yàn)室中運(yùn)行的 HPC 應(yīng)用程序的融合？

Wyatt Gorman 表示，谷歌在 HPC RFP 中看到了更多人工智能功能。他認(rèn)為，隨著這些問題類型的出現(xiàn)，隨著 HPC 和 AI 的融合，我們會(huì)看到 AI 技術(shù)被引入傳統(tǒng)的 HPC 問題解決應(yīng)用程序中，并且我們將看到越來越多的此類技術(shù)以及越來越多的資源。正如我提到的，Slurm 現(xiàn)在支持 Google TPU，現(xiàn)在或?qū)砟灰欢ㄐ枰?Kubernetes 來運(yùn)行 HPC。你知道，即使它是一種選擇，也沒有必要。

Supermicro 的 Thomas Jorgensen 提到，英特爾第五代路線圖顯示，未來的某些 CPU 上將有多達(dá) 288 個(gè)核心。當(dāng)然，CPU 平臺(tái)上也發(fā)生了一些事情，這些事情將帶來比傳統(tǒng) CPU 平臺(tái)更高的性能。還有一點(diǎn)是Intel打造的Max GPU是HPC+AI GPU。我們?cè)?Supermicro 所做的第一次測(cè)試展示了使用該 GPU 的 HPC 的真實(shí)性能。

從硬件的角度來看， Supermicro 試圖成為中立者，與 Nvidia、AMD 和 Intel 合作。

Thomas 繼續(xù)說道：“與英特爾 AMD 平臺(tái)一樣，我們擁有非常高的核心數(shù)量 Epyc 處理器，并與 Nvidia 進(jìn)行了科學(xué)實(shí)驗(yàn)。在此測(cè)試中，我們可以在單個(gè)系統(tǒng)中放置十個(gè) GPU。HPC 基準(zhǔn)測(cè)試以及我們從 HPC 上的一個(gè)系統(tǒng)中獲得的性能令人震驚。但這是一種前進(jìn)的方式，至少，我的意思是，它對(duì)擠壓沒有幫助，對(duì)吧，因?yàn)槭褂?H100，但那里的一些性能顯示出 HPC 工作負(fù)載的真正前景。因此，我對(duì)硬件和我們看到的一些優(yōu)化非常充滿希望，這些優(yōu)化可以從現(xiàn)有硬件中發(fā)揮更多作用。”

此外，一些用戶可能會(huì)發(fā)現(xiàn)傳統(tǒng) HPC 和 GenAI 之間的界限有點(diǎn)模糊。對(duì)快速 GPU 的需求表明這兩種類型的應(yīng)用程序都在進(jìn)行大量的數(shù)字運(yùn)算，但傳統(tǒng)的 HPC 蒙特卡羅風(fēng)險(xiǎn)分析是否類似于經(jīng)過訓(xùn)練進(jìn)行風(fēng)險(xiǎn)分析的 GenAI？換句話說，您如何看待GenAI和HPC？它們屬于同一大類還是代表兩個(gè)不同的市場(chǎng)？它們相輔相成嗎？

NVidia 的 Prabhu Ramamoorthy 立即提到，他看到這種融合現(xiàn)在正在發(fā)生，他們看到客戶在致力于最終用例時(shí)混合使用 HPC 和 AI 解決方案。

Google Cloud 的 Wyatt Gorman 回答說，他看到人們將機(jī)器學(xué)習(xí)技術(shù)引入不同級(jí)別的 HPC 流程中。因此，請(qǐng)將其視為 HPC 中的一個(gè)子集、一個(gè)域。他認(rèn)為，它可能會(huì)分拆出來，變得更加孤立，就像大數(shù)據(jù)從 HPC 中分離出來一樣。但就目前而言，他認(rèn)為情況正在趨同。

編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴