導讀:沒有足夠的高性能GPU數(shù)量,或者性能欠佳,都將造成AI推理和模型訓練的準確度不足,即使有類似的對話機器人, 它的“智商”也會遠低于ChatGPT
國內(nèi)云廠商高性能GPU芯片的短缺,正在成為限制生成式AI在中國誕生的最直接因素。
2022年12月,微軟投資的AI創(chuàng)業(yè)公司OpenAI推出了聊天機器人ChatGPT。這是生成式人工智能在文本領域的實際應用。所謂生成式AI,是指依靠AI大模型和AI算力訓練來生成內(nèi)容。ChatGPT的本質(zhì)是OpenAI自主研發(fā)的GPT-3.5語言大模型。大型模型包含近 1800 億個參數(shù)。
微軟的 Azure 云服務為 ChatGPT 構(gòu)建了超過 10,000 個 Nvidia A100 GPU 芯片的 AI 計算集群。
美國市場研究公司TrendForce在3月1日的一份報告中計算得出,要處理1800億參數(shù)的GPT-3.5大型模型,需要的GPU芯片數(shù)量高達2萬顆。未來GPT大模型商業(yè)化所需的GPU芯片數(shù)量甚至會超過3萬顆。此前在 2022 年 11 月,英偉達在其官網(wǎng)的公告中提到,數(shù)萬顆 A100/H100 高性能芯片部署在微軟 Azure 上。這是第一個使用 NVIDIA 高端 GPU 構(gòu)建的大規(guī)模 AI 計算集群。
鑒于英偉達在高性能GPU方面的技術領先地位,國內(nèi)云計算專業(yè)人士普遍認為,10000顆英偉達A100芯片是一個好的AI模型的算力門檻。
目前國內(nèi)云廠商擁有的GPU主要是英偉達的中低端性能產(chǎn)品(如英偉達A10)。擁有超過 10,000 個 GPU 的公司不超過 5 家,而擁有 10,000 個 Nvidia A100 芯片的公司最多只有一家。也就是說,單從算力來看,短期內(nèi)能夠部署ChatGPT的國內(nèi)玩家非常有限。
聊天GPT看似只是一個聊天機器人,但這卻是微軟AI算力、AI大模型和生成AI在云計算的實力展示。在企業(yè)市場,這是云計算新一輪的增長點。Microsoft Azure ML(深度學習服務)擁有 200 多家客戶,其中包括制藥公司拜耳和審計公司畢馬威。Azure ML 連續(xù)四個季度收入增長超過 100%。這是微軟云三大業(yè)務中增長最快的板塊,即云、軟件、AI。
今年2月,包括阿里巴巴和百度在內(nèi)的中國企業(yè)宣布將開發(fā)類似ChatGPT的產(chǎn)品,或?qū)⑼顿Y研發(fā)生成式人工智能。在國內(nèi),AI算力、AI大模型、生成式AI被認為只有云廠商才有資格。華為、阿里、騰訊、字節(jié)跳動、百度都有云業(yè)務,理論上都有跑通AI算力、AI大模型、生成AI應用的能力。
但是有能力不代表可以跑到終點線。這需要長期的高成本投資。GPU芯片的價格是公開的,算力成本也很容易衡量。大型模型需要數(shù)據(jù)收集、手動標記和模型訓練。這些軟成本很難簡單計算。生成式人工智能的投資規(guī)模通常高達數(shù)百億。
多位云計算廠商和服務器廠商的技術人員表示,高性能GPU芯片短缺,硬件采購成本和運營成本高,國內(nèi)市場短期商用困難。這三個問題才是真正的挑戰(zhàn)。在他們看來,有資本儲備、戰(zhàn)略意愿和實踐能力的公司不會超過3家。
GPU芯片數(shù)量決定了“智商”
決定AI大模型“智商”的核心因素有三個,計算能力的規(guī)模、算法模型的復雜程度、數(shù)據(jù)的質(zhì)量和數(shù)量。
AI大模型的推理和訓練高度依賴英偉達的GPU芯片。缺少芯片會導致算力不足。計算能力不足意味著無法處理龐大的模型和數(shù)據(jù)量。最終的結(jié)果是AI應用存在智商差距。
3月5日,十四屆全國人大一次會議開幕式后,科技部部長王志剛在全國兩會“部長通道”在接受媒體采訪時表示,ChatGPT作為大模型,將大數(shù)據(jù)、大算力、強算法有效結(jié)合。其計算方法有所改進,特別是在保證算法的實時性和算法質(zhì)量的有效性方面?!熬拖癜l(fā)動機一樣,每個人都可以造發(fā)動機,只是質(zhì)量不一樣。踢球就是運球和射門,但要做到像梅西那么好并不容易?!?/p>
Nvidia是全球知名的半導體廠商,占據(jù)了數(shù)據(jù)中心GPU市場90%以上的份額。英偉達A100芯片在2020年推出,致力于自動駕駛、高端制造、醫(yī)療醫(yī)藥行業(yè)等AI推理或訓練場景。2022年,英偉達推出了性能更強的新一代產(chǎn)品——H100。A100/H100是目前最強大的數(shù)據(jù)中心專用GPU,市場上幾乎沒有可擴展的替代品。包括特斯拉、Facebook在內(nèi)的企業(yè)已經(jīng)使用A100芯片搭建AI計算集群,采購規(guī)模超過7000顆。
多位云計算技術人員告訴記者,運行ChatGPT至少需要1萬顆英偉達A100芯片。但是,擁有超過10,000顆GPU芯片的公司不超過5家。其中,最多只有一家公司擁有 10,000 個 Nvidia A100 GPU。
另一位大型服務器廠商人士表示,即使樂觀估計,GPU儲備最大的公司也不超過5萬片,并以來自英偉達的中低端數(shù)據(jù)中心芯片(如英偉達A10) ) 為主。這些GPU芯片分散在不同的數(shù)據(jù)中心,一個數(shù)據(jù)中心通常只配備數(shù)千顆GPU芯片。
此外,由于去年8月美國政府開始實施貿(mào)易限制,中國企業(yè)長期無法獲得NVIDIA A100芯片?,F(xiàn)有A100芯片儲備全部為存貨,剩余使用壽命約4-6年。
2022年8月31日,英偉達和AMD兩家半導體公司生產(chǎn)的GPU產(chǎn)品被美國納入限制范圍。Nvidia 的受限產(chǎn)品包括 A100 和 H100,AMD受監(jiān)管的 GPU 產(chǎn)品包括 MI250。根據(jù)美國政府的要求,未來峰值性能等于或超過A100的GPU產(chǎn)品也被限制銷售。

中國企業(yè)目前可以獲得的最佳替代品是英偉達的A800芯片。A800被認為是A100的“閹割版”。2022年8月,在A100被禁止在中國市場銷售后,英偉達在當年第三季度推出了專供中國市場使用的A800芯片。這款產(chǎn)品的計算性能與A100基本持平,但數(shù)據(jù)傳輸速度降低了30%。這會直接影響AI集群的訓練速度和效果。
不過目前A800芯片在中國市場嚴重缺貨。雖然是A100的“閹割版”,但A800在京東官網(wǎng)的售價卻超過了8萬元/件,甚至超過了A100的官方售價(1萬美元/件)。即便如此,A800在京東官網(wǎng)依然處于斷貨狀態(tài)。
一位云廠商人士告訴記者,A800的實際售價甚至高于10萬元/片,而且價格還在上漲。A800目前在浪潮、新華三等國內(nèi)服務器廠商手中屬于稀缺產(chǎn)品,一次只能采購數(shù)百枚。
GPU 數(shù)量或性能不足直接導致 AI 推理和模型訓練的準確性不足。其結(jié)致使中國企業(yè)做出類似的對話機器人,機器人的“智商”也會遠低于ChatGPT。國內(nèi)云廠商高性能GPU芯片的短缺,正成為限制中國版ChatGPT誕生的最直接因素。
成本高企
AI算力和大模型是比云還燒錢的吞金猛獸。
即使有足夠的高性能GPU,中國云廠商也將面臨高昂的硬件采購成本、模型訓練成本和日常運營成本。面對以上成本,有資本儲備、戰(zhàn)略選擇和實際能力的企業(yè)不超過3家。
OpenAI 可以做 ChatGPT,背后微軟提供資金和算力。2019 年,微軟向 OpenAI 投資了 10 億美元。2021年,微軟又進行一輪新投資,金額不詳。今年 1 月,微軟宣布未來幾年將向 OpenAI 投資 100 億美元。
對于云廠商來說,AI算力和大模型需要面臨高昂的硬件采購成本、模型訓練成本和日常運營成本。
一是硬件采購成本和智能計算集群建設成本。如果以10000顆英偉達A800 GPU為標配打造智能算力集群,以10萬元/顆的價格計算,光是GPU的采購成本就高達10億元。一臺服務器通常需要4-8顆GPU,一臺搭載A800的服務器成本超過40萬元。國產(chǎn)服務器均價在4萬-5萬元。GPU服務器的成本是普通服務器的10倍以上。服務器采購成本通常占數(shù)據(jù)中心建設成本的30%,一個智能計算集群的建設成本超過30億元。
第二,模型訓練的成本。如果算法模型要足夠準確,則需要進行多輪算法模型訓練。一家外資云廠商的資深技術人員告訴記者,ChatGPT一個完整的模型訓練成本超過1200萬美元(約合人民幣8000萬元)。如果進行10次完整的模型訓練,成本將高達8億元。GPU芯片的價格是公開的,算力成本相對容易衡量。但是,大型AI模型還需要進行數(shù)據(jù)采集、人工標注、模型訓練等一系列工作。這些軟成本很難簡單計算。具有不同效果的模型具有不同的最終成本。
第三,日常運營成本。數(shù)據(jù)中心的模型訓練會消耗網(wǎng)絡帶寬和電力資源。此外,模型訓練還需要算法工程師負責調(diào)優(yōu)。上述成本也以數(shù)十億美元計算。
也就是說,進入AI算力和AI規(guī)?;惖?,前期的硬件采購和集群建設成本高達數(shù)十億元。后期的模型訓練、日常運營、產(chǎn)品研發(fā)等成本也高達數(shù)十億元。某管理咨詢公司的技術戰(zhàn)略合作伙伴告訴記者,生成人工智能的投資規(guī)模高達百億。
微軟大規(guī)模采購GPU構(gòu)建智能計算集群,在業(yè)務邏輯上是可行的。2022年,微軟在云計算基礎設施上的支出超過250億美元。當年微軟的營業(yè)利潤達到828億美元,而微軟的云營業(yè)利潤超過400億美元。微軟的云盈利超過支出,在AI算力和大規(guī)模模型業(yè)務上的大規(guī)模投入與微軟的財務狀況相匹配。
微軟AI計算有產(chǎn)品、有客戶、有收入,形成新的增長點。微軟客戶通常會在云上租用數(shù)千個高性能 GPU 進行語言模型學習,以此使用他們自己的生成 AI。
微軟擁有 Azure ML 和 OpenAI。Azure ML 有 200 多家客戶,包括制藥公司拜耳和審計公司畢馬威。Azure ML 連續(xù)四個季度收入增長超過 100%。微軟云甚至形成了“云-企業(yè)軟件-AI計算”三個旋轉(zhuǎn)的增長曲線。其中,公有云Azure營收增速約為30%-40%,軟件業(yè)務營收增速約為50%-60%,AI算力營收增速超過100%。
中國企業(yè)對云基礎設施的資本支出有限,投資智能計算集群和AI大模型需要分流有限的預算支出。更大的挑戰(zhàn)不僅是中短期內(nèi)無法盈利,還會虧損更多。
科技公司的資本支出通常用于購買服務器、建設數(shù)據(jù)中心、購買園區(qū)用地等固定資產(chǎn)。以亞馬遜為例,2022年的資本支出為580億美元,其中超過50%用于投資云基礎設施。阿里、騰訊、百度最近一個財年的資本支出情況,發(fā)現(xiàn)3家公司的數(shù)據(jù)分別為533億元、622億元、112億元。
三家公司均未披露投資云基礎設施的資本支出。假設這3家公司和亞馬遜一樣,50%的資本支出用于投資云基礎設施,數(shù)據(jù)分別為266億元、311億元、56億元。資本支出充裕的公司投資數(shù)十億美元能負擔得起,但對于資本支出不足的企業(yè)來說是一種負擔。
國內(nèi)已經(jīng)宣布建設智能計算集群的企業(yè)有阿里云、華為、百度等,但智能計算集群的GPU芯片數(shù)量未知。2022年,各大云廠商都把增加毛利、減少虧損作為戰(zhàn)略重點。現(xiàn)階段購買高性能GPU和構(gòu)建智能計算集群需要巨大的投資。不僅會加重損失,還需要依靠群體輸血。這考驗企業(yè)管理層的戰(zhàn)略意志。
大模型高昂,先做小模型
華為、阿里、騰訊、字節(jié)跳動、百度都有云服務,理論上有中國版ChatGPT的實力。
云計算業(yè)內(nèi)人士指出,幾家有能力的公司也會有實際的戰(zhàn)略考慮。比如騰訊、百度、字節(jié)跳動有云,數(shù)據(jù)量也很大,但云業(yè)務虧損,長期資金儲備和戰(zhàn)略意志存疑。華為依靠自研升騰芯片建立了大模型技術,但受“斷供”影響,無法獲得英偉達的GPU芯片,作為硬件廠商,缺乏互聯(lián)網(wǎng)公司的數(shù)據(jù)積累。
由于以上限制,目前能夠?qū)崿F(xiàn)AI大模型商業(yè)化的公司寥寥無幾。到最后,同時具備資本儲備、戰(zhàn)略意志和實踐能力的企業(yè)將屈指可數(shù)。
目前,沒有一家中國云廠商像微軟那樣擁有數(shù)萬顆A100/H100芯片。目前中國云廠商的高性能GPU算力不足。更務實的觀點是,即使中國云廠商真的獲得了10000顆NVIDIA高性能GPU,也不應該簡單地投入中國版ChatGPT這一熱門應用場景。
在算力資源緊缺的情況下,可以優(yōu)先投資行業(yè)市場,為企業(yè)客戶提供服務。一位管理咨詢公司的技術戰(zhàn)略合作伙伴認為,ChatGPT只是一個對話機器人,商業(yè)應用場景的展示暫時有限。用戶規(guī)模越大,成本越高,損失越大。如何在細分領域?qū)I算力和大模型商業(yè)化,是獲得正現(xiàn)金流的關鍵。
中國市場AI算力規(guī)模化商業(yè)模式仍處于起步階段。目前,國內(nèi)已有少量自動駕駛、金融等領域客戶開始使用AI算力。例如,小鵬汽車目前使用阿里云的智能計算中心進行自動駕駛模型訓練。
一位數(shù)據(jù)中心產(chǎn)品經(jīng)理認為,國內(nèi)銀行金融客戶在反欺詐中大量使用模型訓練技術,通常只需要租用數(shù)百個性能較低的GPU訓練模型即可。也是AI計算和模型訓練,是一種成本更低的方案。事實上,通用的大規(guī)模模型并不能解決特定行業(yè)的問題,金融、汽車、消費等各個領域都需要行業(yè)模型。
中國沒有足夠的高性能 GPU 來進行大規(guī)模 AI 模型訓練,所以可以先在細分領域做小模型。人工智能技術的飛速發(fā)展已經(jīng)超出了人們的認知。對于中國企業(yè)來說,根本之道還是要堅持持續(xù)布局從而達成戰(zhàn)略性發(fā)力。
審核編輯 :李倩
-
芯片
+關注
關注
463文章
54369瀏覽量
468914 -
云計算
+關注
關注
39文章
8040瀏覽量
144731 -
ChatGPT
+關注
關注
31文章
1599瀏覽量
10387
原文標題:ChatGPT算力成本巨大,成為云廠商的一大門檻,大廠如何選擇
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
中科曙光scaleX40超節(jié)點讓普惠算力落地有路可循
科技云報到:AI算力革命,終結(jié)云計算20年降價史
成都匯陽投資關于AI 算力引爆需求,存儲芯片漲價周期來襲
天數(shù)智芯助力DeepLink異構(gòu)算力訓推一體化升級
弘信電子以綠色普惠算力破局智算成本飆升挑戰(zhàn)
邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值
GPU 利用率<30%?這款開源智算云平臺讓算力不浪費 1%
告別“硬件軍備競賽”!華為云如何讓企業(yè)算力效率翻倍,成本減半?
云知聲榮膺2025年上海算力產(chǎn)業(yè)典型案例
FreeRTOS與uC/OS-II如何選擇?
大模型應用成本與門檻成CES?Asia?2025論壇熱議焦點
云XR(AR/VR)算力底座關鍵特征與技術路徑
ChatGPT算力成本巨大,成為云廠商的一大門檻,大廠如何選擇
評論