国产超薄肉丝高跟在线播放,欧美人成在线观看网站高清,精品自在自线国产

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）近日，2024世界人工智能大會(huì)正在舉行，無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪在大會(huì)論壇上談到一個(gè)現(xiàn)象，從GPT-3到GPT-4，無論是算力還是大模型能力都遵循指數(shù)級增長，而GPT-4之后的一段時(shí)間里，無論是OpenAI發(fā)布的新模型，還是其他大模型，整體算法能力進(jìn)入了放緩甚至是停滯的階段。

夏立雪認(rèn)為，這其中，表面上看是大模型的發(fā)展放緩或者停止了，其實(shí)背后的邏輯卻是支撐算法的算力遇到了瓶頸。在他看來，算力是AI發(fā)展的前哨和基石，支撐模型能力邁向下一代的算力系統(tǒng)，還需要去研發(fā)和構(gòu)建。

國內(nèi)模型層和芯片層生態(tài)相對分散

為了應(yīng)對大模型對算力的需求，國內(nèi)外巨頭都在加大對算力資源的投入，如國外的微軟、谷歌、Meta、OpenAI，以及國內(nèi)的大廠百度，移動(dòng)、聯(lián)通、電信三大運(yùn)營商等都在構(gòu)建萬卡集群，萬卡集群儼然成為了大模型性能提升的兵家必爭之地。

然而相比之下，國外模型層與芯片層生態(tài)相對集中，算法廠商不超過10家，芯片廠商差不多是兩家，英偉達(dá)和AMD。國內(nèi)生態(tài)則是一個(gè)非常分散的狀態(tài)，大家都知道，中國百模大戰(zhàn)，包括非常多通用的基座大模型，還有很多行業(yè)大模型。芯片層面，除了英偉達(dá)和AMD之外，國內(nèi)還有非常多算力芯片廠商去爭相擴(kuò)展市場。

這些分散的生態(tài)，就會(huì)面臨很多生態(tài)打通的關(guān)鍵問題。因此，在國內(nèi)，雖然大家知道構(gòu)建萬卡集群非常重要。而且據(jù)統(tǒng)計(jì)，現(xiàn)在國內(nèi)已經(jīng)有一百多個(gè)建設(shè)方宣布正在建設(shè)或者已經(jīng)建設(shè)了千卡集群，這里面大部分采用的是異構(gòu)算力，原因之一是國內(nèi)的生態(tài)非常分散，另外是在供應(yīng)方面，需要非常多不同的卡來滿足集群性能需求。

夏立雪談到，這些異構(gòu)的芯片之間，存在一種“生態(tài)豎井”，即硬件生態(tài)系統(tǒng)封閉且互不兼容。用了A卡的開發(fā)者，無法輕易遷移至B卡上展開工作，也難以同時(shí)使用A卡和B卡完成大模型訓(xùn)練或推理。

這導(dǎo)致，如果一個(gè)算力集群中存在兩種或以上的芯片，算力使用方會(huì)面臨一系列技術(shù)挑戰(zhàn)，比如不同硬件平臺適配不同的軟件棧和工具鏈，而某些任務(wù)更容易在特定類型的芯片上運(yùn)行，開發(fā)者若要在異構(gòu)芯片上從事生產(chǎn)，就需要為每種芯片定制和優(yōu)化代碼，這大大增加了開發(fā)和維護(hù)的復(fù)雜性。這也使得多種算力芯片被投入各地集群從事AI生產(chǎn)，而“生態(tài)豎井”的存在，讓“多芯片”并不等于“大算力”。

無問芯穹提出了異構(gòu)千卡混訓(xùn)解決方案。異構(gòu)芯片間的混訓(xùn)主要面臨兩大挑戰(zhàn)，一是異構(gòu)卡通信庫差異，導(dǎo)致異構(gòu)卡之間通信難；二是異構(gòu)卡之間性能差異，導(dǎo)致模型分布式訓(xùn)練低效。

為此，無問芯穹建立了一個(gè)通用集合通信庫，實(shí)現(xiàn)不同芯片的高效通信；然后提出了一種基于流水線并行的非均勻拆分方案，以解決不同種芯片負(fù)載均衡的問題；最后提出了一個(gè)自研的混訓(xùn)性能預(yù)測工具，用于判斷最優(yōu)的非均勻拆分策略，指導(dǎo)千卡異構(gòu)集群訓(xùn)練。從實(shí)際千卡混合訓(xùn)練效果可見，無問芯穹千卡異構(gòu)混合訓(xùn)練集群算力利用率最高達(dá)到了97.6%。

沐曦、壁仞談“算力瓶頸破局之術(shù)”

在某個(gè)論壇“算力瓶頸破局之術(shù)”的圓桌討論環(huán)節(jié)，沐曦聯(lián)合創(chuàng)始人兼軟件CTO楊建分別從算法層面和芯片層面談到解決之道。首先是算法層面，硅基的算力三年只能提升三倍，而大模型對算力的需求則要求吞吐量三年提升750倍。在楊建看來，這用硬件的方法無論如何也達(dá)不到，單從芯片層面無法解決這個(gè)問題。

他認(rèn)為，今天大家追捧的Transfomer算法可能是錯(cuò)的，即使大家也在Transfomer軟件上進(jìn)行一些創(chuàng)新，其實(shí)作用并不大。我們還是需要從基本的算法層面出發(fā)，思考怎么從算法上進(jìn)行改變，才能讓算法在三年內(nèi)推理效率提高750倍。大模型已經(jīng)進(jìn)入一個(gè)新的時(shí)代，Transfomer的時(shí)代已經(jīng)結(jié)束了，大家需要思考的是怎么突破Transfomer的限制。

接著看從芯片層面的破局，楊建認(rèn)為，這很難。他認(rèn)為，我們與美國算力差距會(huì)在2029年達(dá)到最大。首先，我們與英偉達(dá)存在工藝上的差距。其次，我們無法進(jìn)口最先進(jìn)的芯片，在2029年的時(shí)候，中國芯片仍然還是會(huì)落后英偉達(dá)。據(jù)他推算，到2029年，中國的算力綜合，可能不到美國的四分之一。

其實(shí)，在2022年之前，我們與美國的算力基本上是一比一，2023年開始急劇下降，可以看到，美國很多企業(yè)部署集群都是一萬張卡以上，國內(nèi)到五千張卡已經(jīng)非常了不起了。因此，我們與美國算力的差距，從2023年開始逐步擴(kuò)大，到2029年會(huì)到達(dá)一個(gè)高峰值，原因是，美國對算力需求的總量到那時(shí)候再往上添加意義不大了。

但國內(nèi)單芯片的算力到那時(shí)候還是沒有辦法去趕上美國，因此在楊建看來，當(dāng)沒有辦法從這個(gè)層面去破局的時(shí)候，我們需要跳出原來的圈子。

怎么做呢？他談到，英偉達(dá)B200其實(shí)給出了一個(gè)很好的例子，一直以來AMD在chiplet上都非常領(lǐng)先，它無論是CPU還是GPU都要做chiplet。然而英偉達(dá)在B200上又做了一個(gè)新的chiplet，它把中間的傳輸性一下子提升到了10TB per second，這是一個(gè)全新的架構(gòu)，AMD完全沒有往這個(gè)方向走。

中國在chiplet方向其實(shí)已經(jīng)走得很遠(yuǎn)，不僅有chiplet封裝，還有Die to Die封裝，還有wafer to wafer的封裝，中國的芯片公司如果想要在硬件上提升，其實(shí)可以利用先進(jìn)封裝這個(gè)優(yōu)勢，去思考如何提高提高單芯片的性能。

此外，除了提升單芯片性能之外，還可以去思考怎么從系統(tǒng)級做優(yōu)化，以前基本上是一個(gè)CPU帶8張卡，現(xiàn)在可以思考是不是能夠一個(gè)CPU帶16張卡、32張卡。單芯片算力不夠，是不是能通過系統(tǒng)級互聯(lián)結(jié)構(gòu)，在互聯(lián)上進(jìn)行一些加速，從而達(dá)到更好的性能。數(shù)據(jù)傳輸在算力上是一個(gè)非常重要的方面，可以探索好的壓縮算法技術(shù)，通過壓縮數(shù)據(jù)本身，而不改變推理和訓(xùn)練的精度，來提升效率。

壁仞科技副總裁兼AI軟件首席架構(gòu)師丁云帆從三個(gè)維度談到算力瓶頸的破局之法。大模型的訓(xùn)練是一個(gè)系統(tǒng)工程，它需要軟件和硬件結(jié)合起來，同時(shí)也需要算法和工程協(xié)同，在這樣一個(gè)復(fù)雜的系統(tǒng)里，它面臨非常多的挑戰(zhàn)。

丁云帆提到三個(gè)點(diǎn)，一是硬件算力，二是軟硬結(jié)合之后的有效算力，三是異構(gòu)混訓(xùn)的聚合算力。硬件算力，即單卡的算力乘以卡的個(gè)數(shù)，單卡的算力可能因?yàn)橹瞥痰仍颍茏龅降纳舷抻邢?，不過單卡本身微架構(gòu)層面仍談?dòng)袆?chuàng)新的空間。比如，壁仞在第一代產(chǎn)品里用了chiplet架構(gòu)，這就是用chiplet的當(dāng)時(shí)提升從單卡層面提升算力。

單卡之外，還有單機(jī)，傳統(tǒng)基本上是單機(jī)8卡，現(xiàn)在可以通過一些方式做到單機(jī)16卡，把單機(jī)性能提升上去。單機(jī)之外，現(xiàn)在還可以看到有很多千卡集群、萬卡集群，通過更大規(guī)模的集群去提升算力，這個(gè)時(shí)候網(wǎng)絡(luò)對基礎(chǔ)設(shè)施的要求會(huì)非常高。

有了超大集群之后，最終軟件是不是能夠把集群的算力發(fā)揮出來，這就談到了軟硬件結(jié)合的有效算力，丁云帆將這個(gè)效率總結(jié)了三個(gè)點(diǎn)：首先是，集群的調(diào)度效率怎么樣，比如說，有一萬張卡，調(diào)度效率不好，相當(dāng)于可能在用的只有九千張；其次是能不能夠用好它，也就能不能夠通過算法功能的協(xié)同，訓(xùn)練把算法的性能優(yōu)化上去，尤其是大規(guī)模參數(shù)的大模型，在超大集群里，如何去做模型拆分、做各種并行策略，真正把集群的算力發(fā)揮出來；

其三大規(guī)模集群還有一個(gè)穩(wěn)定問題，無論是采用英偉達(dá)還是國產(chǎn)的算力芯片，都會(huì)存在這個(gè)問題，大規(guī)模集群的故障率非常高，可能分配有10個(gè)小時(shí)，卻只能用到8個(gè)小時(shí)。這需要對故障的檢測能夠自動(dòng)定位出來，出了故障之后，能夠更快速的恢復(fù)它。

聚合算力，現(xiàn)在可以看到建了很多千卡集群、萬卡集群，可能有些集群用的同一種英偉達(dá)的卡，它也可能是很多小的池子，現(xiàn)在隨著更多國產(chǎn)GPU的落地，這又會(huì)出現(xiàn)新的池子。對于用戶來說，這么多小池子，是不是能夠聚合起來去訓(xùn)一個(gè)大的模型。那么這個(gè)在互聯(lián)互通層面，首先要通，其次通行的效率怎么樣，肯定會(huì)有通行快慢的問題，這種異構(gòu)的并行的拆分策略就非常關(guān)鍵。

總結(jié)來說，就是硬件算力、軟硬件結(jié)合的有效算力、聚合算力，我們從這三個(gè)維度都把相關(guān)的工作做好，即使是國產(chǎn)單個(gè)芯片看上去不夠強(qiáng)，我們通過這樣的方式也能夠把國產(chǎn)算力提升到滿足大模型訓(xùn)練的需求。

寫在最后

隨著大模型的發(fā)展，其性能提升放緩甚至停滯，而這背后則是支撐算法的算力遇到瓶頸。國內(nèi)外都在加大千卡、萬卡集群的建設(shè)來提升算力，然而這其中仍然存在問題，在國內(nèi)芯片生態(tài)分散，集群使用多種芯片，異構(gòu)芯片之間的混訓(xùn)存在挑戰(zhàn)。同時(shí)相對于國外，國產(chǎn)單芯片存在落差，如何通過本身優(yōu)勢，如chiplet，來提升單機(jī)、集群的算力，如何通過軟硬件結(jié)合提升算法訓(xùn)練效率等，都是可以思考突破算力瓶頸的方向。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
40908

瀏覽量
302485
算力芯片

算力芯片

+關(guān)注

關(guān)注
0

文章
59

瀏覽量
5222
AI算力

AI算力

+關(guān)注

關(guān)注
1

文章
164

瀏覽量
10024
壁仞科技

壁仞科技

+關(guān)注

關(guān)注
1

文章
86

瀏覽量
4193
沐曦

沐曦

+關(guān)注

關(guān)注
1

文章
97

瀏覽量
1875

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

芯片、模型生態(tài)分散，無問芯穹、沐曦、壁仞談國產(chǎn)算力瓶頸破局之道

評論

搜索歷史

芯片、模型生態(tài)分散，無問芯穹、沐曦、壁仞談國產(chǎn)算力瓶頸破局之道

評論

芯片、模型生態(tài)分散，無問芯穹、沐曦、壁仞談國產(chǎn)算力瓶頸破局之道