chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

浪潮信息發(fā)布源2.0-M32開(kāi)源大模型,模算效率大幅提升

浪潮AIHPC ? 來(lái)源:浪潮AIHPC ? 2024-05-29 09:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

5月28日,浪潮信息發(fā)布“源2.0-M32”開(kāi)源大模型?!霸?.0-M32”在基于”源2.0”系列大模型已有工作基礎(chǔ)上,創(chuàng)新性地提出和采用了“基于注意力機(jī)制的門控網(wǎng)絡(luò)”技術(shù),構(gòu)建包含32個(gè)專家(Expert)的混合專家模型(MoE),并大幅提升了模型算力效率,模型運(yùn)行時(shí)激活參數(shù)為37億,在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開(kāi)源大模型。

算法層面,源2.0-M32提出并采用了一種新型的算法結(jié)構(gòu):基于注意力機(jī)制的門控網(wǎng)絡(luò)(Attention Router),針對(duì)MoE模型核心的專家調(diào)度策略,這種新的算法結(jié)構(gòu)關(guān)注專家模型之間的協(xié)同性度量,有效解決傳統(tǒng)門控網(wǎng)絡(luò)下,選擇兩個(gè)或多個(gè)專家參與計(jì)算時(shí)關(guān)聯(lián)性缺失的問(wèn)題,使得專家之間協(xié)同處理數(shù)據(jù)的水平大為提升。源2.0-M32采用源2.0-2B為基礎(chǔ)模型設(shè)計(jì),沿用并融合局部過(guò)濾增強(qiáng)的注意力機(jī)制(LFA, Localized Filtering-based Attention),通過(guò)先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,能夠更好地學(xué)習(xí)到自然語(yǔ)言的局部和全局的語(yǔ)言特征,對(duì)于自然語(yǔ)言的關(guān)聯(lián)語(yǔ)義理解更準(zhǔn)確,進(jìn)而提升了模型精度。

9ad71f44-1cea-11ef-b74b-92fbcf53809c.png

Figure1基于注意力機(jī)制的門控網(wǎng)絡(luò)(Attention Router)

■ 數(shù)據(jù)層面,源2.0-M32基于2萬(wàn)億的token進(jìn)行訓(xùn)練、覆蓋萬(wàn)億量級(jí)的代碼、中英文書籍、百科、論文及合成數(shù)據(jù)。大幅擴(kuò)展代碼數(shù)據(jù)占比至47.5%,從6類最流行的代碼擴(kuò)充至619類,并通過(guò)對(duì)代碼中英文注釋的翻譯,將中文代碼數(shù)據(jù)量增大至1800億token。結(jié)合高效的數(shù)據(jù)清洗流程,滿足大模型訓(xùn)練“豐富性、全面性、高質(zhì)量”的數(shù)據(jù)集需求。基于這些數(shù)據(jù)的整合和擴(kuò)展,源2.0-M32在代碼生成、代碼理解、代碼推理、數(shù)學(xué)求解等方面有著出色的表現(xiàn)。

■ 算力層面,源2.0-M32采用了非均勻流水并行的方法,綜合運(yùn)用流水線并行+數(shù)據(jù)并行的策略,顯著降低了大模型對(duì)芯片間P2P帶寬的需求,為硬件差異較大訓(xùn)練環(huán)境提供了一種高性能的訓(xùn)練方法。針對(duì)MoE模型的稀疏專家計(jì)算,采用合并矩陣乘法的方法,模算效率得到大幅提升。

基于在算法、數(shù)據(jù)和算力方面全面創(chuàng)新,源2.0-M32的性能得以大幅提升,在多個(gè)業(yè)界主流的評(píng)測(cè)任務(wù)中,展示出了較為先進(jìn)的能力表現(xiàn),在MATH(數(shù)學(xué)競(jìng)賽)、ARC-C(科學(xué)推理)榜單上超越了擁有700億參數(shù)的LLaMA3大模型。

9b0363c4-1cea-11ef-b74b-92fbcf53809c.jpg

Figure2 源2.0-M32業(yè)界主流評(píng)測(cè)任務(wù)表現(xiàn)

源2.0-M32大幅提升了模型算力效率,在實(shí)現(xiàn)與業(yè)界領(lǐng)先開(kāi)源大模型性能相當(dāng)?shù)耐瑫r(shí),顯著降低了在模型訓(xùn)練、微調(diào)和推理所需的算力開(kāi)銷。在模型推理運(yùn)行階段,M32處理每token所需算力為7.4GFLOPs,而LLaMA3-70B所需算力為140GFLOPs。在模型微調(diào)訓(xùn)練階段,對(duì)1萬(wàn)條平均長(zhǎng)度為1024 token的樣本進(jìn)行全量微調(diào),M32消耗算力約0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力約為0.05PD。M32憑借特別優(yōu)化設(shè)計(jì)的模型架構(gòu),在僅激活37億參數(shù)的情況下,取得了和700億參數(shù)LLaMA3相當(dāng)?shù)男阅芩?,而所消耗算力僅為L(zhǎng)LaMA3的1/19,從而實(shí)現(xiàn)了更高的模算效率。

浪潮信息人工智能首席科學(xué)家吳韶華表示:當(dāng)前業(yè)界大模型在性能不斷提升的同時(shí),也面臨著所消耗算力大幅攀升的問(wèn)題,對(duì)企業(yè)落地應(yīng)用大模型帶來(lái)了極大的困難和挑戰(zhàn)。源2.0-M32是浪潮信息在大模型領(lǐng)域持續(xù)耕耘的最新探索成果,通過(guò)在算法、數(shù)據(jù)、算力等方面的全面創(chuàng)新,M32不僅可以提供與業(yè)界領(lǐng)先開(kāi)源大模型相當(dāng)?shù)男阅埽梢源蠓档痛竽P退杷懔ο摹?strong>大幅提升的模算效率將為企業(yè)開(kāi)發(fā)應(yīng)用生成式AI提供模型高性能、算力低門檻的高效路徑。M32開(kāi)源大模型配合企業(yè)大模型開(kāi)發(fā)平臺(tái)EPAI(Enterprise Platform of AI),將助力企業(yè)實(shí)現(xiàn)更快的技術(shù)迭代與高效的應(yīng)用落地,為人工智能產(chǎn)業(yè)的發(fā)展提供堅(jiān)實(shí)的底座和成長(zhǎng)的土壤,加速產(chǎn)業(yè)智能化進(jìn)程。


審核編輯:劉清
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49798

    瀏覽量

    262095
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3491

    瀏覽量

    5029
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    537

    瀏覽量

    1041

原文標(biāo)題:浪潮信息發(fā)布源2.0-M32開(kāi)源大模型,模算效率大幅提升,37億激活參數(shù)性能對(duì)標(biāo)LLaMA3-700億

文章出處:【微信號(hào):浪潮AIHPC,微信公眾號(hào):浪潮AIHPC】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    浪潮信息發(fā)布"元腦SD200"超節(jié)點(diǎn),面向萬(wàn)億參數(shù)大模型創(chuàng)新設(shè)計(jì)

    北京2025年8月8日 /美通社/ -- 8月7日,浪潮信息發(fā)布面向萬(wàn)億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器"元腦SD200"。該產(chǎn)品基于浪潮信息創(chuàng)新研發(fā)的多主機(jī)低延遲內(nèi)存語(yǔ)義通信架構(gòu),以開(kāi)放
    的頭像 發(fā)表于 08-08 22:17 ?542次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b>&quot;元腦SD200&quot;超節(jié)點(diǎn),面向萬(wàn)億參數(shù)大<b class='flag-5'>模型</b>創(chuàng)新設(shè)計(jì)

    飛利信與浪潮信息達(dá)成戰(zhàn)略合作

    近日,2025年浪潮信息北京ISP戰(zhàn)略伙伴簽約授牌儀式成功舉辦。浪潮信息與北京飛利信電子技術(shù)有限公司等22家戰(zhàn)略合作伙伴達(dá)成簽約,其中將面向北京人工智能應(yīng)用大市場(chǎng),在產(chǎn)品技術(shù)共創(chuàng)、行業(yè)場(chǎng)景深化及區(qū)域
    的頭像 發(fā)表于 06-24 17:37 ?930次閱讀

    天瞳威視與浪潮信息達(dá)成戰(zhàn)略合作,推進(jìn)高階智駕車載計(jì)算系統(tǒng)創(chuàng)新

    北京2025年3月22日?/美通社/ -- 近日,蘇州天瞳威視電子科技有限公司與浪潮信息旗下蘇州元腦智能科技有限公司達(dá)成戰(zhàn)略合作協(xié)議。此次合作依托浪潮信息提供的車載力平臺(tái)硬件系統(tǒng)、底層軟件環(huán)境
    的頭像 發(fā)表于 03-27 16:55 ?559次閱讀
    天瞳威視與<b class='flag-5'>浪潮信息</b>達(dá)成戰(zhàn)略合作,推進(jìn)高階智駕車載計(jì)算系統(tǒng)創(chuàng)新

    AI 力報(bào)告來(lái)了!2025中國(guó)AI力市場(chǎng)將達(dá) 259 億美元

    報(bào)告來(lái)源:IDC、浪潮信息2月13日,國(guó)際數(shù)據(jù)公司(IDC)攜手浪潮信息,重磅發(fā)布《2025年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》。當(dāng)下,大模型與生成式人工智能熱度飆升,
    的頭像 發(fā)表于 03-07 13:27 ?1802次閱讀
    AI <b class='flag-5'>算</b>力報(bào)告來(lái)了!2025中國(guó)AI<b class='flag-5'>算</b>力市場(chǎng)將達(dá) 259 億美元

    浪潮信息:元腦EPAI已接入DeepSeek,大幅提升DeepSeek企業(yè)應(yīng)用準(zhǔn)確率

    北京2025年2月21日?/美通社/ -- 浪潮信息宣布元腦企智EPAI企業(yè)大模型開(kāi)發(fā)平臺(tái)已全面接入支持DeepSeek大模型。通過(guò)元腦企智EPAI,企業(yè)用戶能夠?qū)I(yè)務(wù)數(shù)據(jù)與DeepSeek大
    的頭像 發(fā)表于 02-23 07:32 ?900次閱讀
    <b class='flag-5'>浪潮信息</b>:元腦EPAI已接入DeepSeek,<b class='flag-5'>大幅</b><b class='flag-5'>提升</b>DeepSeek企業(yè)應(yīng)用準(zhǔn)確率

    浪潮信息發(fā)布元腦R1推理服務(wù)器

    近日,浪潮信息正式推出了其創(chuàng)新的元腦R1推理服務(wù)器。這款服務(wù)器通過(guò)系統(tǒng)的創(chuàng)新與軟硬件的協(xié)同優(yōu)化,實(shí)現(xiàn)了對(duì)DeepSeek R1 671B模型的單機(jī)部署與運(yùn)行,為客戶在智能應(yīng)用部署方面帶來(lái)了顯著的突破
    的頭像 發(fā)表于 02-17 10:32 ?1060次閱讀

    浪潮信息存儲(chǔ)SATA SSD:技術(shù)創(chuàng)新引領(lǐng)數(shù)據(jù)存儲(chǔ)新時(shí)代

    在智慧時(shí)代,數(shù)據(jù)存儲(chǔ)需求日益增長(zhǎng),對(duì)存儲(chǔ)產(chǎn)品的性能和穩(wěn)定性提出了更高要求。浪潮信息存儲(chǔ),作為行業(yè)內(nèi)的佼佼者,積極響應(yīng)市場(chǎng)需求,通過(guò)自主研發(fā),不斷積累技術(shù)優(yōu)勢(shì),致力于為用戶提供高性能、高穩(wěn)定性的存儲(chǔ)
    的頭像 發(fā)表于 02-07 13:41 ?1046次閱讀

    浪潮信息與實(shí)驗(yàn)室合作部署42kW風(fēng)冷力倉(cāng)

    近日,浪潮信息與某知名實(shí)驗(yàn)室攜手簽署了合作協(xié)議,共同推進(jìn)AI for Science領(lǐng)域的科研創(chuàng)新。根據(jù)協(xié)議內(nèi)容,雙方將采用先進(jìn)的42kW智風(fēng)冷力倉(cāng),致力于打造一個(gè)效能效雙
    的頭像 發(fā)表于 01-09 14:18 ?752次閱讀

    博研智通攜手浪潮信息打造香港智慧交通

    近日,為了將有限的物理空間發(fā)揮到極致,香港率先在多個(gè)繁華地段的十字路口升級(jí)為智慧路口。通過(guò)浪潮信息助力博研智通打造的「云邊協(xié)同的全息智慧路口整體解決方案」,實(shí)現(xiàn)了燈隨車變、燈候人行的智能化管理,大大提升
    的頭像 發(fā)表于 01-03 11:40 ?924次閱讀

    浪潮信息與智研究院攜手共建大模型多元力生態(tài)

    近日,浪潮信息與北京智人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,雙方將緊密合作,共同構(gòu)建大模型多元開(kāi)源創(chuàng)新生態(tài)。 此次合作旨在
    的頭像 發(fā)表于 12-31 11:49 ?897次閱讀

    浪潮信息與智研究院達(dá)成戰(zhàn)略合作協(xié)議

    近日,浪潮信息與智研究院達(dá)成戰(zhàn)略合作協(xié)議,雙方將緊密協(xié)作共建大模型多元開(kāi)源創(chuàng)新生態(tài),提升
    的頭像 發(fā)表于 12-26 10:25 ?918次閱讀

    浪潮信息發(fā)布&quot;&quot;Yuan-EB,刷新RAG檢索最高成績(jī)

    近日,浪潮信息在AI領(lǐng)域取得了重大突破,成功發(fā)布了其嵌入模型""Yuan-EB(Yuan-embedding-1.0)。在備受矚目的C-MTEB榜單中,"
    的頭像 發(fā)表于 12-25 15:54 ?830次閱讀

    浪潮信息與17家元腦伙伴共簽億級(jí)分銷協(xié)議

    近日,一場(chǎng)意義非凡的簽約儀式——2025年浪潮信息億級(jí)分銷伙伴簽約大會(huì)圓滿落幕。在這場(chǎng)盛會(huì)中,浪潮信息與來(lái)自全國(guó)12個(gè)省區(qū)的17家元腦生態(tài)伙伴共同簽署了億級(jí)分銷合作協(xié)議,攜手開(kāi)啟合作共贏的新篇章
    的頭像 發(fā)表于 12-25 15:46 ?1209次閱讀

    捷通達(dá)攜手浪潮信息,ERP系統(tǒng)性能大幅提升

    的共同努力,捷通達(dá)成功將原有的SAP HANA系統(tǒng)升級(jí)為浪潮信息新一代SAP HANA數(shù)據(jù)庫(kù)一體機(jī)解決方案。這一升級(jí)不僅大幅提升了系統(tǒng)的運(yùn)行效率,更使得ERP系統(tǒng)的數(shù)據(jù)查詢時(shí)間
    的頭像 發(fā)表于 12-24 14:36 ?920次閱讀

    借助浪潮信息元腦企智EPAI高效創(chuàng)建大模型RAG

    生成能力,提高生成質(zhì)量和可靠性。但企業(yè)構(gòu)建知識(shí)檢索系統(tǒng)并非易事,通常面臨開(kāi)發(fā)門檻高、生成內(nèi)容差等難題。而借助浪潮信息元腦企智EPAI企業(yè)大模型開(kāi)發(fā)平臺(tái),企業(yè)僅需三步即可高效創(chuàng)建大模型RAG,讓企業(yè)內(nèi)部積累的大量數(shù)據(jù)得到有效利用,
    的頭像 發(fā)表于 12-19 14:32 ?1066次閱讀
    借助<b class='flag-5'>浪潮信息</b>元腦企智EPAI高效創(chuàng)建大<b class='flag-5'>模型</b>RAG