chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)?

jf_23871869 ? 來(lái)源:jf_23871869 ? 作者:jf_23871869 ? 2024-11-08 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一,前言

AI領(lǐng)域,訓(xùn)練一個(gè)大型語(yǔ)言模型(LLM)是一個(gè)耗時(shí)且復(fù)雜的過(guò)程。幾乎每個(gè)做大型語(yǔ)言模型(LLM)訓(xùn)練的人都會(huì)被問(wèn)到:“從零開(kāi)始,訓(xùn)練大語(yǔ)言模型需要多久和花多少錢(qián)?”雖然網(wǎng)上有很多關(guān)于訓(xùn)練技巧和模型評(píng)估的文章,但很少有直接告訴你如何估算訓(xùn)練時(shí)間和成本的。前面分享了一些關(guān)于大模型/本地知識(shí)庫(kù)的安裝部署方法,無(wú)需編寫(xiě)代碼,即可使用Ollama+AnythingLLM搭建企業(yè)私有知識(shí)庫(kù),或者,三步完成Llama3.2在算力魔方的INT4量化和部署...本篇文章就教你一個(gè)簡(jiǎn)單的方法,幫你快速估算基于大語(yǔ)言模型權(quán)重大小、數(shù)據(jù)量以及可用GPU算力訓(xùn)練大語(yǔ)言模型所需的時(shí)間和成本。

二,估算方法

訓(xùn)練模型時(shí),處理數(shù)據(jù)和更新模型參數(shù)需要大量的計(jì)算,我們用浮點(diǎn)運(yùn)算次數(shù)(FLOPs)來(lái)表示。首先,我們要估算處理一個(gè)token所需的FLOPs,包括前向傳遞和反向傳遞兩個(gè)部分。

  • 前向傳遞:

每個(gè)token的前向傳遞涉及的加乘操作數(shù)大約為:

FLOPsforward= 2 x N2+2 x N x Dmodel

這里N表示模型的參數(shù)量,Dmodel是模型的維度。系數(shù)2來(lái)源于矩陣乘法中的累加操作。

  • 反向傳遞:

大約需要前向傳遞的兩倍計(jì)算量,因?yàn)橐?jì)算權(quán)重和激活值的梯度。

FLOPsbackward=(2 x N2+2 x N x Dmodel)x 2

  • 所以,一個(gè)token總的計(jì)算量大概是前向傳遞的三倍。因此,每個(gè)訓(xùn)練token的浮點(diǎn)運(yùn)算可以估算為:

FLOPstotal=(2 x N2+2 x N x Dmodel)x 3

三,GPU性能

現(xiàn)在大多數(shù)模型都是用GPU來(lái)訓(xùn)練的。不同的GPU有不同的性能,比如NVIDIA的H100、A100或V100。每個(gè)GPU的性能可以用每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)來(lái)衡量。不過(guò),實(shí)際訓(xùn)練時(shí),由于多GPU之間的通信等因素,實(shí)際性能可能達(dá)不到理論上的最高值。

GPU Model Peak FLOPS (FP32)
H100 67 TFLOPS
A100 19.5 TFLOPS
V100 14 TFLOPS

一個(gè)重要的概念是模型FLOPS利用率(MFU),它反映了實(shí)際計(jì)算效率與理論最大值的比例。通常情況下,隨著GPU數(shù)量的增加,MFU會(huì)下降。LLaMA 3的研究者們用16,000個(gè)GPU訓(xùn)練模型時(shí),每個(gè)GPU的實(shí)際效率為380 teraflops,MFU為38%。

wKgaoWctrHiAWQXlAAAUop8DYW8628.png

四,實(shí)際案例

1,l Llama 3 405B 參數(shù)模型

LLaMA 3.1(405B參數(shù))是在15.6萬(wàn)億token的數(shù)據(jù)集上訓(xùn)練的。訓(xùn)練這樣一個(gè)規(guī)模的模型所需的總FLOPs可以通過(guò)以下方式計(jì)算:

  • 模型大小N = 405B
  • 數(shù)據(jù)集大小P = 15.6T

模型使用了16,000個(gè)H100 GPU進(jìn)行訓(xùn)練。據(jù)了解,平均吞吐量為每個(gè)GPU 400 teraflops。這意味著訓(xùn)練基礎(chǔ)設(shè)施可以提供的總吞吐量為:

TotalThroughput

=400TFLOPs/GPU×16,000GPUs

=6.4ExaFLOPs

最后,通過(guò)將所需的總FLOPs除以可用吞吐量,并將結(jié)果轉(zhuǎn)換為天數(shù)(因?yàn)槲覀冋嬲P(guān)心的是訓(xùn)練天數(shù)),我們可以得到訓(xùn)練時(shí)間。

3.8 x 1025FLOPs ÷ 6.4 x1018FLOPs/秒 =61

2,成本估算

訓(xùn)練模型不僅耗時(shí),還非常昂貴。以LLaMA 3.1為例,如果一個(gè)H100 GPU每小時(shí)的費(fèi)用是2美元,那么用16,000個(gè)H100訓(xùn)練這個(gè)模型的總成本大約為2 x 24 x 61 x 16,000 = 46,848,000美元。

五,總結(jié)

訓(xùn)練大型語(yǔ)言模型是一項(xiàng)技術(shù)復(fù)雜且資金密集的任務(wù)。從零開(kāi)始,把一個(gè)LLaMA 3.1(405B參數(shù))的模型在15.6萬(wàn)億token數(shù)據(jù)集上訓(xùn)練出來(lái),大約需要花費(fèi)61天(假設(shè)沒(méi)有訓(xùn)練中斷)和46,848,000美元(僅估算GPU租金、數(shù)據(jù)集制作費(fèi)用和研發(fā)人力成本未計(jì)入),你算對(duì)了嗎?

更多精彩內(nèi)容請(qǐng)點(diǎn)擊下方名片,關(guān)注“算力魔方?”公眾號(hào)!


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40908

    瀏覽量

    302492
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    573

    瀏覽量

    11341
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3746

    瀏覽量

    5268
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI大模型微調(diào)企業(yè)項(xiàng)目實(shí)戰(zhàn)課

    從零開(kāi)始預(yù)訓(xùn)練。事實(shí)上,微調(diào)技術(shù)的成熟,徹底打破了這門(mén)檻。 微調(diào)的本質(zhì),是“舉反三”的遷移學(xué)習(xí)。就好比
    發(fā)表于 04-16 18:48

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。個(gè)萬(wàn)億參數(shù)大模型
    的頭像 發(fā)表于 02-05 16:07 ?999次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬(wàn)億級(jí)別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大
    的頭像 發(fā)表于 02-02 16:36 ?1113次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    自動(dòng)駕駛大模型訓(xùn)練數(shù)據(jù)有什么具體要求?

    [首發(fā)于智駕最前沿微信公眾號(hào)]想訓(xùn)練個(gè)可以落地的自動(dòng)駕駛大模型,不是簡(jiǎn)單地給其提供幾張圖片,幾條規(guī)則就可以的,而是需要非常多的多樣的、真
    的頭像 發(fā)表于 12-26 09:32 ?349次閱讀
    自動(dòng)駕駛大<b class='flag-5'>模型</b>的<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)有什么具體要求?

    摩爾線程新代大語(yǔ)言模型對(duì)齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新代大語(yǔ)言模型對(duì)齊框架——URPO統(tǒng)獎(jiǎng)勵(lì)與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這
    的頭像 發(fā)表于 11-17 16:03 ?589次閱讀
    摩爾線程新<b class='flag-5'>一</b>代大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>對(duì)齊框架URPO入選AAAI 2026

    直播預(yù)約 |開(kāi)源芯片系列講座第30期:“芯”計(jì)劃——從零開(kāi)始設(shè)計(jì)自己的RISC-V處理器芯片

    鷺島論壇開(kāi)源芯片系列講座第30期「“芯”計(jì)劃從零開(kāi)始設(shè)計(jì)自己的RISC-V處理器芯片」11月17日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目“
    的頭像 發(fā)表于 11-10 12:03 ?1091次閱讀
    直播預(yù)約 |開(kāi)源芯片系列講座第30期:“<b class='flag-5'>一</b>生<b class='flag-5'>一</b>芯”計(jì)劃——<b class='flag-5'>從零開(kāi)始</b>設(shè)計(jì)自己的RISC-V處理器芯片

    從零開(kāi)始了解智慧教室():智慧教室核心設(shè)備

    在教育數(shù)字化轉(zhuǎn)型的浪潮中,智慧教室已成為現(xiàn)代教育的標(biāo)配。但對(duì)于初次接觸智慧教室的學(xué)校來(lái)說(shuō),"智慧教室"到底包含哪些設(shè)備?今天將從零開(kāi)始,全面介紹智慧教室的常見(jiàn)智能設(shè)備。
    的頭像 發(fā)表于 11-03 17:58 ?1663次閱讀
    <b class='flag-5'>從零開(kāi)始</b>了解智慧教室(<b class='flag-5'>一</b>):智慧教室核心設(shè)備

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    模型應(yīng)用成本與門(mén)檻成CES?Asia?2025論壇熱議焦點(diǎn)

    門(mén)檻,依舊阻礙著其廣泛普及與深化應(yīng)用。 高昂的算力需求是導(dǎo)致大模型應(yīng)用成本居高不下的關(guān)鍵因素之。訓(xùn)練個(gè)大規(guī)模的
    的頭像 發(fā)表于 07-11 09:33 ?494次閱讀

    電商API集成入門(mén):從零開(kāi)始搭建高效接口

    ? 在當(dāng)今數(shù)字化電商時(shí)代,API(應(yīng)用程序接口)集成已成為企業(yè)提升效率、實(shí)現(xiàn)系統(tǒng)互聯(lián)的關(guān)鍵技術(shù)。無(wú)論是同步商品信息、處理訂單,還是整合支付系統(tǒng),個(gè)高效的API接口能顯著優(yōu)化業(yè)務(wù)流程。本文將從零開(kāi)始
    的頭像 發(fā)表于 07-10 14:23 ?675次閱讀
    電商API集成入門(mén):<b class='flag-5'>從零開(kāi)始</b>搭建高效接口

    運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò)怎么解決?

    我這運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò),所以沒(méi)法做kmodel模型好壞驗(yàn)證,不知道怎么解決這個(gè)問(wèn)題,重新訓(xùn)練
    發(fā)表于 06-10 08:02

    以太網(wǎng)入門(mén):從零開(kāi)始,掌握以太網(wǎng)基礎(chǔ)知識(shí)!

    以太網(wǎng)作為現(xiàn)代通信技術(shù)的基石,其重要性不言而喻。無(wú)論是日常網(wǎng)絡(luò)應(yīng)用,還是AI對(duì)高速大帶寬網(wǎng)絡(luò)的需求,以太網(wǎng)都扮演著不可或缺的角色。本文將從零開(kāi)始,帶您了解以太網(wǎng)的基礎(chǔ)知識(shí),幫助您快速入門(mén)。什么是以
    的頭像 發(fā)表于 06-09 14:00 ?4117次閱讀
    以太網(wǎng)入門(mén):<b class='flag-5'>從零開(kāi)始</b>,掌握以太網(wǎng)基礎(chǔ)知識(shí)!

    電子硬件工程師如何從零開(kāi)始學(xué)習(xí)?(文末免費(fèi)分享從零開(kāi)始學(xué)習(xí)資料)

    經(jīng)常有用戶咨詢,如何學(xué)習(xí)和提升電子硬件能力,有沒(méi)有適合小白學(xué)習(xí)的資料等等;電子硬件工程師是個(gè)結(jié)合理論、實(shí)踐和創(chuàng)新能力的職業(yè),需要掌握電路設(shè)計(jì)、元器件選型、PCB設(shè)計(jì)、嵌入式系統(tǒng)、測(cè)試調(diào)試等多方面
    的頭像 發(fā)表于 06-04 07:36 ?2687次閱讀
    電子硬件工程師如何<b class='flag-5'>從零開(kāi)始</b>學(xué)習(xí)?(文末免費(fèi)分享<b class='flag-5'>從零開(kāi)始</b>學(xué)習(xí)資料)

    小白學(xué)大模型:從實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開(kāi)發(fā)已經(jīng)成為個(gè)熱門(mén)話題。這些模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然
    的頭像 發(fā)表于 04-30 18:34 ?1433次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從<b class='flag-5'>零</b>實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    從零開(kāi)始之電機(jī)FOC控制

    我們將撕開(kāi)FOC神秘而虛偽的面紗,以說(shuō)人話的方式講述它。真正的做到從零開(kāi)始,小白看就會(huì),學(xué)就廢。如果覺(jué)得有用的話,就點(diǎn)個(gè)贊唄,純手碼。、什么是FOC?FOC
    的頭像 發(fā)表于 04-23 19:34 ?5223次閱讀
    <b class='flag-5'>從零開(kāi)始</b>之電機(jī)FOC控制