chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

緩解模型訓(xùn)練成本過(guò)高的問(wèn)題

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤的賣萌屋 ? 作者:jxyxiangyu ? 2022-05-10 15:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們都知道,為了讓以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的模型更快地訓(xùn)練,人們提出了單機(jī)多卡、多機(jī)多卡等分布式訓(xùn)練的方式,那么,在模型預(yù)測(cè)推理階段,有什么方法可以加速推理呢?遺憾的是,并行/分布式的加速方法并不適用于模型推理階段。

但這并不意味著沒(méi)有方法可以加速模型的推理。既然多核的方式不行,可以考慮在單核上面的加速,比如減小模型大?。茨P蛪嚎s)。

模型壓縮可以分為模型剪枝(pruning)和模型蒸餾(distillation)。由于模型中的參數(shù)對(duì)模型推理的貢獻(xiàn)天生就是不平等的,我們可以利用剪枝將貢獻(xiàn)度不高的模型參數(shù)剪去,從而減小模型大小,但剪枝帶來(lái)的加速比并不高,最多只有2~3倍的速度提升;蒸餾的方法可以帶來(lái)較大的加速比,推理精度也不會(huì)有太大的損失,但通常情況下,蒸餾會(huì)用到大量無(wú)標(biāo)簽的數(shù)據(jù)預(yù)訓(xùn)練學(xué)生模型(student),然后用任務(wù)相關(guān)的帶標(biāo)簽數(shù)據(jù)進(jìn)一步微調(diào)或蒸餾學(xué)生模型,但是,預(yù)訓(xùn)練階段又可能會(huì)花費(fèi)大量的時(shí)間。

那么有沒(méi)有什么方法既能獲得較大的加速比和較低的精度損失,又可以緩解模型訓(xùn)練成本過(guò)高的問(wèn)題呢?

最近丹琦女神組提出了解決這一問(wèn)題的方法,讓我們一起來(lái)看看吧。

論文標(biāo)題:

Structured Pruning Learns Compact and Accurate Models

論文鏈接:

https://arxiv.org/pdf/2204.00408.pdf

github地址:

https://github.com/princeton-nlp/CoFiPruning

背景介紹

在介紹這篇論文提出的方法之前,還需要簡(jiǎn)單說(shuō)明下作者研究的背景。

作者提出的模型壓縮方法針對(duì)的是原模型(教師模型)為transformer 架構(gòu)的模型壓縮。眾所周知, transformer 由多個(gè)塊組成,每個(gè)塊由一個(gè)多頭自注意力(multi-head self-attention,MHA)和兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)(FFN)組成。其中, MHAs 和 FFNs 的參數(shù)量比為 1:2。在 GPU 上,兩者的推理時(shí)間基本相同,而在 CPU 上, FFNs 則會(huì)耗費(fèi)更多的推理時(shí)間。

正如前面所述,模型壓縮可以歸納為兩種方法:知識(shí)蒸餾和剪枝。知識(shí)蒸餾在通常情況下,需要預(yù)先定義一個(gè)結(jié)構(gòu)固定的學(xué)生網(wǎng)絡(luò)(當(dāng)然,也有一些嘗試動(dòng)態(tài)學(xué)生網(wǎng)絡(luò)的研究),通過(guò)用大量無(wú)標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練學(xué)生網(wǎng)絡(luò)的方式進(jìn)行模型參數(shù)初始化,然后用任務(wù)特定的帶標(biāo)簽數(shù)據(jù)微調(diào)學(xué)生模型,當(dāng)然,學(xué)生模型的初始化方式可以有很多種,例如用教師模型的某些層初始化學(xué)生模型等,但基本的解決思想是一致的。

剪枝則指的是從原模型中去除冗余的參數(shù),按照剪枝的粒度可以分為以下幾種:

層剪枝(layer pruning):從模型中刪去整個(gè) block 塊(包括 MHA 和 FFN ),一些研究表明,去除 50% 的層并不會(huì)有太多的精度下降,而且還可以獲得 2X 的加速比;

頭剪枝(head pruning):通過(guò) mask 矩陣只保留一部分 head,但研究表明,這種做法并不能帶來(lái)較大的加速比,當(dāng)僅保留一個(gè) head 的時(shí)候,加速比為 1.4X;

前饋神經(jīng)網(wǎng)絡(luò)剪枝(FFN pruning):去除整個(gè) FFN 層或者去除 FFN 層的某些維度;

更加細(xì)粒度的塊和非結(jié)構(gòu)化的剪枝:去除 MHA 和 FFN 中更小的塊或者去除某些參數(shù)權(quán)重,目前這種做法很難優(yōu)化模型,也難以獲得推理加速

除此之外,還可以將剪枝和蒸餾融合起來(lái),但目前,該方法具體實(shí)現(xiàn)尚不清晰。

結(jié)構(gòu)化剪枝方法 CoFi

為獲得較大的加速比和較低的精度損失,以及緩解模型訓(xùn)練成本過(guò)高的問(wèn)題,作者提出了結(jié)構(gòu)化剪枝方法CoFi(Coarse- andFine-grained Pruning),方法由兩個(gè)部分組成:粗粒度和細(xì)粒度的剪枝以及從原模型(未剪枝)到剪枝模型的逐層蒸餾

粗粒度和細(xì)粒度的剪枝

在頭剪枝(head pruning)中,經(jīng)常通過(guò)由 組成的 mask 矩陣來(lái)保留一部分 head ,但是,當(dāng) mask 矩陣全為 0,即去除掉所有的 head 時(shí),會(huì)使模型優(yōu)化變得困難。為此,作者為每一層的 MHA 和 FFN 引入兩個(gè)掩碼變量 和 ,多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)可以表示為:

其中, 是輸入向量, 是 head 數(shù)量, , , , 分別是 query、key、value 和輸出的權(quán)重矩陣, 是 attention 函數(shù), 和 分別是 FFN 的兩個(gè)權(quán)重, 和 分別是掩碼矩陣變量。

作者用 和 控制每一層的 MHA 和 FFN 是否剪枝以及 和 控制每一層的 MHA 和 FFN 中的哪些 head 和哪些維度需要剪枝。

除此之外,作者還對(duì) 和 的輸出在維度上作剪枝操作。具體做法是將掩碼變量 應(yīng)用到模型中所有的權(quán)重矩陣,掩碼跨層共享的原因是作者考慮到模型中的殘差使得隱向量中的每個(gè)維度都可以連接到下一層相應(yīng)的維度。

此外,作者定義了預(yù)期稀疏度:

其中, 是整個(gè)模型大小, 是 block 層數(shù), 是隱藏層維度, 是多頭自注意力的每個(gè) head 的向量維度, 是前饋網(wǎng)絡(luò)的維度,一般情況下,。

模型訓(xùn)練階段,所有的掩碼元素的值處于之間,推理階段,會(huì)將低于閾值的掩碼變量映射為 0,得到最終的剪枝模型,其中,閾值由每個(gè)權(quán)重矩陣的預(yù)期稀疏度確定。

從原模型到剪枝模型的蒸餾

考慮到將剪枝和蒸餾融合可以提高性能,作者提出了用于剪枝的逐層蒸餾方法。與一般的蒸餾做法不同,作者沒(méi)有預(yù)先定義從教師網(wǎng)絡(luò)到學(xué)生網(wǎng)絡(luò)的固定的層映射,而是動(dòng)態(tài)地搜索兩者之間的層映射。具體來(lái)說(shuō),假設(shè) 表示準(zhǔn)備將知識(shí)蒸餾到學(xué)生網(wǎng)絡(luò)的教師網(wǎng)絡(luò)的層的集合, 是層映射函數(shù),表示從教師網(wǎng)絡(luò)的第 層映射到的學(xué)生網(wǎng)絡(luò)的層,那么,隱藏層的蒸餾 可以定義為:

其中, 是線性變換矩陣, 和 分別是第 層學(xué)生網(wǎng)絡(luò)和第 層教師網(wǎng)絡(luò)的隱藏層表示。 定義如下:

其中,計(jì)算兩個(gè)層集合之間的距離(MSE)的操作是可以并行執(zhí)行的。通過(guò)上面的層映射函數(shù),教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間的層映射總是按照最有利于剪枝的方向進(jìn)行。

最后,作者將逐層蒸餾和來(lái)自預(yù)測(cè)層(模型輸出)的蒸餾結(jié)合起來(lái),得到最終的loss:

其中, 是超參, 和 分別是學(xué)生模型和教師模型的輸出概率分布。

實(shí)驗(yàn)

數(shù)據(jù)集

作者使用的是 GLUE 數(shù)據(jù)集和 SQuAD v1.1 數(shù)據(jù)集,其中, GLUE 數(shù)據(jù)集包括 SST2、MNLI、QQP、QNLI、MRPC、CoLA、STS-B 和 RTE 八個(gè)數(shù)據(jù)集。

在四個(gè)相對(duì)較大的 GLUE 數(shù)據(jù)集(包括 MNLI、QNLI、SST-2 和 QQP)以及 SQuAD 數(shù)據(jù)集上,作者訓(xùn)練了 20 個(gè) epoch,并對(duì)最終的學(xué)生網(wǎng)絡(luò)微調(diào)了額外 20 個(gè) epoch。在前 20 個(gè) epoch 中,作者使用蒸餾的目標(biāo)函數(shù)對(duì)模型進(jìn)行微調(diào) 1 個(gè) epoch,然后在 2 個(gè) epoch 之內(nèi)使模型達(dá)到期望的目標(biāo)稀疏度。而對(duì)于四個(gè)較小的 GLUE 數(shù)據(jù)集,作者訓(xùn)練了 100 個(gè) epoch 并微調(diào) 20 個(gè) epoch。作者用蒸餾目標(biāo)函數(shù)微調(diào)模型 4 個(gè)epoch,并在接下來(lái)的 20 個(gè) epoch 內(nèi)將模型剪枝到期望的目標(biāo)稀疏度。在達(dá)到目標(biāo)稀疏度后,還會(huì)在剩余的訓(xùn)練 epoch 階段繼續(xù)剪枝以搜索性能更好的網(wǎng)絡(luò)結(jié)構(gòu)。

作者在每個(gè)數(shù)據(jù)集上依次訓(xùn)練并微調(diào)不同目標(biāo)稀疏度的模型。此外,作者在實(shí)驗(yàn)中發(fā)現(xiàn),訓(xùn)練結(jié)束后的微調(diào)可以有效地保持模型不會(huì)有太大的精度損失。

模型對(duì)比

作者將 、、、、 作為 baseline,對(duì)比了 CoFi 和 baseline 在不同的加速比和模型大小的情況下準(zhǔn)確率(acc)和 f1 的變化

e2b658c8-cf96-11ec-bce3-dac502259ad0.png

可以看到,在相同的加速比或相同的模型大小下,作者提出的方法 CoFi 都可以獲得更高的準(zhǔn)確率(acc)或 f1

此外,作者還展示了 CoFi 和 的對(duì)比結(jié)果。

e2d4b732-cf96-11ec-bce3-dac502259ad0.png

其中, 使用大量無(wú)標(biāo)簽數(shù)據(jù)通過(guò)預(yù)訓(xùn)練的方式初始化學(xué)生網(wǎng)絡(luò),和大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型一樣,這種從大規(guī)模語(yǔ)料庫(kù)中獲取通用知識(shí)的方式對(duì)學(xué)生模型性能有著十分重要的作用,但預(yù)訓(xùn)練會(huì)花費(fèi)太多的時(shí)間,如下圖所示:

e2e5e02a-cf96-11ec-bce3-dac502259ad0.png

從表 2 可以看到,CoFi 可以獲得和 基本一致的加速比和略高的模型預(yù)測(cè)準(zhǔn)確度,與此同時(shí),CoFi 模型的訓(xùn)練時(shí)間較 得到了大幅的縮減,也證明了以蒸餾目標(biāo)函數(shù)訓(xùn)練的剪枝方法在模型壓縮方面是經(jīng)濟(jì)且高效的。

除此之外,作者還使用相同的任務(wù)特定的數(shù)據(jù)分別為 和 CoFi 做數(shù)據(jù)增強(qiáng),并對(duì)比了數(shù)據(jù)增強(qiáng)后的模型性能。

e30231c6-cf96-11ec-bce3-dac502259ad0.png

可以看到,數(shù)據(jù)增強(qiáng)后,CoFi 也基本有著高于 的模型性能。

e31d6158-cf96-11ec-bce3-dac502259ad0.png

▲sota剪枝和蒸餾方法的性能對(duì)比

消融實(shí)驗(yàn)

作者做了一系列的消融實(shí)驗(yàn),證明了 CoFi 各個(gè)模塊的有效性。實(shí)驗(yàn)結(jié)果如下所示:

e347ac1a-cf96-11ec-bce3-dac502259ad0.png

▲CoFi消融實(shí)驗(yàn)-剪枝單元

e35c543a-cf96-11ec-bce3-dac502259ad0.png

▲CoFi消融實(shí)驗(yàn)-蒸餾目標(biāo)函數(shù)

剪枝后的模型的結(jié)構(gòu)

作者研究了經(jīng)過(guò) CoFi 剪枝后得到的模型的結(jié)構(gòu),作者分別在五個(gè)數(shù)據(jù)集上在不同的目標(biāo)稀疏度下訓(xùn)練微調(diào)得到剪枝后的模型,并對(duì)模型的 FFN 層的平均中間維度以及 MHA 層的 head 平均剩余數(shù)量做了統(tǒng)計(jì),結(jié)果如下:

e378ed0c-cf96-11ec-bce3-dac502259ad0.png

可以看到:

幾乎在所有的稀疏度下,前饋神經(jīng)網(wǎng)絡(luò)層都存在明顯的剪枝,這表明 FFN 層比 MHA 層存在更多的冗余信息;

CoFi 傾向于更多地剪枝上層網(wǎng)絡(luò)結(jié)構(gòu)

作者還詳細(xì)地展示了不同數(shù)據(jù)集下經(jīng) CoFi 剪枝后的模型的具體結(jié)構(gòu),下圖展示的是每個(gè)模型每層 MHA 和 FFN 模塊的保留情況。盡管模型大小基本一致,但不同的數(shù)據(jù)集卻訓(xùn)練出結(jié)構(gòu)存在明顯差異的模型,從側(cè)面也證明了不同的數(shù)據(jù)集存在不同的最優(yōu)學(xué)生模型。

e3dcec76-cf96-11ec-bce3-dac502259ad0.png

▲經(jīng)CoFi剪枝后的模型不同層子模塊保留情況

總結(jié)

作者提出的結(jié)構(gòu)化剪枝方法 CoFi 在幾乎沒(méi)有太多精度損失的情況下,達(dá)到了 10 倍以上的加速比,同時(shí),和常規(guī)的蒸餾做法相比,避免了因使用大量無(wú)標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練模型而帶來(lái)的訓(xùn)練成本過(guò)高的問(wèn)題,按作者的話來(lái)說(shuō),該方法可以是蒸餾的一個(gè)有效替代品。

當(dāng)然,作者也指出,盡管 CoFi 可以應(yīng)用到任務(wù)無(wú)關(guān)的模型的剪枝中,比如大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,但由于上游剪枝方案設(shè)計(jì)的復(fù)雜性,作者還是將 CoFi 的應(yīng)用場(chǎng)景限制到任務(wù)相關(guān)的模型壓縮中。試想下,如果可以將任務(wù)無(wú)關(guān)的模型壓縮到可以部署到移動(dòng)設(shè)備或者可穿戴智能設(shè)備上,那么,世界又會(huì)是一番怎樣的景象呢?不知道這是不是丹琦女神給我們新開(kāi)的一個(gè)“坑”呢?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11270

    瀏覽量

    224754
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4837

    瀏覽量

    107650
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3738

    瀏覽量

    52066

原文標(biāo)題:ACL'22 | 陳丹琦提出CoFi模型剪枝,加速10倍,精度幾乎無(wú)損

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。一個(gè)萬(wàn)億參數(shù)大模型訓(xùn)練可能需要數(shù)千張GPU芯片連續(xù)運(yùn)行數(shù)月,
    的頭像 發(fā)表于 02-05 16:07 ?718次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫數(shù)字識(shí)
    發(fā)表于 10-22 07:03

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒(méi)有中文 查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
    發(fā)表于 07-30 08:15

    模型應(yīng)用成本與門檻成CES?Asia?2025論壇熱議焦點(diǎn)

    在CES?Asia?2025同期舉辦的“大模型前沿與應(yīng)用落地”論壇上,降低大模型應(yīng)用成本與門檻的議題引發(fā)了熱烈討論。當(dāng)前,盡管大模型展現(xiàn)出強(qiáng)大的潛力,在多領(lǐng)域?qū)崿F(xiàn)了創(chuàng)新性應(yīng)用,但
    的頭像 發(fā)表于 07-11 09:33 ?416次閱讀

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    OCR識(shí)別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識(shí)別 一共弄了26張圖片,都標(biāo)注好了,點(diǎn)擊開(kāi)始訓(xùn)練,顯示訓(xùn)練成功了,也將壓縮包發(fā)到郵箱了,下載下來(lái)后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點(diǎn),參考我們的ocr識(shí)別訓(xùn)練數(shù)據(jù)集 請(qǐng)問(wèn)
    發(fā)表于 05-28 06:46

    恩智浦eIQ Time Series Studio工具使用教程之模型訓(xùn)練

    大家好,eIQ Time SeriesStudio又和大家見(jiàn)面啦!本章為大家?guī)?lái)工具核心部分-模型訓(xùn)練。
    的頭像 發(fā)表于 03-25 15:25 ?1685次閱讀
    恩智浦eIQ Time Series Studio工具使用教程之<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>

    請(qǐng)問(wèn)如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練模型

    我正在從事 imx8mplus yocto 項(xiàng)目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對(duì)象檢測(cè)模型。它在 ubuntu 電腦上運(yùn)行良好。現(xiàn)在我想在我的 imx8mplus 板上運(yùn)行該模型
    發(fā)表于 03-25 07:23

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:30 ?3177次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:27 ?1090次閱讀
    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>的數(shù)據(jù)基石

    利用RAKsmart服務(wù)器托管AI模型訓(xùn)練的優(yōu)勢(shì)

    AI模型訓(xùn)練需要強(qiáng)大的計(jì)算資源、高效的存儲(chǔ)和穩(wěn)定的網(wǎng)絡(luò)支持,這對(duì)服務(wù)器的性能提出了較高要求。而RAKsmart服務(wù)器憑借其核心優(yōu)勢(shì),成為托管AI模型訓(xùn)練的理想選擇。下面,AI部落小編為
    的頭像 發(fā)表于 03-18 10:08 ?679次閱讀

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 03-11 07:18

    是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成INT8訓(xùn)練后量化模型?

    無(wú)法確定是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成 INT8 訓(xùn)練后量化模型。
    發(fā)表于 03-06 06:45

    使用OpenVINO?訓(xùn)練擴(kuò)展對(duì)水平文本檢測(cè)模型進(jìn)行微調(diào),收到錯(cuò)誤信息是怎么回事?

    已針對(duì)水平文本檢測(cè)模型運(yùn)行OpenVINO?訓(xùn)練擴(kuò)展中的 微調(diào) 步驟,并收到錯(cuò)誤消息: RuntimeError: Failed to find annotation files
    發(fā)表于 03-05 06:48

    小白學(xué)大模型訓(xùn)練大語(yǔ)言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語(yǔ)言模型(LLMs)正以其強(qiáng)大的語(yǔ)言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?b class='flag-5'>訓(xùn)練大型語(yǔ)言模型,進(jìn)行了超過(guò)
    的頭像 發(fā)表于 03-03 11:51 ?1399次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大語(yǔ)言<b class='flag-5'>模型</b>的深度指南