chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個大規(guī)模多任務學習框架μ2Net

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-07-21 10:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】谷歌大神Jeff Dean最近親自操刀發(fā)新作,提出了一個大規(guī)模多任務學習框架μ2Net,基本把各大數(shù)據(jù)集多任務學習的SOTA刷了個遍,但這次為何網(wǎng)友有點不買賬了?很簡單,差錢。

2021年10月,Jeff Dean親自撰文介紹了一個全新的機器學習架構(gòu)——Pathways。 目的很簡單,就是讓一個AI能夠跨越數(shù)以萬計的的任務,理解不同類型的數(shù)據(jù),并同時以極高的效率實現(xiàn):

15b2e4ce-083d-11ed-ba43-dac502259ad0.gif

在大半年之后的2022年3月,Jeff Dean終于發(fā)布了Pathways的論文。

15e0d01e-083d-11ed-ba43-dac502259ad0.png

論文連接:https://arxiv.org/abs/2203.12533 其中,補充了不少技術(shù)上的細節(jié),比如最基本的系統(tǒng)架構(gòu)等等。

15ef2556-083d-11ed-ba43-dac502259ad0.png

2022年4月,谷歌用Pathways的PaLM語言模型橫空出世,接連打破多項自然語言處理任務的SOTA,這個擁有5400億參數(shù)的Transformer語言模型再次證明了「大力出奇跡」。 除了用到強大的Pathways系統(tǒng)外,論文中介紹PaLM的訓練用到了6144個TPU v4,使用了7800億token的高質(zhì)量數(shù)據(jù)集,并且其中有一定比例的非英文多語種語料。

160c07e8-083d-11ed-ba43-dac502259ad0.png

論文地址:https://arxiv.org/abs/2204.02311 最近,Jeff Dean一篇新作又引發(fā)了大家對Pathways的猜測。

Pathways的拼圖又合上了一塊?

這篇論文的作者只有兩位:大名鼎鼎的Jeff Dean和來自意大利的工程師Andrea Gesmundo。 有趣的是,不僅Gesmundo很低調(diào),而且前兩天剛吹完自家Imagen的Jeff Dean也完全沒有在推特上提及此事。 而有網(wǎng)友拜讀之后推測,這可能是下一代AI架構(gòu)Pathways的組成部分。

161a3020-083d-11ed-ba43-dac502259ad0.png

論文地址:https://arxiv.org/abs/2205.12755 本文的思路是這樣的: 通過動態(tài)地將新任務納入一個大型運行系統(tǒng),可以利用稀疏多任務機器學習模型的碎片,來實現(xiàn)新任務質(zhì)量的提升,并可以在相關(guān)任務之間自動分享模型的碎片。 這種方法可以提高每個任務的質(zhì)量,并在收斂時間、訓練實例數(shù)量、能源消耗等方面提高模型效率。本文提出的機器學習問題框架,可以視作標準多任務和持續(xù)學習形式化的概括和綜合。 在這個框架下,再大的任務集都可以被聯(lián)合解決。 而且,隨著時間的推移,任務集中可以加入連續(xù)的新任務流來實現(xiàn)擴展。預訓練任務和下游任務之間的區(qū)別也不存在了。 因為,隨著新任務的加入,系統(tǒng)會尋找如何將已有的知識和表征與新的模型能力相結(jié)合,以實現(xiàn)每個新任務的高質(zhì)量水平。在解決一個新任務時獲得的知識和學到的表征,也可用于任何未來的任務,或繼續(xù)學習現(xiàn)有任務。 這個方法名為「突變多任務網(wǎng)絡(luò)」或μ2Net。(μ=Mutation)

1627a9bc-083d-11ed-ba43-dac502259ad0.png

用于大規(guī)模持續(xù)學習實驗的兩類突變模型 簡單說,就是生成一個大規(guī)模的多任務網(wǎng)絡(luò),去聯(lián)合解決多個任務。不僅每個任務的質(zhì)量和效率都獲得了提升,還可以通過動態(tài)增加新的任務來實現(xiàn)模型的擴展。 通過對以前任務的學習,嵌入到系統(tǒng)中的知識積累越多,后續(xù)任務的解決方案的質(zhì)量就越高。 此外,在減少每個任務新添加的參數(shù)方面,新任務的解決效率可以不斷提高。生成的多任務模型是稀疏激活的,模型集成了基于任務的路由機制,隨著模型的擴展,保證每個任務的計算成本的上升是有界限的。

16330ffa-083d-11ed-ba43-dac502259ad0.png

每個任務激活的和增加的參數(shù)占多任務系統(tǒng)參數(shù)總數(shù)的百分比 從每個任務學到的知識被分割成可以被多個任務重用的部分。實驗證明,這種分塊技術(shù)避免了多任務和持續(xù)學習模型的常見問題,如災難性遺忘、梯度干擾和負遷移。 對任務路線空間的探索和對每個任務最相關(guān)的先驗知識子集的識別是由一個進化算法引導的,該算法旨在動態(tài)地調(diào)整探索/利用的平衡,而不需要手動調(diào)整元參數(shù)。同樣的進化邏輯被用于動態(tài)調(diào)整超參數(shù)多任務模型組件。

16461cd0-083d-11ed-ba43-dac502259ad0.gif

既然叫「突變網(wǎng)絡(luò)」,這個突變是怎么解釋的? 深度神經(jīng)網(wǎng)絡(luò)通常由架構(gòu)和超參數(shù)來定義。本文中的架構(gòu)是由一連串的神經(jīng)網(wǎng)絡(luò)層組成的。每個層將輸入向量映射到一個可變維度的輸出向量,網(wǎng)絡(luò)實例化的細節(jié),比如優(yōu)化器或數(shù)據(jù)預處理的配置,則由超參數(shù)確定。 所以這里講的突變也分為兩類,層克隆突變和超參數(shù)突變。 層克隆突變創(chuàng)建了一個可以被子模型訓練的任何父模型圖層的副本。如果父模型的某層沒有被選中進行克隆,會凍結(jié)當前狀態(tài)并與子模型共享,以保證預先存在的模型的不變性。 超參數(shù)突變則用于修改子層從父層繼承的配置。每個超參數(shù)的新值可以從一組有效值中抽取。對于數(shù)字超參數(shù),有效值集被排序為一個列表,采樣時僅限于相鄰值,以應用一個增量變化約束。 來看看實際效果如何:

16645286-083d-11ed-ba43-dac502259ad0.png

在ImageNet 2012、cifar100、cifar10三個數(shù)據(jù)集上,μ2Net在5任務迭代、10任務迭代后的表現(xiàn)均超過了當前最通用和性能最好的ViT預訓練微調(diào)模型。 在任務擴展方面,在加入VTAB-full和VDD持續(xù)學習任務后,μ2Net性能表現(xiàn)獲得進一步提升,在cifar10數(shù)據(jù)集上的VDD持續(xù)學習任務表現(xiàn)達到了99.43%的最佳成績。

1686974c-083d-11ed-ba43-dac502259ad0.png

在多任務字符分類基準任務上,在兩次任務迭代后,μ2Net在大部分數(shù)據(jù)集上刷新了SOTA水平,數(shù)據(jù)集規(guī)模由2.5k到240k樣本容量不等。

16baac6c-083d-11ed-ba43-dac502259ad0.png

簡單來說,在這個架構(gòu)之下,模型學習的任務越多,系統(tǒng)學到的知識就越多,也就越容易解決新的任務。 比如,一個ViT-L架構(gòu)(3.07億個參數(shù))可以演變成一個具有1308.7億個參數(shù)的多任務系統(tǒng),并解決69個任務。 此外,隨著系統(tǒng)的增長,參數(shù)激活的稀疏性使每個任務的計算量和內(nèi)存用量保持不變。實驗表面,每個任務平均增加的參數(shù)減少了38%,而多任務系統(tǒng)只激活了每個任務總參數(shù)的2.3%。 當然,在這一點上,它只是一個架構(gòu)和初步實驗。

網(wǎng)友:論文很好,但……

雖然論文很棒棒,但好像有人不買賬。 有些熱愛戳穿皇帝新衣的網(wǎng)友,在reddit上發(fā)帖,稱他再也不相信愛情……哦不,「頂級實驗室/研究機構(gòu)」出品的AI論文了。 這位ID為「Acurite先生」的網(wǎng)友稱,他自然相信這些論文里的數(shù)據(jù)與模型運行結(jié)果。 但,就拿Jeff Dean老師的這篇論文來說吧,18頁的論文說了特別復雜的進化卷積與多任務學習算法,厲害,亮眼,好頂贊。 不過,有兩點不得不提出: 第一,Jeff Dean們在論文中提出的證明自己勝過競品的跑分結(jié)果,是CIFAR-10基準測試準確度99.43,勝過了當前SOTA的99.40…… 也不能說這是忽悠,但真的很讓人難以措辭形容。

16d7817a-083d-11ed-ba43-dac502259ad0.png

第二,論文末尾有用TPU跑算法得出最終結(jié)果的時間耗費表,總計17810小時。 假設(shè)有人不在谷歌干、又想復現(xiàn)論文結(jié)果,按照每小時3.22美元的市價租TPU來再跑一次,那花費就是57348美元。 有啥意思呢?連日常論文都要設(shè)置鈔能力門檻了嗎? 當然,這種做派現(xiàn)在是業(yè)界風氣,包括但不限于谷歌、OpenAI這些大玩家。大家都往模型里灌少少改進現(xiàn)狀的創(chuàng)意、和多多的預處理數(shù)據(jù)與基準。 然后,只要運行結(jié)果在數(shù)值上比對家高出哪怕百分點后的小數(shù)點后二位,研究者也可以理直氣壯地在簡歷上新增一行論文題目啦! 這么搞,對學界和業(yè)界有啥真的推動?普通研究生又花不起錢來驗證你的結(jié)論,普通企業(yè)又沒法在項目里使用這么無聊的跑分。 還是那句話,有啥意思呢? 這難道就是AI界的可接受舒適區(qū)么?一小撥大企業(yè)、和偶爾的頂尖學校,天天炫耀我有錢可以為所欲為、你沒錢只好跟后面吃灰? 這么玩下去,干脆另開個計算機學期刊,專收那些結(jié)果可以在消費級單機顯卡上八小時跑出復現(xiàn)的論文算了。 跟帖里,有論文任務的研究生們紛紛訴苦。 有位ID是「支持向量機」的網(wǎng)友說,自己是小型實驗室里的從業(yè)者,因為這個勢頭,已經(jīng)快完全喪失繼續(xù)搞深度學習的動力了。 因為靠自己實驗室的預算,根本沒法和這些巨無霸比,出不了鈔能力打底的跑分結(jié)果。 即使你有個理論上的新點子,要寫成能過評議的論文也難。因為現(xiàn)在論文評議人里,被大廠的鈔能力養(yǎng)出了「美圖偏見」,論文里用來測試的圖像不好看,一切白搭。 不是說巨無霸大廠一無是處啊,GPT和DALL-E這些項目真的是開天辟地。但如果我自己的機器跑不動,我激動個啥呢。 另有一個博士生網(wǎng)友現(xiàn)身說法,跟帖佐證「支持向量機」。 博士生前兩年遞交了一份關(guān)于流模型的論文,主要著重于發(fā)現(xiàn)可采樣的數(shù)據(jù)潛在空間,對模型的圖片生成質(zhì)量沒影響。 結(jié)果論文打分人給的批評意見是:「生成的圖像看起來不如用GAN生成的好」。 另一個ID叫「烏代」的研究生也說,2021年他提交的參加會議論文,打分人給的批評意見是:「數(shù)據(jù)不夠花哨?!?

173f935a-083d-11ed-ba43-dac502259ad0.png

看來人力不敵鈔能力,真是東西心理攸同、中外道術(shù)未裂的世界性趨勢。 不過三十年河東、三十年河西,說不定算法草根化、全民大寫碼,會帶來第二次車庫創(chuàng)業(yè)企業(yè)打敗IBM的奇跡呢。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    18489
  • 機器學習
    +關(guān)注

    關(guān)注

    67

    文章

    8561

    瀏覽量

    137208
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26259

原文標題:Jeff Dean大規(guī)模多任務學習SOTA遭吐槽,復現(xiàn)一遍要6萬美元!

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RT-Thread任務+消息訂閱管理框架軟件包:thread_manager+event_loop

    .有簡單的問題(什么是愛情)為什么開源RTOS都只將我們送到Main?卻沒有開源的任務管理+消息訂閱
    的頭像 發(fā)表于 04-19 15:39 ?409次閱讀
    RT-Thread<b class='flag-5'>任務</b>+消息訂閱管理<b class='flag-5'>框架</b>軟件包:thread_manager+event_loop

    LuatOS 系統(tǒng)框架的模塊化設(shè)計原理

    裁剪功能,適應不同規(guī)模的嵌入式項目需求。 、LuatOS框架中的概念 ? 在LuatOS中,有三核心概念和
    的頭像 發(fā)表于 02-03 15:56 ?265次閱讀
    LuatOS 系統(tǒng)<b class='flag-5'>框架</b>的模塊化設(shè)計原理

    天合儲能完成Elementa 2 Pro儲能系統(tǒng)大規(guī)模燃燒實驗

    近日,天合儲能完成針對其儲能系統(tǒng)Elementa 2 Pro的大規(guī)模燃燒實驗。本次實驗在極端火災工況下,對儲能系統(tǒng)的艙體結(jié)構(gòu)、防火隔離能力以及關(guān)鍵系統(tǒng)在高溫、火焰等復雜耦合條件下的可靠性進行了系統(tǒng)性驗證。
    的頭像 發(fā)表于 01-21 15:31 ?645次閱讀

    文說透了如何實現(xiàn)單片機的多任務并發(fā)!

    多任務并發(fā)。 任務調(diào)度 任務調(diào)度是多任務并發(fā)中
    發(fā)表于 01-06 06:46

    分享嵌入式開發(fā)學習路線

    拓展期(3-4月) 學習嵌入式操作系統(tǒng)(RTOS)和物聯(lián)網(wǎng)通信技術(shù),能開發(fā)“多任務、聯(lián)網(wǎng)”的復雜項目,理解企業(yè)級嵌入式開發(fā)的“架構(gòu)思維”。這階段的
    發(fā)表于 12-04 11:01

    多任務系統(tǒng)中,如何平衡任務調(diào)度以防止因高負載導致的再次進入低功耗模式的延遲?

    多任務系統(tǒng)中,如何平衡任務調(diào)度以防止因高負載導致的再次進入低功耗模式的延遲?
    發(fā)表于 12-04 06:37

    句話,多個命令同時執(zhí)行,AI語音模組也能多任務處理?

    、 Ai-WV02-32S ? 將語音識別、喚醒、語義理解等核心功能, 濃縮在顆小小的模組中。 安信可AI語音模組支持 MCP 協(xié)議(Multi Command Processing,多命令并行處理) ,讓語音交互從“單線程”進化為真正的“多任務協(xié)同”!
    的頭像 發(fā)表于 10-31 14:45 ?656次閱讀
    <b class='flag-5'>一</b>句話,多個命令同時執(zhí)行,AI語音模組也能<b class='flag-5'>多任務</b>處理?

    愛普科技PSRAM加速wisun無線模塊多任務處理

    愛普科技256Mb PSRAM(如APS256XXN-OBR-BG)為WiSUN無線模塊提供高速數(shù)據(jù)緩存與臨時存儲解決方案,其166MHz速率、1.8V低功耗及小尺寸封裝顯著提升模塊在智能電網(wǎng)、工業(yè)自動化中的多任務處理能力和穩(wěn)定性。
    的頭像 發(fā)表于 10-14 09:25 ?503次閱讀
    愛普科技PSRAM加速wisun無線模塊<b class='flag-5'>多任務</b>處理

    請問STM32如何移植Audio框架

    最近在學習音頻解碼,想用下Audio框架。 1、這個該如何移植到自己創(chuàng)建的BSP并對接到device框架中?看了官方移植文檔沒有對沒有對該部分的描述。
    發(fā)表于 09-25 07:17

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設(shè)計與創(chuàng)新實現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1333次閱讀
    TensorRT-LLM的<b class='flag-5'>大規(guī)模</b>專家并行架構(gòu)設(shè)計

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開源模型的設(shè)計原則也采用了類似的大規(guī)模細粒度 MoE 架構(gòu)。但大規(guī)模 M
    的頭像 發(fā)表于 09-06 15:21 ?1403次閱讀
    <b class='flag-5'>大規(guī)模</b>專家并行模型在TensorRT-LLM的設(shè)計

    揭秘LuatOS Task:多任務管理的“智能中樞”

    Task任務作為LuatOS的核心組成部分,通過智能化的任務管理機制,實現(xiàn)任務的創(chuàng)建、調(diào)度與協(xié)同運行,讓復雜應用得以高效并行處理,滿足實時場景下的嚴苛需求。 sys核心庫是LuatOS運行框架
    的頭像 發(fā)表于 08-28 13:48 ?770次閱讀
    揭秘LuatOS Task:<b class='flag-5'>多任務</b>管理的“智能中樞”

    使用Ansible實現(xiàn)大規(guī)模集群自動化部署

    當你面對1000+服務器需要部署時,你還在臺臺手工操作嗎?本文將揭秘如何用Ansible實現(xiàn)大規(guī)模集群的自動化部署,讓運維效率提升10倍!
    的頭像 發(fā)表于 08-27 14:41 ?971次閱讀

    快速入門——LuatOS:sys庫多任務管理實戰(zhàn)攻略!

    的開發(fā)者,這里將用最簡明的步驟,助你輕松實現(xiàn)多任務應用開發(fā)! sys庫是LuatOS的核心系統(tǒng)調(diào)度庫,它基于Lua協(xié)程機制實現(xiàn)了實時多任務調(diào)度、定時器管理以及消息通信等功能。 在詳細介紹sys庫之前,我們先來補充些關(guān)于實時操作
    的頭像 發(fā)表于 05-29 14:36 ?987次閱讀
    快速入門——LuatOS:sys庫<b class='flag-5'>多任務</b>管理實戰(zhàn)攻略!

    薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊的引腳圖、接線圖、封裝手冊、中文資料、英文資料,薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊真值表,薄型、多頻段、
    發(fā)表于 05-15 18:32
    薄型、多頻段、<b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)前端模塊 skyworksinc