chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

AI演進的核心哲學:使用通用方法,然后Scale Up!

jf_23871869 ? 來源:劉力 ? 作者:劉力 ? 2025-04-09 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

一,AI演進的核心哲學:通用方法 + 計算能力


Richard S. Sutton在《The Bitter Lesson》一文中提到,“回顧AI研究歷史,得到一個AI發(fā)展的重要歷史教訓:利用計算能力的通用方法最終是最有效的,而且優(yōu)勢明顯”。核心原因是摩爾定律,即單位計算成本持續(xù)指數(shù)級下降。大多數(shù) AI 研究假設可用計算資源是固定的,所以依賴人類知識來提高性能,但長期來看,計算能力的大幅提升才是推進AI演進的關鍵。

《The Bitter Lesson》原文鏈接:
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

wKgZPGf2FAWAFpHlAAIkD2BE5d4176.png


把不同時期的AI代表算法和典型計算硬件放到一起,可以看出,依賴人類知識的算法(比如手工設計規(guī)則)在某段時期內(nèi)效果暫時領先,但隨著計算能力的發(fā)展,會被 “更通用的方法 + 更強的計算” 碾壓。計算機視覺和自然語言處理的算法演進,都符合這個規(guī)律。

計算機視覺:在CPU時代,手工特征(SIFT/HOG) + SVM的方法暫時領先。到了GPU時代,基于更通用的方法(CNN) + 更強的計算(GTX-580)的AlexNet在2012年,以15.3%的Top-5 錯誤率碾壓了所有基于人類手工提取特征的方法。在多卡并行時代,Transformer擯棄了CNN注入的人類知識(認為相鄰像素關聯(lián)性強),使用自身的自注意力能力自行捕捉全局依賴,使得通用目標識別水平更上一層樓,碾壓CNN。

自然語言處理:在CPU時代,最初使用n-gram方法學習單詞分布,以此通過前一個字符來預測后一個字符(單詞分布決定字符關聯(lián)就是人類知識)。n-gram的記憶能力有限,能生成一定長度的語句,但在幾十個詞規(guī)模的生成能力就不行了。到了GPU時代,更通用的方法RNN,可以逐個閱讀單詞的同時更新思維狀態(tài),具備了短期記憶能力;LSTM在RNN基礎上增加了長期記憶能力,能在百詞內(nèi)較好的生成內(nèi)容,但在幾百詞的生成規(guī)模上,就會逐漸偏離主題。在多卡并行時代,Transformer擯棄了RNN注入的人類知識(時序依賴關系是關鍵,當前狀態(tài)依賴歷史狀態(tài)),使用自身的自注意力能力自行捕捉長程依賴,其生成能力在多個領域能超過人類水平,碾壓RNN。

AI 的未來屬于通用方法(搜索和學習)+ 無限提升的計算能力,而不是人類對具體問題的 “聰明解法”。越通用的人工智能,方法應該越簡單,建模時應該越少人類知識的假設才對。我們應該讓 AI 自己通過計算和數(shù)據(jù)去發(fā)現(xiàn)規(guī)律,而不是教它 “我們認為正確”的東西。

二,Transformer: 更加通用的神經(jīng)網(wǎng)絡架構


《Attention is All You Need》在2017年首次提出了一種全新的神經(jīng)網(wǎng)絡架構Transformer架構,它完全基于注意力機制,從全局角度“觀察和學習”數(shù)據(jù)的重要特征,相比循環(huán)神經(jīng)網(wǎng)絡(RNN)和卷積神經(jīng)網(wǎng)絡(CNN),注入的人類先驗知識更少,方法更通用:

CNN注入了相鄰像素關聯(lián)性強的人類知識,導致CNN無法處理不具備該假設的信息,例如:自然語言。

RNN假設了“時序依賴關系”是關鍵,當前狀態(tài)依賴歷史狀態(tài)(通過隱藏狀態(tài)傳遞信息),導致RNN無法處理不具備該假設的信息,例如:圖像。

Transformer使用自身的自注意力能力自行捕捉數(shù)據(jù)中的關系,即通過自注意力能力從全局角度“觀察和學習”數(shù)據(jù)的重要特征。只要信息能從全局角度被觀察和學習,那么該信息就能被Transformer處理。文本、圖像、聲音等信息,都滿足該要求,所以,都能統(tǒng)一到Transformer架構上進行處理。各種模態(tài)信息在進入Transformer前,只需要把信息Token化,即切成一個個小塊就行。

wKgZPGf2E-yAHCBIAACykTI5pws739.png

《Attention is All You Need》原文鏈接:
https://arxiv.org/pdf/1706.03762
CNN/RNN/Transformer分析對比表

在多機多卡算力時代,Transformer是比CNN和RNN更加通用的神經(jīng)網(wǎng)絡架構。

三,Decode-Only: 更加通用的大語言模型架構


《Attention is All You Need》提出了Transformer架構后,大語言模型的技術探索出現(xiàn)三個方向:僅使用左邊紅色框部分的Encoder-Only,僅使用右邊綠色框的Decoder-Only和全部都使用的Encoder-Decoder。???????

《Attention is All You Need》原文鏈接:
https://arxiv.org/pdf/1706.03762

wKgZO2f2FCWAO-YcAAIK6LPiAdA086.png


Encoder-Only:僅使用左邊紅色框中的編碼器部分構建大語言模型,這個方向一開始主要有Google、Baidu等參與,代表模型有BERT、ERNIE等。Encoder-Only模型是掩碼語言模型(Masked Language Model),使用雙向注意力機制,即訓練模型時,提供預測字符的雙向上下文,這有點兒類似完形填空,從一句話中隨機挖掉一個字(例如:白_依山盡),然后預測被挖掉字。由于模型能獲得預測字符之前(過去)和之后(未來)的上下文,所以能高效學習上下文語義,體現(xiàn)出強大的文本語義理解能力,常用于情感分析、閱讀理解和文本分類等任務。但也正是由于模型在預測時同時受過去和未來雙向的上下文限制,導致在生成文本時表現(xiàn)質(zhì)量不高和多樣性低,不太符合用戶的預期。隨著 AI 應用向文本創(chuàng)作、對話系統(tǒng)、代碼生成等方向擴展,Encoder-only 架構難以滿足AIGC應用的生成需求,所以,在2021年后,這個方向就停止演進了。

Decoder-Only: 僅使用右邊綠色框中的解碼器部分構建大語言模型,這個方向主要由OpenAI主導,代表模型是GPT系列模型。Decoder-Only模型是自回歸語言模型(Autoregressive Language Modeling),使用因果注意力機制,即訓練模型時,不能看見右側(cè)(未來)的上下文,只能使用左側(cè)(過去)的上下文預測下一個字符(Token),這有點兒類似故事續(xù)寫,給出前面的字(例如:白_),然后預測下一個字。由于模型只能獲得預測字符之前(過去)的上下文,訓練起來更難,需要更大的數(shù)據(jù)集和更強的算力。2020年發(fā)布的GPT-3證明了 Decoder-Only 架構在大規(guī)模數(shù)據(jù)上能夠更好地學習語言的統(tǒng)計規(guī)律和模式,不僅在生成文本時表現(xiàn)出更高的質(zhì)量和多樣性,還顯著增強了語言理解的能力,使得模型能夠更好地理解用戶的意圖和需求,并據(jù)此生成更加符合用戶期望的文本。由此,在2021年后,Google、Baidu、Meta等廠家都轉(zhuǎn)向了Decoder-Only架構。

Encoder-Decoder:同時使用編碼器和解碼器部分構建大語言模型,這個方向主要由Google、ZhipuAI在探索,代表模型有T5、GLM等。該構架雖然能兼顧Encoder-Only和Decoder-Only架構的優(yōu)勢,但相對Decoder-Only架構,訓練成本高2~5倍、推理成本高2~3倍,所以,僅用于一些需要嚴格雙向理解的細分領域(如多模態(tài)生成任務),其發(fā)展被 Decoder-only 大大超越。

JINGFENG YANG等在《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,

https://arxiv.org/pdf/2304.13712
展現(xiàn)出了大語言模型架構的演進全景圖。上述演進趨勢可以從下圖中看出:

wKgZPGf2FDKAQOa2ABT6FyNvs0E842.png

2023年后的主流大語言模型(如GPT-4、ERNIE4.0、Llama3...)均采用Decoder-Only架構,核心原因正是 Decoder-Only架構比其它兩個架構更簡單、更通用,在計算能力飛速發(fā)展的大趨勢下, Decoder-Only架構擁有更大的Scale up的潛力 -- 即保持核心架構不變的情況下,通過增加訓練數(shù)據(jù),擴大模型參數(shù)規(guī)模和提升計算能力,可以進一步提升模型能力。

四???????,總結


大語言模型的演進過程,再次證明了Richard S. Sutton在《The Bitter Lesson》

http://www.incompleteideas.net/IncIdeas/BitterLesson.html
提到的AI能力演進的哲學思想:使用通用方法,然后借助計算能力Scale Up。

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內(nèi)容請關注“算力魔方?”!

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    40941

    瀏覽量

    302524
  • 語言模型
    +關注

    關注

    0

    文章

    573

    瀏覽量

    11341
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一文詳解基于以太網(wǎng)的GPU Scale-UP網(wǎng)絡

    最近Intel Gaudi-3的發(fā)布,基于RoCE的Scale-UP互聯(lián),再加上Jim Keller也在談用以太網(wǎng)替代NVLink。
    的頭像 發(fā)表于 04-22 17:22 ?7643次閱讀
    一文詳解基于以太網(wǎng)的GPU <b class='flag-5'>Scale-UP</b>網(wǎng)絡

    Scale out成高性能計算更優(yōu)解,通用互聯(lián)技術大有可為

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)從聊天機器人程序ChatGPT,到文生視頻大模型Sora,AI大模型的蓬勃發(fā)展背后,為算法模型、高質(zhì)量數(shù)據(jù)、算力基礎設施帶來了持續(xù)的挑戰(zhàn)?!爱斊髽I(yè)通過Scale out
    的頭像 發(fā)表于 04-07 00:06 ?4646次閱讀
    <b class='flag-5'>Scale</b> out成高性能計算更優(yōu)解,<b class='flag-5'>通用</b>互聯(lián)技術大有可為

    AI芯片:科技探索與AGI愿景》—— 深入硬件核心的AGI指南

    。 (圖1:多種AI芯片架構的對比剖析示意圖) 尤為可貴的是,本書并未淪為冰冷的技術手冊。作者始終將芯片的演進置于AGI發(fā)展的宏大敘事中,深刻論證了“沒有專屬硬件,AGI只是空中樓閣”的核心觀點。對于從事
    發(fā)表于 09-17 09:29

    如何突破AI存儲墻?深度解析ONFI 6.0高速接口與Chiplet解耦架構

    1. 行業(yè)核心痛點:AI“存儲墻”危機在大模型訓練與推理場景中,算力演進速度遠超存儲帶寬,計算與存儲之間的性能鴻溝(存儲墻)已成為限制系統(tǒng)能效的關鍵瓶頸。? Scale-up需求:單節(jié)
    發(fā)表于 01-29 17:32

    Unix哲學歸納

    Douglas McIlroy是Unix系統(tǒng)上管道機制的發(fā)明者,也是Unix文化的締造者之一。他歸納的Unix哲學如下:程序應該只關注一個目標,并盡可能把它做好。讓程序能夠互相協(xié)同工作。應該讓程序處理文本數(shù)據(jù)流,因為這是一個通用的接口。
    發(fā)表于 07-10 07:05

    AI核心是什么?

    AI概念籠統(tǒng),范圍廣大,到底什么才是AI核心?手把手教你設計人工智能芯片及系統(tǒng)(全階設計教程+AI芯片F(xiàn)PGA實現(xiàn)+開發(fā)板)詳情鏈接:http://url.elecfans.com/
    發(fā)表于 10-18 06:39

    深度學習推理和計算-通用AI核心

    ,支持廣泛的應用程序和動態(tài)工作負載。本文將討論這些行業(yè)挑戰(zhàn)可以在不同級別的硬件和軟件設計采用Xilinx VERSAL AI核心,業(yè)界首創(chuàng)自適應計算加速平臺超越了CPU/GPU和FPGA的性能。
    發(fā)表于 11-01 09:28

    TB-96AI是什么?TB-96AI核心板有哪些核心功能

    產(chǎn)品概述?TB-96AI是由Linaro、Rockchip、Bearkey三方聯(lián)合研發(fā)的全球第一款符合96Boards Compute SOM規(guī)范的面向人工智能領域的高性能嵌入式AI核心板,并由
    發(fā)表于 06-20 16:28

    通用串行總線USB技術演進及測試方案

    通用串行總線USB技術演進及測試方案說明。
    發(fā)表于 03-30 09:36 ?7次下載
    <b class='flag-5'>通用</b>串行總線USB技術<b class='flag-5'>演進</b>及測試方案

    奇異摩爾分享計算芯片Scale Up片間互聯(lián)新途徑

    開放數(shù)據(jù)中心委員會ODCC冬季全員會議于12月4日-6日在春暖花開的昆明舉行。奇異摩爾首席系統(tǒng)架構師朱琛作為網(wǎng)絡工作組ETH-X超節(jié)點項目的核心成員分享了AI Networking Scale
    的頭像 發(fā)表于 12-09 09:36 ?2639次閱讀
    奇異摩爾分享計算芯片<b class='flag-5'>Scale</b> <b class='flag-5'>Up</b>片間互聯(lián)新途徑

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1091次閱讀
    使用NVIDIA NVLink Fusion技術提升<b class='flag-5'>AI</b>推理性能

    IBM Storage Scale System 6000煥新升級

    沒有數(shù)據(jù)的 AI 工廠就像沒有燃料的引擎,根本無法運轉(zhuǎn)。IBM Storage Scale System 6000 的全局命名空間和 Active File Management (AFM) 功能
    的頭像 發(fā)表于 11-30 09:12 ?771次閱讀

    THine發(fā)布無光學DSP芯片組,賦能下一代Scale-UpAI網(wǎng)絡“Slow and Wide”互聯(lián)

    下一代Scale-UpAI 網(wǎng)絡的 “Slow and Wide” 互聯(lián)需求,可實現(xiàn)功耗節(jié)省 73%、延遲降低 90%,為 AI 服務器、超大規(guī)模數(shù)據(jù)中心提供高成本
    的頭像 發(fā)表于 02-04 16:26 ?346次閱讀

    Credo發(fā)布新品Blue Heron 224G AI Scale-Up Retimer芯片

    發(fā)布新品:Blue Heron 224G AI Scale?Up Retimer芯片,該產(chǎn)品針對需求日益攀升的線纜與 PCB 背板連接應用進行專門優(yōu)化,全面支持 UALink、ESUN 與以太網(wǎng)協(xié)議。
    的頭像 發(fā)表于 02-06 15:32 ?615次閱讀

    是德科技推出一系列全新Scale-up驗證解決方案

    是德科技(NYSE: KEYS )推出一系列全新Scale-up驗證解決方案,旨在幫助人工智能數(shù)據(jù)中心運營商應對計算集群日益密集復雜化過程中不斷加劇的帶寬、延遲及互操作性挑戰(zhàn)。 該解決方案支持新興
    的頭像 發(fā)表于 03-06 10:01 ?617次閱讀
    是德科技推出一系列全新<b class='flag-5'>Scale-up</b>驗證解決方案