色狠狠,人妻无码中文字幕Av免费放,日韩午夜福利无码观看专区

作者：算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

一，AI演進的核心哲學：通用方法 + 計算能力

Richard S. Sutton在《The Bitter Lesson》一文中提到，“回顧AI研究歷史，得到一個AI發(fā)展的重要歷史教訓：利用計算能力的通用方法最終是最有效的，而且優(yōu)勢明顯”。核心原因是摩爾定律，即單位計算成本持續(xù)指數(shù)級下降。大多數(shù) AI 研究假設可用計算資源是固定的，所以依賴人類知識來提高性能，但長期來看，計算能力的大幅提升才是推進AI演進的關鍵。

《The Bitter Lesson》原文鏈接：
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

把不同時期的AI代表算法和典型計算硬件放到一起，可以看出，依賴人類知識的算法（比如手工設計規(guī)則）在某段時期內(nèi)效果暫時領先，但隨著計算能力的發(fā)展，會被 “更通用的方法 + 更強的計算” 碾壓。計算機視覺和自然語言處理的算法演進，都符合這個規(guī)律。

計算機視覺：在CPU時代，手工特征(SIFT/HOG) + SVM的方法暫時領先。到了GPU時代，基于更通用的方法(CNN) + 更強的計算(GTX-580)的AlexNet在2012年，以15.3%的Top-5 錯誤率碾壓了所有基于人類手工提取特征的方法。在多卡并行時代，Transformer擯棄了CNN注入的人類知識(認為相鄰像素關聯(lián)性強)，使用自身的自注意力能力自行捕捉全局依賴，使得通用目標識別水平更上一層樓，碾壓CNN。

自然語言處理：在CPU時代，最初使用n-gram方法學習單詞分布，以此通過前一個字符來預測后一個字符(單詞分布決定字符關聯(lián)就是人類知識)。n-gram的記憶能力有限，能生成一定長度的語句，但在幾十個詞規(guī)模的生成能力就不行了。到了GPU時代，更通用的方法RNN，可以逐個閱讀單詞的同時更新思維狀態(tài)，具備了短期記憶能力；LSTM在RNN基礎上增加了長期記憶能力，能在百詞內(nèi)較好的生成內(nèi)容，但在幾百詞的生成規(guī)模上，就會逐漸偏離主題。在多卡并行時代，Transformer擯棄了RNN注入的人類知識(時序依賴關系是關鍵，當前狀態(tài)依賴歷史狀態(tài))，使用自身的自注意力能力自行捕捉長程依賴，其生成能力在多個領域能超過人類水平，碾壓RNN。

AI 的未來屬于通用方法（搜索和學習）+ 無限提升的計算能力，而不是人類對具體問題的 “聰明解法”。越通用的人工智能，方法應該越簡單，建模時應該越少人類知識的假設才對。我們應該讓 AI 自己通過計算和數(shù)據(jù)去發(fā)現(xiàn)規(guī)律，而不是教它 “我們認為正確”的東西。

二，Transformer: 更加通用的神經(jīng)網(wǎng)絡架構

《Attention is All You Need》在2017年首次提出了一種全新的神經(jīng)網(wǎng)絡架構Transformer架構，它完全基于注意力機制，從全局角度“觀察和學習”數(shù)據(jù)的重要特征，相比循環(huán)神經(jīng)網(wǎng)絡（RNN）和卷積神經(jīng)網(wǎng)絡（CNN），注入的人類先驗知識更少，方法更通用：

CNN注入了相鄰像素關聯(lián)性強的人類知識，導致CNN無法處理不具備該假設的信息，例如：自然語言。

RNN假設了“時序依賴關系”是關鍵，當前狀態(tài)依賴歷史狀態(tài)（通過隱藏狀態(tài)傳遞信息），導致RNN無法處理不具備該假設的信息，例如：圖像。

Transformer使用自身的自注意力能力自行捕捉數(shù)據(jù)中的關系，即通過自注意力能力從全局角度“觀察和學習”數(shù)據(jù)的重要特征。只要信息能從全局角度被觀察和學習，那么該信息就能被Transformer處理。文本、圖像、聲音等信息，都滿足該要求，所以，都能統(tǒng)一到Transformer架構上進行處理。各種模態(tài)信息在進入Transformer前，只需要把信息Token化，即切成一個個小塊就行。

《Attention is All You Need》原文鏈接：
https://arxiv.org/pdf/1706.03762
CNN/RNN/Transformer分析對比表

在多機多卡算力時代，Transformer是比CNN和RNN更加通用的神經(jīng)網(wǎng)絡架構。

三，Decode-Only: 更加通用的大語言模型架構

《Attention is All You Need》提出了Transformer架構后，大語言模型的技術探索出現(xiàn)三個方向：僅使用左邊紅色框部分的Encoder-Only，僅使用右邊綠色框的Decoder-Only和全部都使用的Encoder-Decoder。???????

《Attention is All You Need》原文鏈接：
https://arxiv.org/pdf/1706.03762

Encoder-Only：僅使用左邊紅色框中的編碼器部分構建大語言模型，這個方向一開始主要有Google、Baidu等參與，代表模型有BERT、ERNIE等。Encoder-Only模型是掩碼語言模型(Masked Language Model)，使用雙向注意力機制，即訓練模型時，提供預測字符的雙向上下文，這有點兒類似完形填空，從一句話中隨機挖掉一個字(例如：白_依山盡)，然后預測被挖掉字。由于模型能獲得預測字符之前(過去)和之后(未來)的上下文，所以能高效學習上下文語義，體現(xiàn)出強大的文本語義理解能力，常用于情感分析、閱讀理解和文本分類等任務。但也正是由于模型在預測時同時受過去和未來雙向的上下文限制，導致在生成文本時表現(xiàn)質(zhì)量不高和多樣性低，不太符合用戶的預期。隨著 AI 應用向文本創(chuàng)作、對話系統(tǒng)、代碼生成等方向擴展，Encoder-only 架構難以滿足AIGC應用的生成需求，所以，在2021年后，這個方向就停止演進了。

Decoder-Only: 僅使用右邊綠色框中的解碼器部分構建大語言模型，這個方向主要由OpenAI主導，代表模型是GPT系列模型。Decoder-Only模型是自回歸語言模型（Autoregressive Language Modeling)，使用因果注意力機制，即訓練模型時，不能看見右側(cè)(未來)的上下文，只能使用左側(cè)(過去)的上下文預測下一個字符(Token)，這有點兒類似故事續(xù)寫，給出前面的字(例如：白_)，然后預測下一個字。由于模型只能獲得預測字符之前(過去)的上下文，訓練起來更難，需要更大的數(shù)據(jù)集和更強的算力。2020年發(fā)布的GPT-3證明了 Decoder-Only 架構在大規(guī)模數(shù)據(jù)上能夠更好地學習語言的統(tǒng)計規(guī)律和模式，不僅在生成文本時表現(xiàn)出更高的質(zhì)量和多樣性，還顯著增強了語言理解的能力，使得模型能夠更好地理解用戶的意圖和需求，并據(jù)此生成更加符合用戶期望的文本。由此，在2021年后，Google、Baidu、Meta等廠家都轉(zhuǎn)向了Decoder-Only架構。

Encoder-Decoder：同時使用編碼器和解碼器部分構建大語言模型，這個方向主要由Google、ZhipuAI在探索，代表模型有T5、GLM等。該構架雖然能兼顧Encoder-Only和Decoder-Only架構的優(yōu)勢，但相對Decoder-Only架構，訓練成本高2~5倍、推理成本高2~3倍，所以，僅用于一些需要嚴格雙向理解的細分領域（如多模態(tài)生成任務），其發(fā)展被 Decoder-only 大大超越。

JINGFENG YANG等在《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》，

https://arxiv.org/pdf/2304.13712
展現(xiàn)出了大語言模型架構的演進全景圖。上述演進趨勢可以從下圖中看出：

2023年后的主流大語言模型（如GPT-4、ERNIE4.0、Llama3...）均采用Decoder-Only架構，核心原因正是 Decoder-Only架構比其它兩個架構更簡單、更通用，在計算能力飛速發(fā)展的大趨勢下， Decoder-Only架構擁有更大的Scale up的潛力 -- 即保持核心架構不變的情況下，通過增加訓練數(shù)據(jù)，擴大模型參數(shù)規(guī)模和提升計算能力，可以進一步提升模型能力。

四???????，總結

大語言模型的演進過程，再次證明了Richard S. Sutton在《The Bitter Lesson》

http://www.incompleteideas.net/IncIdeas/BitterLesson.html
提到的AI能力演進的哲學思想：使用通用方法，然后借助計算能力Scale Up。

如果你有更好的文章，歡迎投稿！

稿件接收郵箱：nami.liu@pasuntech.com

更多精彩內(nèi)容請關注“算力魔方?”！

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴