chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌、DeepMind重磅推出PlaNet 強化學習新突破

DPVg_AI_era ? 來源:cc ? 2019-02-17 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡 (PlaNet),這是一個純粹基于模型的智能體,能從圖像輸入中學習世界模型,完成多項規(guī)劃任務,數(shù)據(jù)效率平均提升50倍,強化學習又一突破。

通過強化學習 (RL),對 AI 智能體如何隨著時間的推移提高決策能力的研究進展迅速。

對于強化學習,智能體在選擇動作 (例如,運動命令) 時會觀察一系列感官輸入(例如,相機圖像),并且有時會因為達成指定目標而獲得獎勵。

RL 的無模型方法 (Model-free) 旨在通過感官觀察直接預測良好的行為,這種方法使 DeepMind 的 DQN 能夠玩雅達利游戲,使其他智能體能夠控制機器人。

然而,這是一種黑盒方法,通常需要經(jīng)過數(shù)周的模擬交互才能通過反復試驗來學習,這限制了它在實踐中的有效性。

相反,基于模型的 RL 方法 (Model-basedRL) 試圖讓智能體了解整個世界的行為。這種方法不是直接將觀察結果映射到行動,而是允許 agent 明確地提前計劃,通過 “想象” 其長期結果來更仔細地選擇行動。

Model-based 的方法已經(jīng)取得了巨大的成功,包括 AlphaGo,它設想在已知游戲規(guī)則的虛擬棋盤上進行一系列的移動。然而,要在未知環(huán)境中利用規(guī)劃(例如僅將像素作為輸入來控制機器人),智能體必須從經(jīng)驗中學習規(guī)則或動態(tài)。

由于這種動態(tài)模型原則上允許更高的效率和自然的多任務學習,因此創(chuàng)建足夠精確的模型以成功地進行規(guī)劃是 RL 的長期目標。

為了推動這項研究挑戰(zhàn)的進展,Google AI 與 DeepMind 合作,提出了深度規(guī)劃網(wǎng)絡 (Deep Planning Network, PlaNet),該智能體僅從圖像輸入中學習世界模型 (world model),并成功地利用它進行規(guī)劃。

PlaNet 解決了各種基于圖像的控制任務,在最終性能上可與先進的 model-free agent 競爭,同時平均數(shù)據(jù)效率提高了 5000%。研究團隊將發(fā)布源代碼供研究社區(qū)使用。

在 2000 次的嘗試中,PlaNet 智能體學習解決了各種連續(xù)控制任務。以前的沒有學習環(huán)境模型的智能體通常需要多 50 倍的嘗試次數(shù)才能達到類似的性能。

PlaNet 的工作原理

簡而言之,PlaNet 學習了給定圖像輸入的動態(tài)模型 (dynamics model),并有效地利用該模型進行規(guī)劃,以收集新的經(jīng)驗。

與以前的圖像規(guī)劃方法不同,我們依賴于隱藏狀態(tài)或潛在狀態(tài)的緊湊序列。這被稱為latent dynamics model:我們不是直接從一個圖像到下一個圖像地預測,而是預測未來的潛在狀態(tài)。然后從相應的潛在狀態(tài)生成每一步的圖像和獎勵。

通過這種方式壓縮圖像,agent 可以自動學習更抽象的表示,例如對象的位置和速度,這樣就可以更容易地向前預測,而不需要沿途生成圖像。

Learned Latent Dynamics Model:在 latent dynamics 模型中,利用編碼器網(wǎng)絡(灰色梯形) 將輸入圖像的信息集成到隱藏狀態(tài)(綠色) 中。然后將隱藏狀態(tài)向前投影,以預測未來的圖像(藍色梯形) 和獎勵(藍色矩形)。

為了學習一個精確的 latent dynamics 模型,我們提出了:

循環(huán)狀態(tài)空間模型 (Recurrent State Space Model):一種具有確定性和隨機性成分的 latent dynamics 模型,允許根據(jù)魯棒規(guī)劃的需要預測各種可能的未來,同時記住多個時間步長的信息。我們的實驗表明這兩個組件對于提高規(guī)劃性能是至關重要的。

潛在超調目標 (Latent Overshooting Objective):我們通過在潛在空間中強制 one-step 和 multi-step 預測之間的一致性,將 latent dynamics 模型的標準訓練目標推廣到訓練多步預測。這產(chǎn)生了一個快速和有效的目標,可以改善長期預測,并與任何潛在序列模型兼容。

雖然預測未來的圖像允許我們教授模型,但編碼和解碼圖像 (上圖中的梯形) 需要大量的計算,這會減慢智能體的 planning 過程。然而,在緊湊的潛在狀態(tài)空間中進行 planning 是很快的,因為我們只需要預測未來的 rewards 來評估一個動作序列,而不是預測圖像。

例如,智能體可以想象球的位置和它到目標的距離在特定的動作中將如何變化,而不需要可視化場景。這允許我們在每次智能體選擇一個動作時,將 10000 個想象的動作序列與一個大的 batch size 進行比較。然后執(zhí)行找到的最佳序列的第一個動作,并在下一步重新規(guī)劃。

在潛在空間中進行規(guī)劃:為了進行規(guī)劃,我們將過去的圖像 (灰色梯形) 編碼為當前的隱藏狀態(tài) (綠色)。這樣,我們可以有效地預測多個動作序列的未來獎勵。請注意,上圖中昂貴的圖像解碼器 (藍色梯形) 已經(jīng)消失了。然后,執(zhí)行找到的最佳序列的第一個操作 (紅色框)。

與我們之前關于世界模型的工作 (https://worldmodels.github.io/) 相比,PlaNet 在沒有策略網(wǎng)絡的情況下工作 —— 它純粹通過 planning 來選擇行動,因此它可以從模型當下的改進中獲益。有關技術細節(jié),請參閱我們的研究論文。

PlaNet vs. Model-Free 方法

我們在連續(xù)控制任務上評估了 PlaNet。智能體只被輸入圖像觀察和獎勵。我們考慮了具有各種不同挑戰(zhàn)的任務:

側手翻任務:帶有一個固定的攝像頭,這樣推車可以移動到視線之外。因此,智能體必須吸收并記住多個幀的信息。

手指旋轉任務:需要預測兩個單獨的對象,以及它們之間的交互。

獵豹跑步任務:包括難以準確預測的地面接觸,要求模型預測多個可能的未來。

杯子接球任務:它只在球被接住時提供一個稀疏的獎勵信號。這要求準確預測很遠的未來,并規(guī)劃一個精確的動作序列。

走路任務:模擬機器人一開始是躺在地上,然后它必須先學會站立,再學習行走。

PlaNet 智能體接受了各種基于圖像的控制任務的訓練。動圖顯示了當智能體解決任務時輸入的圖像。這些任務提出了不同的挑戰(zhàn):部分可觀察性、與地面的接觸、接球的稀疏獎勵,以及控制一個具有挑戰(zhàn)性的雙足機器人。

這一研究是第一個使用學習模型進行規(guī)劃,并在基于圖像的任務上優(yōu)于 model-free 方法的案例。

下表將PlaNet與著名的A3C 智能體和 D4PG 智能體進行了比較,后者結合了 model-free RL 的最新進展。這些基線數(shù)據(jù)來自 DeepMind 控制套件。PlaNet 在所有任務上都明顯優(yōu)于 A3C,最終性能接近 D4PG,同時與環(huán)境的交互平均減少了 5000%。

所有任務只需要一個智能體

此外,我們只訓練了一個單一的 PlaNet 智能體來解決所有六個任務。

在不知道任務的情況下,智能體被隨機放置在不同的環(huán)境中,因此它需要通過觀察圖像來推斷任務。

在不改變超參數(shù)的情況下,多任務智能體實現(xiàn)了與單個智能體相同的平均性能。雖然在側手翻任務中學習速度較慢,但在需要探索的具有挑戰(zhàn)性的步行任務中,它的學習速度要快得多,最終表現(xiàn)也更好。

在多個任務上訓練的 PlaNet 智能體。智能體觀察前 5 個幀作為上下文以推斷任務和狀態(tài),并在給定動作序列的情況下提前準確地預測 50 個步驟。

結論

我們的結果展示了構建自主 RL 智能體的學習動態(tài)模型的前景。我們鼓勵進一步的研究,集中在學習更困難的任務的精確動態(tài)模型,如三維環(huán)境和真實的機器人任務。擴大規(guī)模的一個可能因素是 TPU 的處理能力。我們對 model-based 強化學習帶來的可能性感到興奮,包括多任務學習、分層規(guī)劃和使用不確定性估計的主動探索。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6246

    瀏覽量

    110418
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11915
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    12148

原文標題:一個智能體打天下:谷歌、DeepMind重磅推出PlaNet,數(shù)據(jù)效率提升50倍

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA 推出 Nemotron 3 系列開放模型

    token 數(shù)。 ● Nemotron 通過先進的強化學習技術以及大規(guī)模并行多環(huán)境后訓練,實現(xiàn)了卓越的準確率。 ● NVIDIA 率先推出整套前沿的開放模型、訓練數(shù)據(jù)集及強化學習環(huán)境與
    的頭像 發(fā)表于 12-16 09:27 ?330次閱讀
    NVIDIA <b class='flag-5'>推出</b> Nemotron 3 系列開放模型

    如何訓練好自動駕駛端到端模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:端到端算法是怎樣訓練的?是模仿學習、強化學習和離線強化學習這三類嗎?其實端到端(end-to-end)算法在自動駕駛、智能體決策系統(tǒng)里
    的頭像 發(fā)表于 12-08 16:31 ?1071次閱讀
    如何訓練好自動駕駛端到端模型?

    新唐科技重磅推出全球首款RGB與TOF融合相機

    新唐(Nuvoton)重磅推出全球首款 RGB x TOF 融合相機,以創(chuàng)新架構打破二維視覺邊界,為消費電子與工業(yè)自動化注入強勁動力。
    的頭像 發(fā)表于 11-26 17:07 ?533次閱讀

    谷歌云發(fā)布最強自研TPU,性能比前代提升4倍

    精心設計,能夠輕松處理從大型模型訓練到實時聊天機器人運行以及AI智能體操作等各類復雜任務。 ? 谷歌在新聞稿中著重強調,“Ironwood”是專為應對最嚴苛的工作負載而打造的。無論是大規(guī)模模型訓練、復雜的強化學習(RL),還是高容量、低延遲的AI推理和模型服務,
    的頭像 發(fā)表于 11-13 07:49 ?8266次閱讀
    <b class='flag-5'>谷歌</b>云發(fā)布最強自研TPU,性能比前代提升4倍

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機強化學習
    發(fā)表于 11-05 09:44 ?945次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?371次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    【海翔科技】東京精密 TOKYO SEIMITSU Vega 系列二手探針臺 Vega Planet|現(xiàn)場驗機測試保障

    一、引言 在高端半導體測試設備領域,東京精密 TOKYO SEIMITSU Vega 系列的 Vega Planet 探針臺以其全方位的性能表現(xiàn),成為復雜測試場景的核心設備。海翔科技提供的二手
    的頭像 發(fā)表于 10-11 11:50 ?299次閱讀
    【海翔科技】東京精密 TOKYO SEIMITSU Vega 系列二手探針臺 Vega <b class='flag-5'>Planet</b>|現(xiàn)場驗機測試保障

    谷歌DeepMind重磅發(fā)布Genie 3,首次實現(xiàn)世界模型實時交互

    電子發(fā)燒友網(wǎng)綜合報道 當?shù)貢r間2025年8月5日,谷歌DeepMind正式推出第三代通用世界模型Genie3。這款被英偉達科學家Jim Fan譽為“游戲引擎2.0”的模型,通過單文本提示即可生成實時
    的頭像 發(fā)表于 08-13 08:27 ?6576次閱讀

    金升陽重磅推出雙向電源LMB系列

    金升陽重磅推出能量回饋型電源——雙向電源LMB系列,可廣泛應用于化成分容、電池檢測、老化、電池維保等相關領域。
    的頭像 發(fā)表于 07-24 17:50 ?961次閱讀
    金升陽<b class='flag-5'>重磅</b><b class='flag-5'>推出</b>雙向電源LMB系列

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發(fā)表于 07-14 15:29 ?1936次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    本來轉自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發(fā)表于 04-23 13:22 ?1362次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    【免費送,全新AD25(入門+進階)兩套 PCB Layout視頻教程 】張飛實戰(zhàn)電子x志博PCB:攜手共創(chuàng)PCB學習新征程

    張飛實戰(zhàn)電子×志博PCB=攜手共創(chuàng)PCBLayout學習新征程領取課程請掃描后面的二維碼在電子科技浪潮奔涌的當下,PCB作為電子產(chǎn)品的“中樞神經(jīng)”,其設計與制作技術的重要性不言而喻。張飛實戰(zhàn)電子與志
    的頭像 發(fā)表于 03-06 19:34 ?1052次閱讀
    【免費送,全新AD25(入門+進階)兩套 PCB Layout視頻教程 】張飛實戰(zhàn)電子x志博PCB:攜手共創(chuàng)PCB<b class='flag-5'>學習新</b>征程

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數(shù)據(jù),大語言模型預訓練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現(xiàn)了強大的推理能力,掀起新一輪技術革新。
    的頭像 發(fā)表于 02-25 14:06 ?1055次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    Commvault推出CIS強化鏡像

    混合云數(shù)據(jù)保護解決方案領先提供商Commvault(納斯達克代碼:CVLT)近日宣布可以使用CIS強化鏡像,從各大云應用市場輕松部署Commvault Cloud平臺。這些CIS強化鏡像預先配置了
    的頭像 發(fā)表于 02-21 16:36 ?757次閱讀

    谷歌加速AI部門整合:AI Studio團隊并入DeepMind

    近日,谷歌正緊鑼密鼓地推進其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領英頁面上的透露,谷歌已將AI Studio團隊整體轉移至DeepMi
    的頭像 發(fā)表于 01-13 14:40 ?1187次閱讀