在 NeurIPS 這一關(guān)注機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域的業(yè)界知名會議上,NVIDIA Research 帶來了 60 多個項(xiàng)目,并展示了開創(chuàng)性成果
兩篇 NVIDIA Research 的論文憑借對 AI 和機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)而榮獲 2022 年 NeurIPS 獎。其中一篇研究的是基于擴(kuò)散的生成式 AI 模型,另一篇則是關(guān)于如何訓(xùn)練通用智能體。
本周在新奧爾良舉行的 NeurIPS 大會和下周的 NeurIPS 在線會議中,60 多場講座、學(xué)術(shù)海報(bào)會和研討會均有 NVIDIA 的論文作者參加。
針對圖像、文本或視頻等模態(tài)的合成數(shù)據(jù)生成(SDG)是貫穿 NVIDIA 論文的一大關(guān)鍵主題。其他主題還包括強(qiáng)化學(xué)習(xí)、數(shù)據(jù)采集和增強(qiáng)、氣候模型以及聯(lián)邦學(xué)習(xí)。
NVIDIA 學(xué)習(xí)和感知研究副總裁 Jan Kautz 表示:“AI 是一項(xiàng)極其重要的技術(shù)。從生成式 AI 到自主智能體,NVIDIA 在各個領(lǐng)域都取得了飛快的進(jìn)展。在生成式 AI 領(lǐng)域,我們不僅在推動自身對基礎(chǔ)模型理論的理解,而且還在為更輕松地創(chuàng)建逼真的虛擬世界和模擬做出實(shí)際的貢獻(xiàn)?!?/p>
重構(gòu)基于擴(kuò)散的生成式模型的設(shè)計(jì)
基于擴(kuò)散的模型已成為生成式 AI 領(lǐng)域的一項(xiàng)開創(chuàng)性技術(shù)。NVIDIA 研究人員憑借對擴(kuò)散模型設(shè)計(jì)的分析獲得了優(yōu)秀主流論文獎(Outstanding Main Track Paper)。他們所提出的改進(jìn)措施能夠顯著提高這些模型的效率和質(zhì)量。
該論文將擴(kuò)散模型的各個組成部分分解成模塊,幫助開發(fā)者明確可以調(diào)整的流程,進(jìn)而提高整個模型的性能。研究人員表示,經(jīng)過他們修改的模型在 AI 生成圖像質(zhì)量評估中獲得了創(chuàng)紀(jì)錄的高分。
在基于《我的世界》游戲的模擬套件
中訓(xùn)練通用智能體
雖然研究人員長期以來一直在《星際爭霸》、《Dota》、《圍棋》等視頻游戲環(huán)境中訓(xùn)練自主智能體,但這些智能體一般只擅長少數(shù)任務(wù)。因此,NVIDIA 研究人員開始轉(zhuǎn)向全球最熱門的游戲《我的世界》,開發(fā)了一個用于訓(xùn)練通用智能體(一種能夠成功執(zhí)行各種開放式任務(wù)的智能體)的可擴(kuò)展訓(xùn)練框架。
這個名為 MineDojo 的框架使智能體能夠利用一個由 7000 多個維基百科網(wǎng)頁、數(shù)百萬個 Reddit 帖子和 30 萬小時游戲錄像所組成的大規(guī)模在線數(shù)據(jù)庫來學(xué)習(xí)《我的世界》的靈活玩法(如下圖所示)。該項(xiàng)目獲得了 NeurIPS 委員會頒發(fā)的優(yōu)秀數(shù)據(jù)集和基準(zhǔn)論文獎。

作為概念驗(yàn)證,MineDojo 的研究人員創(chuàng)建了一個名為 MineCLIP 的大型基礎(chǔ)模型。該模型學(xué)會了將 YouTube 上的《我的世界》游戲視頻與視頻字幕(包含玩家敘述屏幕上的動作)相關(guān)聯(lián)。通過 MineCLIP,該團(tuán)隊(duì)訓(xùn)練出了一個能夠在沒有人類干預(yù)的情況下執(zhí)行《我的世界》中若干任務(wù)的強(qiáng)化學(xué)習(xí)智能體。
創(chuàng)建構(gòu)建虛擬世界的復(fù)雜 3D 幾何體
本屆 NeurIPS 上還展示了 GET3D。這個生成式 AI 模型可根據(jù)其所訓(xùn)練的建筑物、汽車、動物等 2D 圖像類別,即時合成 3D 幾何體。AI 生成的物體具有高保真的紋理和復(fù)雜的幾何細(xì)節(jié),并且以常用圖形軟件應(yīng)用中所使用的三角網(wǎng)格格式創(chuàng)建,這使得用戶可以十分輕松地將這些幾何體導(dǎo)入 3D 渲染器和游戲引擎,以進(jìn)行后續(xù)編輯。

GET3D 即 Generate Explicit Textured 3D 的縮寫,正如其名,它具備生成具有顯示紋理的3D 網(wǎng)格的能力。該模型是在 NVIDIA A100 Tensor Core GPU 上使用從不同相機(jī)角度拍攝的約 100 萬張 3D 幾何體的 2D 圖像訓(xùn)練而成。該模型在單顆 NVIDIA GPU 上運(yùn)行推理時,每秒可生成約 20 個物體。
AI 生成的物體可用于構(gòu)建為游戲、機(jī)器人、建筑、社交媒體等行業(yè)設(shè)計(jì)的數(shù)字空間,比如建筑物、戶外空間或整座城市的 3D 表達(dá)。
通過對材質(zhì)和光照的控制,改進(jìn)可逆渲染流程
在 6 月于新奧爾良舉行的最近一次 CVPR 會議上,NVIDIA Research 發(fā)布了 3D MoMa。這種可逆渲染方法使開發(fā)者能夠創(chuàng)建由 3D 網(wǎng)格模型、覆蓋在模型上的材質(zhì)以及光照這三個不同部分所組成的 3D 物體。
此后,該團(tuán)隊(duì)在分離 3D 物體中的材質(zhì)和光照方面取得了重大進(jìn)展,這反過來又提高了 AI 生成幾何體的可編輯能力,創(chuàng)造者們能夠輕松地對在場景中移動的物體替換材質(zhì)或者調(diào)整光照。
這項(xiàng)研究工作依靠的著色模型采用 NVIDIA RTX GPU 加速光線追蹤技術(shù),更為逼真。該成果正在 NeurIPS 大會上以海報(bào)形式展示。
提高語言模型生成文本的事實(shí)準(zhǔn)確性
另一篇被 NeurIPS 收錄的論文研究的是預(yù)訓(xùn)練語言模型的一項(xiàng)重大難題——AI 生成文本的事實(shí)準(zhǔn)確性。
由于 AI 只是通過關(guān)聯(lián)單詞來預(yù)測句子接下來的內(nèi)容,因此為生成開放式文本而訓(xùn)練的語言模型往往會產(chǎn)生包含非事實(shí)信息的文本。在這篇論文中,NVIDIA 研究人員提出了能夠突破這一局限性的技術(shù),這也是為現(xiàn)實(shí)世界應(yīng)用部署此類模型的必要前提。
研究人員建立了首個能夠衡量生成開放式文本語言模型事實(shí)準(zhǔn)確性的自動化基準(zhǔn),并發(fā)現(xiàn)擁有數(shù)十億參數(shù)的大型語言模型比小型語言模型的事實(shí)準(zhǔn)確性更高。該研究團(tuán)隊(duì)提出了一項(xiàng)新的技術(shù)——事實(shí)性強(qiáng)化訓(xùn)練,以及一種新穎的采樣算法,通過兩者的結(jié)合,助力訓(xùn)練語言模型生成準(zhǔn)確的文本,并且將事實(shí)性錯誤率從 33% 降低到 15% 左右。
目前,NVIDIA 在全球共有 300 多名研究人員,團(tuán)隊(duì)專注的課題領(lǐng)域涵蓋 AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、自動駕駛汽車和機(jī)器人技術(shù)等。
原文標(biāo)題:NVIDIA 憑借生成式 AI 和通用智能體方面的研究獲得 NeurIPS 獎
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4079瀏覽量
99074
原文標(biāo)題:NVIDIA 憑借生成式 AI 和通用智能體方面的研究獲得 NeurIPS 獎
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
深演智能與深藍(lán)汽車項(xiàng)目榮獲汽車AI大模型智慧營銷卓越獎
嵌入式軟件單元測試中AI自動化與人工檢查的協(xié)同機(jī)制研究:基于專業(yè)工具的實(shí)證分析
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用
智能體化AI和生成式AI的區(qū)別
利用NVIDIA推理模型構(gòu)建AI智能體
NVIDIA 憑借生成式 AI 和通用智能體方面的研究獲得 NeurIPS 獎
評論