隨著互聯(lián)網(wǎng)自然語言數(shù)據(jù)逐漸耗盡,AI想要獲得進一步的突破性成長,需要走出數(shù)字世界,邁向物理世界。
如同人類的進化軌跡——當(dāng)機器能夠在現(xiàn)實物理世界中自主探索,便能完成自我迭代與持續(xù)進化。
近日,由全國工商聯(lián)人工智能委員會傾力主辦,商湯科技承辦的“大愛無疆·模塑未來” WAIC 2025大模型論壇上,商湯科技正式發(fā)布「悟能」具身智能平臺,從開悟世界模型到明晰智能、開悟智能,旨在為具身智能打造一個能夠在現(xiàn)實世界中自由探索成長的強大“訓(xùn)練場”。
基于方舟視覺感知、大裝置、日日新大模型等多種技術(shù)的長期積累,商湯「悟能」具身智能平臺以商湯“開悟”世界模型為核心引擎,依托商湯大裝置提供強大的端側(cè)和云側(cè)算力支持,能夠為機器人、智能設(shè)備賦予強大的感知、視覺導(dǎo)航及多模態(tài)交互能力,推動智能終端向更高層次的自主化與智能化演進。
商湯科技董事長兼首席執(zhí)行官徐立表示,“世界模型和具身AI的結(jié)合,將開啟AI發(fā)展的下一個階段,完成由‘工具’向‘人’的躍遷,加速邁向AGI時代。商湯希望「悟能」具身智能平臺能夠幫助各類具身智能企業(yè),幫助他們完成和現(xiàn)實世界交互的夢想?!?/p>
感知全能、導(dǎo)航精準(zhǔn)、交互靈活
為具身智能打造“三大核心引擎”
感知、導(dǎo)航和交互,是具身智能的三大核心能力。
商湯科技在這三大方面均擁有深厚的技術(shù)積淀,如今這些積累轉(zhuǎn)化成了「悟能」具身智能的能力。
首先,感知是機器探索現(xiàn)實世界的基礎(chǔ)。
憑借商湯方舟在視覺AI領(lǐng)域十余年的深耕積累,從機器狗到機器人,「悟能」具身智能平臺能為各類終端硬件賦予對萬物的識別與理解能力,同時具有強大的場景適配性,可完全嵌入端側(cè)芯片實現(xiàn)端側(cè)推理,讓感知更高效、響應(yīng)更敏捷。
無論是機器狗的視角(上方視頻)還是機器人的視角(下方視頻),都能對外界有整體的天然感知識別,對物體形成自然劃分切割。
導(dǎo)航是機器在現(xiàn)實世界中行動的“骨架”。
商湯絕影在純視覺端到端智能輔助駕駛方案上的技術(shù)積累,可泛化適配至機器人、機器狗等硬件設(shè)備,讓機器人在更多樣的環(huán)境中實現(xiàn)精準(zhǔn)路徑規(guī)劃與導(dǎo)航。
同樣,無論是在綠化小路中四足奔走的、體型較小的機器狗(上方視頻)還是行駛在城區(qū)正常車道的自動駕駛車輛(下方視頻)都在實現(xiàn)精準(zhǔn)路徑規(guī)劃與導(dǎo)航的同時,準(zhǔn)確地進行了自動避障。
交互是機器與現(xiàn)實世界連接的橋梁。
基于“日日新”大模型的技術(shù)積累與不斷迭代,“悟能”具身智能平臺可以賦能機器人具備和現(xiàn)實世界的交互能力,具備有溫度、有深度、長記憶、超穩(wěn)定等能力亮點。
以AI生成的《長安的荔枝》電影介紹PPT為例,由“悟能”具身智能平臺賦能的人形機器人,能夠以各種風(fēng)趣幽默、嚴(yán)謹(jǐn)務(wù)實等各種語言風(fēng)格進行生動講解。
同時,它還可以自動翻頁,實時響應(yīng)用戶提問,敏銳捕捉用戶意圖,期間用戶打斷提問,它完成提問后還能回歸繼續(xù)講解。
它還能結(jié)合長記憶能力進行階段性回顧歷史用戶提問,作出小結(jié),即便遇到嘈雜環(huán)境也能輕松應(yīng)對。
商湯“悟能”具身智能平臺可廣泛適配包括汽車、機器人在內(nèi)的各類終端,實現(xiàn)空間層面的現(xiàn)實世界互動。
構(gòu)建4D真實世界
為機器進化提供高質(zhì)量現(xiàn)實世界數(shù)據(jù)
基于強大的多模態(tài)深度理解能力,商湯“開悟”世界模型具備合理的空間一致性和時間一致性,可生成高質(zhì)量數(shù)據(jù),有效提升具身智能等終端設(shè)備的智能水平。
“開悟”世界模型能夠僅憑自然語言描述,即可生成逼真的七路攝像頭視角模擬數(shù)據(jù),且不同視角下的幾何位置高度對應(yīng),完全符合物理世界的規(guī)律。
“開悟”世界模型還能夠編輯真實世界,可對現(xiàn)實世界中的車輛等場景元素進行替換、刪除、增補,創(chuàng)造更加多樣的現(xiàn)實場景。
基于強大的生成和編輯能力,“開悟”世界模型可以精準(zhǔn)模擬方向盤、剎車和油門控制,帶來如同在真實的街道場景中玩“極品飛車”的效果,讓機器在現(xiàn)實世界中自由探索。
“極品飛車”啥效果,來這里看看:商湯董事長兼CEO徐立:人工智能的十年演進 | WAIC 2025主論壇
到了具身世界,發(fā)揮空間則更大。
相較于智能汽車,機器人適用和覆蓋的場景更加廣泛,能夠通過主動探索生成更多高質(zhì)量的現(xiàn)實世界數(shù)據(jù),在具身智能數(shù)據(jù)匱乏的當(dāng)前環(huán)境下,可通過構(gòu)建面向人、物、場的4D真實世界,突破模型泛化能力的邊界。
具身世界模型讓用戶僅需要輸入簡單的提示詞,就能自主進行位姿、動作骨架和指令的生成,讓機器人動作更合理。
給出“在廚房區(qū)域的架子上找東西”指令,具身世界模型可以準(zhǔn)確生成相應(yīng)的場景視頻和機器人的連續(xù)位姿,從上圖變成下面連續(xù)的動態(tài)視頻
再來一組,還是只給出初始視角。
給出“進入娛樂室、向右轉(zhuǎn),然后打開通往院子的門”指令,具身世界模型不僅可以進行連續(xù)位姿生成,還支持多角度查看,并保持高度的時空一致性
給出“生成一段切黃瓜的機器人視頻”指令,具身世界模型可準(zhǔn)確生成動作骨架,隨后輸出具身第一視角、第三視角4D世界視角等多種視角的視頻。
給出“生成一段白天公園里機器人跳躍的視頻”指令,具身世界模型同樣可以模擬生成符合3D關(guān)系的4D世界的真實視頻。
即便是不同相機位姿視角的視頻生成,具身世界模型也能輕松拿捏,來看下具身世界模型生成的多視角視頻
商湯“悟能”具身智能平臺正在實質(zhì)性打破虛實界限,構(gòu)建AI與物理世界交互的高效通路。
未來,商湯科技希望助力賦能具身智能企業(yè)實現(xiàn)感知、理解與生成能力的躍遷,將具身交互的不確定性挑戰(zhàn)轉(zhuǎn)化為產(chǎn)業(yè)升級的確定性路徑,推動AI向下一個十年加速進化。
-
AI
+關(guān)注
關(guān)注
90文章
38350瀏覽量
297485 -
商湯科技
+關(guān)注
關(guān)注
8文章
597瀏覽量
37340 -
具身智能
+關(guān)注
關(guān)注
0文章
295瀏覽量
790
原文標(biāo)題:商湯發(fā)布“悟能”具身智能平臺,AI在物理世界中實現(xiàn)自我進化
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
全腦智能時代來臨,黑芝麻智能SesameX多維具身智能計算平臺發(fā)布即商業(yè)化落地
什么樣的智能體才能稱為具身智能?
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
智瀚星途多款具身智能新品重磅發(fā)布
廣和通發(fā)布新一代具身智能開發(fā)平臺Fibot
東風(fēng)汽車加速具身智能領(lǐng)域技術(shù)攻關(guān)
中國具身智能的機遇與挑戰(zhàn)
英特爾? 具身智能大小腦融合方案發(fā)布:構(gòu)建具身智能落地新范式

商湯科技發(fā)布悟能具身智能平臺
評論