chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MonoDream框架賦能機(jī)器人僅憑單目相機(jī)重構(gòu)全景與未來(lái)

地平線HorizonRobotics ? 來(lái)源:地平線HorizonRobotics ? 2025-12-03 09:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

MonoDream

機(jī)器人僅憑一枚普通單目相機(jī)也能擁有全局觀、洞察力與前瞻性

視覺(jué)語(yǔ)言導(dǎo)航(VLN)的關(guān)鍵挑戰(zhàn),是讓機(jī)器人在真實(shí)環(huán)境中聽(tīng)懂指令、理解空間、保持方位并連續(xù)決策。過(guò)去的高性能方案往往依賴全景RGB-D傳感器,以填補(bǔ)視野盲區(qū)并提供幾何線索,但帶來(lái)高成本、高功耗和復(fù)雜集成,使其難以在真實(shí)機(jī)器人中規(guī)?;涞?。MonoDream提出另一種路徑:不增加傳感器,而是強(qiáng)化單目模型的想象力。

地平線與合作者們?yōu)閂LA大模型構(gòu)建了統(tǒng)一導(dǎo)航表征(UNR),并提出隱式全景想象(LPD),在訓(xùn)練階段讓模型僅憑單目輸入推測(cè)當(dāng)前與未來(lái)的全景RGB-D隱特征,從而學(xué)會(huì)在有限視野下重建空間、推演動(dòng)態(tài)。在實(shí)際部署中,MonoDream只需單目圖像即可導(dǎo)航,無(wú)需全景、無(wú)需深度、無(wú)需重建模塊,實(shí)現(xiàn)輕量感知下的全局理解與前瞻決策。它不僅縮小了單目與全景導(dǎo)航的性能差距,也拓展了具身智能在輕傳感器配置下的能力邊界。

? 論文題目:

MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming

? 論文鏈接:

https://arxiv.org/abs/2508.02549

?項(xiàng)目主頁(yè):

https://horizonrobotics.github.io/robot_lab/monodream/

從依賴傳感器,到發(fā)掘想象力

在視覺(jué)語(yǔ)言導(dǎo)航 (VLN) 中,高性能系統(tǒng)往往依賴全景RGB-D傳感器,以獲取寬視野與幾何線索,但這種方案成本高、功耗大、集成復(fù)雜。相比之下,單目相機(jī)雖最普及、最易部署,卻長(zhǎng)期被視為能力不足,無(wú)法支撐高成功率導(dǎo)航。

MonoDream提出了另一種路徑:不依賴多傳感器堆疊,而是激發(fā)VLA大模型的潛在想象力,使單目智能體具備從局部推斷全局的能力。這一設(shè)計(jì)與認(rèn)知科學(xué)高度契合。預(yù)測(cè)編碼理論1指出,人類視覺(jué)系統(tǒng)會(huì)基于局部觀測(cè)主動(dòng)生成全局場(chǎng)景預(yù)測(cè);神經(jīng)影像研究2則表明,大腦能夠從有限視野重建不可見(jiàn)空間并用于行動(dòng)規(guī)劃。MonoDream采用類似機(jī)制,從片段觀測(cè)中補(bǔ)全潛在全景、推測(cè)可行動(dòng)路徑,實(shí)現(xiàn)可靠導(dǎo)航。

9460e71c-cad1-11f0-8c8f-92fbcf53809c.png

MonoDream一邊用單目圖像做導(dǎo)航?jīng)Q策,一邊在訓(xùn)練隱式全景想象力,讓模型在有限視野下也能推演完整空間與未來(lái)。

如何在機(jī)器人腦中構(gòu)建想象力

具體來(lái)說(shuō),我們不是試圖用有限視野去對(duì)抗空間不完整性,而是讓模型在訓(xùn)練過(guò)程中學(xué)會(huì)用單目畫(huà)面推演一個(gè)看不見(jiàn)的世界。MonoDream通過(guò)統(tǒng)一導(dǎo)航表征 (UNR) 和隱式全景想象機(jī)制 (LPD) ,在訓(xùn)練階段逼迫模型僅憑單目輸入去預(yù)測(cè)當(dāng)前與未來(lái)的全景RGB-D潛特征。這不僅讓它在空間維度上從缺失視角中重建完整結(jié)構(gòu),也讓它在時(shí)間維度上形成前瞻能力。重要的是,這些想象并不依賴顯式渲染或生成,而是內(nèi)化為導(dǎo)航?jīng)Q策的一部分,沉淀在模型內(nèi)部。

進(jìn)入真實(shí)部署時(shí),MonoDream選擇完全回歸現(xiàn)實(shí):不需要全景輸入,不需要深度圖,不需要顯式重建,只憑一枚普通單目相機(jī)即可完成導(dǎo)航?jīng)Q策。訓(xùn)練時(shí)擁有“看見(jiàn)更多的自由”,推理時(shí)卻保持“設(shè)備極簡(jiǎn)的克制”。這正是MonoDream設(shè)計(jì)上的關(guān)鍵轉(zhuǎn)折——讓“想象”成為真正的能力,而不是額外消耗。

94c7cce8-cad1-11f0-8c8f-92fbcf53809c.png

MonoDream能在轉(zhuǎn)角和盲區(qū)中做出正確導(dǎo)航?jīng)Q策,而無(wú)想象能力的模型會(huì)誤判路徑、走錯(cuò)房間。

單目潛能遠(yuǎn)不止于此

實(shí)驗(yàn)結(jié)果顯示,這條路徑不僅可行,而且強(qiáng)大。在R2R-CE和RxR-CE等標(biāo)準(zhǔn)基準(zhǔn)上,MonoDream在單目設(shè)定下取得了領(lǐng)先表現(xiàn),甚至在訓(xùn)練數(shù)據(jù)有限的情況下依然保持穩(wěn)定泛化,并顯著縮小了與全景方案之間的性能差距。事實(shí)證明,過(guò)去單目表現(xiàn)不佳的根源,并非傳感器本身,而是模型缺乏補(bǔ)全視野與空間認(rèn)知的能力。

952cc1c0-cad1-11f0-8c8f-92fbcf53809c.png

在R2R-CE基準(zhǔn)上,MonoDream僅用單目輸入,就達(dá)到接近全景與深度模型的性能,且不依賴外部數(shù)據(jù)。

MonoDream告訴我們:輕感知≠弱能力。一枚相機(jī),并不意味著只能看到有限世界。只要模型具備想象與推演能力,就能補(bǔ)全缺失、洞察結(jié)構(gòu)、推測(cè)未來(lái)。在具身智能的發(fā)展道路上,MonoDream不僅重新定義了“單目能做到什么”,也為“如何以認(rèn)知能力彌補(bǔ)硬件限制”提供了新的答案。

95876670-cad1-11f0-8c8f-92fbcf53809c.png

即使未在RxR-CE基準(zhǔn)的數(shù)據(jù)上訓(xùn)練,MonoDream直接遷移仍達(dá)SOTA,展現(xiàn)隱式全景想象機(jī)制 (LPD) 賦予的全局理解與長(zhǎng)程導(dǎo)航能力。

總結(jié)和展望

當(dāng)機(jī)器人能夠在單目畫(huà)面中自行重構(gòu)全景與未來(lái),它便不再受限于輸入本身,而開(kāi)始依托內(nèi)生的世界模型進(jìn)行想象與決策。接下來(lái),這一范式將延展至更高維的具身智能場(chǎng)景——長(zhǎng)程規(guī)劃、交互理解,甚至在未知環(huán)境中實(shí)現(xiàn)自主推演與探索。MonoDream不是單目能力的封頂,而是讓想象力成為具身智能進(jìn)化的一種新路徑。

參考文獻(xiàn):

(1) Robertson, C. E.; Hermann, K. L.; Mynick, A.; Kravitz, D. J.; and Kanwisher, N. 2016. Neural representations integrate the current field of view with the remembered 360 panorama in scene-selective cortex. Current Biology, 26(18): 2463–2468.

(2) Seeber, M.; Stangl, M.; Vallejo Martelo, M.; Topalovic, U.; Hiller, S.; Halpern, C. H.; Langevin, J.-P.; Rao, V. R.; Fried, I.; Eliashiv, D.; et al. 2025. Human neural dynamics of real-world and imagined navigation. Nature Human Behaviour, 9(4): 781–793.

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2577

    文章

    55436

    瀏覽量

    793676
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31381

    瀏覽量

    223529
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    467

    瀏覽量

    16487

原文標(biāo)題:開(kāi)發(fā)者說(shuō)|MonoDream:機(jī)器人僅憑單目相機(jī),也能通曉全景、洞悉深度和預(yù)見(jiàn)未來(lái)

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小型自重構(gòu)機(jī)器人能不能幫忙做一個(gè)?

    當(dāng)然可以!我直接**給你一套能做、能跑、自己變形的小型自重構(gòu)機(jī)器人完整方案**,適合 ESP32S3 + 舵機(jī) + 簡(jiǎn)單結(jié)構(gòu),不用復(fù)雜加工,能跑、拼接、能變形。 我給你做**最
    發(fā)表于 02-21 19:24

    機(jī)器人技術(shù)未來(lái)誰(shuí)來(lái)主導(dǎo)?

    機(jī)器人技術(shù)不再是未來(lái)的幻想,它已經(jīng)進(jìn)入了我們的日常生活。但在這一領(lǐng)域,我們?nèi)狈ο鄳?yīng)的法律法規(guī)。比如無(wú)人機(jī),現(xiàn)在由美國(guó)聯(lián)邦航空管理局( FAA)來(lái)管理,但很多人認(rèn)為,這完全越權(quán)了;比如機(jī)器人
    發(fā)表于 01-13 16:39

    工業(yè)機(jī)器人未來(lái)展望

    等工序上,以及在原子工業(yè)等部門(mén)中,完成對(duì)人體有害物料的搬運(yùn)或工藝操作。據(jù)了解,應(yīng)用在工程機(jī)械制造領(lǐng)域的工業(yè)機(jī)器人主要包括:點(diǎn)焊機(jī)器人、切割機(jī)器人、噴涂
    發(fā)表于 02-11 17:38

    未來(lái)社會(huì)為何更需要搬運(yùn)機(jī)器人

    `未來(lái)社會(huì)將是人類與機(jī)器人共存的社會(huì),而未來(lái)社會(huì)之所以需要機(jī)器人,是由網(wǎng)絡(luò)社會(huì)化、社會(huì)老齡化等大趨勢(shì)決定的。首先網(wǎng)絡(luò)社會(huì)化為機(jī)器人
    發(fā)表于 12-23 14:40

    機(jī)器人未來(lái)

    劉***:歡迎來(lái)到未來(lái)機(jī)器人的世界,在這里一些關(guān)于機(jī)器人未來(lái)的傳統(tǒng)認(rèn)識(shí)將被顛覆。創(chuàng)造機(jī)器人曾是我們兒時(shí)的夢(mèng)想,從敲打簡(jiǎn)陋的鐵皮
    發(fā)表于 12-29 14:56

    全球機(jī)器人發(fā)展現(xiàn)狀

    機(jī)器人發(fā)展五年計(jì)劃,旨在鞏固其在機(jī)器人領(lǐng)域的世界領(lǐng)先地位。 歐洲 歐盟第七研發(fā)框架計(jì)劃已經(jīng)投入了高達(dá)6億歐元的經(jīng)費(fèi)于工業(yè)機(jī)器人的研究制造,未來(lái)
    發(fā)表于 01-28 15:21

    汽車機(jī)器人

    車米將在今年上市的產(chǎn)品,是一個(gè)機(jī)器人。目前來(lái)說(shuō),他還是一個(gè)小孩子初級(jí)機(jī)器人。為什么這么說(shuō)呢?因?yàn)榈侥壳盀橹梗粚?shí)現(xiàn)了一些小的功能。但真正要做的是要將ADAS、人工智能集成進(jìn)去,再與對(duì)車的控制打通
    發(fā)表于 04-21 14:55

    這些機(jī)器人視覺(jué)系統(tǒng)些關(guān)鍵技術(shù),你必須要知道

    全景視覺(jué)系統(tǒng)由CCD攝像機(jī)、折反射光學(xué)元件等組成,利用反射鏡成像原理,可以觀察360度場(chǎng)景,成像速度快,達(dá)到實(shí)時(shí)要求,具有十分重要的應(yīng)用前景,可以應(yīng)用在機(jī)器人導(dǎo)航中。全景視覺(jué)系統(tǒng)本質(zhì)
    發(fā)表于 12-13 21:23

    最新機(jī)器人報(bào)告:未來(lái)智能機(jī)器人將成家庭重要組成部分

    %)的英國(guó)人認(rèn)為未來(lái)50年內(nèi)每個(gè)家庭都會(huì)有機(jī)器人,只有四分之一的人不相信未來(lái)生活中機(jī)器人會(huì)成為家庭的重要組成部分。這與好萊塢電影中危險(xiǎn)的“終結(jié)者”、偏執(zhí)的
    發(fā)表于 12-22 09:28

    機(jī)器人的自主決策可靠嗎?機(jī)器視覺(jué)在智能領(lǐng)域占據(jù)什么地位?

    機(jī)器人視覺(jué)可使工業(yè)機(jī)器人擁有感知和決策能力,以適應(yīng)更多“機(jī)器換人”的生產(chǎn)場(chǎng)景。2. 工業(yè)機(jī)器人可通過(guò)雙目或多技術(shù)、激光
    發(fā)表于 08-16 04:00

    請(qǐng)問(wèn)未來(lái)機(jī)器人可以進(jìn)行FPGA開(kāi)發(fā)嗎?

    隨著人工智能技術(shù)的發(fā)展,機(jī)器人已經(jīng)開(kāi)始接管人類的部分工作,例如快遞、工廠作業(yè)、餐廳服務(wù)員甚至媒體編輯---紐約時(shí)報(bào)就聘請(qǐng)了一位機(jī)器人做總編。未來(lái)機(jī)器人可以介入半導(dǎo)體設(shè)計(jì)開(kāi)發(fā)嗎?例如,
    發(fā)表于 10-10 06:33

    未來(lái)家庭的監(jiān)控機(jī)器人要具備什么特征?

    未來(lái)家庭的監(jiān)控機(jī)器人應(yīng)該要具備以下特征:1.擬人化設(shè)計(jì),具有可愛(ài)的操作接口讓很容易從遠(yuǎn) 端監(jiān)控.2.監(jiān)控機(jī)器人可以儲(chǔ)存所看到的影像,并通過(guò)遠(yuǎn)程傳給家庭主人.3.監(jiān)控
    發(fā)表于 10-30 02:25

    機(jī)器人未來(lái)設(shè)想

    對(duì)于機(jī)器人得幾個(gè)場(chǎng)景的回憶!曾經(jīng)在星球大戰(zhàn)里面見(jiàn)到了各種機(jī)器人,一下子把人們帶到了太空的科幻之境界。而后來(lái)又出現(xiàn)了機(jī)器人瓦力,當(dāng)然里面也充滿了各種技術(shù)結(jié)晶!最近幾年我看過(guò)的比較經(jīng)典的機(jī)器人
    發(fā)表于 11-22 22:37

    機(jī)器人研究框架及AI芯片的架構(gòu)解析

    自動(dòng)駕駛技術(shù)進(jìn)步:機(jī)器人導(dǎo)航識(shí)別周邊環(huán)境更加及時(shí)與精準(zhǔn),避障更加靈活,推動(dòng)清潔機(jī)器人、配送機(jī)器人進(jìn)步。 自然語(yǔ)言處理技術(shù)進(jìn)步:以ChatGPT為例的大規(guī)模預(yù)訓(xùn)練模型使機(jī)器人能夠準(zhǔn)確領(lǐng)
    發(fā)表于 02-13 11:27 ?848次閱讀

    面向未來(lái)戰(zhàn)場(chǎng)的可重構(gòu)機(jī)器人

    一是智能化。未來(lái)戰(zhàn)場(chǎng)上的可重構(gòu)機(jī)器人需要具備更高的智能水平。通過(guò)借鑒結(jié)合人工智能領(lǐng)域的最新研究成果,可重構(gòu)機(jī)器人將能夠?qū)崿F(xiàn)自主感知、自主學(xué)習(xí)
    的頭像 發(fā)表于 08-30 15:59 ?1667次閱讀
    面向<b class='flag-5'>未來(lái)</b>戰(zhàn)場(chǎng)的可<b class='flag-5'>重構(gòu)</b><b class='flag-5'>機(jī)器人</b>