极品女神李丽莎深喉视频,国内极品嫩模私拍视频在线,情夜影院爽黄a爽在线观

MonoDream

機(jī)器人僅憑一枚普通單目相機(jī)也能擁有全局觀、洞察力與前瞻性

視覺(jué)語(yǔ)言導(dǎo)航(VLN)的關(guān)鍵挑戰(zhàn)，是讓機(jī)器人在真實(shí)環(huán)境中聽(tīng)懂指令、理解空間、保持方位并連續(xù)決策。過(guò)去的高性能方案往往依賴全景RGB-D傳感器，以填補(bǔ)視野盲區(qū)并提供幾何線索，但帶來(lái)高成本、高功耗和復(fù)雜集成，使其難以在真實(shí)機(jī)器人中規(guī)?；涞?。MonoDream提出另一種路徑：不增加傳感器，而是強(qiáng)化單目模型的想象力。

地平線與合作者們?yōu)閂LA大模型構(gòu)建了統(tǒng)一導(dǎo)航表征(UNR)，并提出隱式全景想象(LPD)，在訓(xùn)練階段讓模型僅憑單目輸入推測(cè)當(dāng)前與未來(lái)的全景RGB-D隱特征，從而學(xué)會(huì)在有限視野下重建空間、推演動(dòng)態(tài)。在實(shí)際部署中，MonoDream只需單目圖像即可導(dǎo)航，無(wú)需全景、無(wú)需深度、無(wú)需重建模塊，實(shí)現(xiàn)輕量感知下的全局理解與前瞻決策。它不僅縮小了單目與全景導(dǎo)航的性能差距，也拓展了具身智能在輕傳感器配置下的能力邊界。

? 論文題目：

MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming

? 論文鏈接：

https://arxiv.org/abs/2508.02549

?項(xiàng)目主頁(yè)：

https://horizonrobotics.github.io/robot_lab/monodream/

從依賴傳感器，到發(fā)掘想象力

在視覺(jué)語(yǔ)言導(dǎo)航 (VLN) 中，高性能系統(tǒng)往往依賴全景RGB-D傳感器，以獲取寬視野與幾何線索，但這種方案成本高、功耗大、集成復(fù)雜。相比之下，單目相機(jī)雖最普及、最易部署，卻長(zhǎng)期被視為能力不足，無(wú)法支撐高成功率導(dǎo)航。

MonoDream提出了另一種路徑：不依賴多傳感器堆疊，而是激發(fā)VLA大模型的潛在想象力，使單目智能體具備從局部推斷全局的能力。這一設(shè)計(jì)與認(rèn)知科學(xué)高度契合。預(yù)測(cè)編碼理論1指出，人類視覺(jué)系統(tǒng)會(huì)基于局部觀測(cè)主動(dòng)生成全局場(chǎng)景預(yù)測(cè)；神經(jīng)影像研究2則表明，大腦能夠從有限視野重建不可見(jiàn)空間并用于行動(dòng)規(guī)劃。MonoDream采用類似機(jī)制，從片段觀測(cè)中補(bǔ)全潛在全景、推測(cè)可行動(dòng)路徑，實(shí)現(xiàn)可靠導(dǎo)航。

MonoDream一邊用單目圖像做導(dǎo)航?jīng)Q策，一邊在訓(xùn)練隱式全景想象力，讓模型在有限視野下也能推演完整空間與未來(lái)。

如何在機(jī)器人腦中構(gòu)建想象力

具體來(lái)說(shuō)，我們不是試圖用有限視野去對(duì)抗空間不完整性，而是讓模型在訓(xùn)練過(guò)程中學(xué)會(huì)用單目畫(huà)面推演一個(gè)看不見(jiàn)的世界。MonoDream通過(guò)統(tǒng)一導(dǎo)航表征 (UNR) 和隱式全景想象機(jī)制 (LPD) ，在訓(xùn)練階段逼迫模型僅憑單目輸入去預(yù)測(cè)當(dāng)前與未來(lái)的全景RGB-D潛特征。這不僅讓它在空間維度上從缺失視角中重建完整結(jié)構(gòu)，也讓它在時(shí)間維度上形成前瞻能力。重要的是，這些想象并不依賴顯式渲染或生成，而是內(nèi)化為導(dǎo)航?jīng)Q策的一部分，沉淀在模型內(nèi)部。

進(jìn)入真實(shí)部署時(shí)，MonoDream選擇完全回歸現(xiàn)實(shí)：不需要全景輸入，不需要深度圖，不需要顯式重建，只憑一枚普通單目相機(jī)即可完成導(dǎo)航?jīng)Q策。訓(xùn)練時(shí)擁有“看見(jiàn)更多的自由”，推理時(shí)卻保持“設(shè)備極簡(jiǎn)的克制”。這正是MonoDream設(shè)計(jì)上的關(guān)鍵轉(zhuǎn)折——讓“想象”成為真正的能力，而不是額外消耗。

MonoDream能在轉(zhuǎn)角和盲區(qū)中做出正確導(dǎo)航?jīng)Q策，而無(wú)想象能力的模型會(huì)誤判路徑、走錯(cuò)房間。

單目潛能遠(yuǎn)不止于此

實(shí)驗(yàn)結(jié)果顯示，這條路徑不僅可行，而且強(qiáng)大。在R2R-CE和RxR-CE等標(biāo)準(zhǔn)基準(zhǔn)上，MonoDream在單目設(shè)定下取得了領(lǐng)先表現(xiàn)，甚至在訓(xùn)練數(shù)據(jù)有限的情況下依然保持穩(wěn)定泛化，并顯著縮小了與全景方案之間的性能差距。事實(shí)證明，過(guò)去單目表現(xiàn)不佳的根源，并非傳感器本身，而是模型缺乏補(bǔ)全視野與空間認(rèn)知的能力。

在R2R-CE基準(zhǔn)上，MonoDream僅用單目輸入，就達(dá)到接近全景與深度模型的性能，且不依賴外部數(shù)據(jù)。

MonoDream告訴我們：輕感知≠弱能力。一枚相機(jī)，并不意味著只能看到有限世界。只要模型具備想象與推演能力，就能補(bǔ)全缺失、洞察結(jié)構(gòu)、推測(cè)未來(lái)。在具身智能的發(fā)展道路上，MonoDream不僅重新定義了“單目能做到什么”，也為“如何以認(rèn)知能力彌補(bǔ)硬件限制”提供了新的答案。

即使未在RxR-CE基準(zhǔn)的數(shù)據(jù)上訓(xùn)練，MonoDream直接遷移仍達(dá)SOTA，展現(xiàn)隱式全景想象機(jī)制 (LPD) 賦予的全局理解與長(zhǎng)程導(dǎo)航能力。

總結(jié)和展望

當(dāng)機(jī)器人能夠在單目畫(huà)面中自行重構(gòu)全景與未來(lái)，它便不再受限于輸入本身，而開(kāi)始依托內(nèi)生的世界模型進(jìn)行想象與決策。接下來(lái)，這一范式將延展至更高維的具身智能場(chǎng)景——長(zhǎng)程規(guī)劃、交互理解，甚至在未知環(huán)境中實(shí)現(xiàn)自主推演與探索。MonoDream不是單目能力的封頂，而是讓想象力成為具身智能進(jìn)化的一種新路徑。

參考文獻(xiàn)：

(1) Robertson, C. E.; Hermann, K. L.; Mynick, A.; Kravitz, D. J.; and Kanwisher, N. 2016. Neural representations integrate the current field of view with the remembered 360 panorama in scene-selective cortex. Current Biology, 26(18): 2463–2468.

(2) Seeber, M.; Stangl, M.; Vallejo Martelo, M.; Topalovic, U.; Hiller, S.; Halpern, C. H.; Langevin, J.-P.; Rao, V. R.; Fried, I.; Eliashiv, D.; et al. 2025. Human neural dynamics of real-world and imagined navigation. Nature Human Behaviour, 9(4): 781–793.

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2577

文章
55436

瀏覽量
793676
機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
31381

瀏覽量
223529
地平線

地平線

+關(guān)注

關(guān)注
0

文章
467

瀏覽量
16487

原文標(biāo)題：開(kāi)發(fā)者說(shuō)｜MonoDream：機(jī)器人僅憑單目相機(jī)，也能通曉全景、洞悉深度和預(yù)見(jiàn)未來(lái)

文章出處：【微信號(hào)：horizonrobotics，微信公眾號(hào)：地平線HorizonRobotics】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

MonoDream框架賦能機(jī)器人僅憑單目相機(jī)重構(gòu)全景與未來(lái)

評(píng)論