chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動駕駛上常提的VLA與世界模型有什么區(qū)別?

智駕最前沿 ? 來源:智駕最前沿 ? 2025-10-18 10:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

VLA:把“看”和“說”連到“做”上

[首發(fā)于智駕最前沿微信公眾號]自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最終控制車輛的動作輸出連到一起。這樣一套模型既能把路面情況轉(zhuǎn)成語義信息(比如識別行人、車道、交通標(biāo)志),又能在內(nèi)部用類語言的方式做推理(比如判斷行人的意圖是否會橫穿),最后直接輸出控制量或軌跡建議,從而完成從感知到?jīng)Q策到動作的閉環(huán)。

VLA常把視覺特征先經(jīng)過編碼器變成一組向量,然后把這些向量與語言模型連接,語言模型負(fù)責(zé)做高層推理或上下文理解,最后再用一個動作生成模塊把推理結(jié)果映射到可執(zhí)行的控制指令。因?yàn)橛小罢Z言”這條中間線索,VLA在解釋模型為什么這樣決策、把決策用人能看懂的方式表達(dá)方面有天然優(yōu)勢,這對事故回溯、人工審查和人機(jī)交互都很有幫助。

世界模型:在“腦?!崩?a href="http://m.brongaenegriffin.com/analog/" target="_blank">模擬未來

世界模型的核心是讓系統(tǒng)學(xué)會預(yù)測環(huán)境會如何變化。給定當(dāng)前的觀測和一系列動作,世界模型嘗試預(yù)測接下來一段時間內(nèi)的感知輸出或場景演化,例周圍車輛會怎么走、行人會如何移動,或者道路上的占用情況會如何變化等。它更像是一個可以在內(nèi)部反復(fù)“試驗(yàn)”的模擬器。

世界模型可以是像素級的,也可以是抽象的潛在空間表示。像素級的會直接生成未來幾幀圖像,抽象的潛在表示則在更緊湊的編碼下預(yù)測物體的狀態(tài)和動力學(xué)。自動駕駛中常把世界模型用來做兩件事,一是在線短時預(yù)測,輔助規(guī)劃器評估當(dāng)前動作的后果;二是離線大規(guī)模仿真,用來生成難例、做策略評估和安全驗(yàn)證。世界模型的強(qiáng)項(xiàng)在于對因果關(guān)系和動力學(xué)的建模,它能回答“如果我這么做,環(huán)境會怎樣”,這對安全評估非常關(guān)鍵。

兩者的核心差別與各自擅長的事

把VLA和世界模型放在一起對比,其實(shí)有非常大的差別。VLA更強(qiáng)調(diào)把復(fù)雜語義和推理能力直接引入決策鏈,善于解釋性和把人類語義知識(比如規(guī)則、常識)融入行為判斷;世界模型更強(qiáng)調(diào)動力學(xué)與未來狀態(tài)的預(yù)測,擅長評估動作后果和生成訓(xùn)練用的極端場景。

因?yàn)檎Z言式推理要靠語料和場景標(biāo)簽來訓(xùn)練,因此VLA需要大量多模態(tài)、標(biāo)注或與人類語義對齊的數(shù)據(jù);世界模型更依賴連續(xù)的時序數(shù)據(jù)與準(zhǔn)確的動力學(xué)反饋,或是高保真仿真器來補(bǔ)足現(xiàn)實(shí)數(shù)據(jù)不足。

對于自動駕駛行業(yè)來說,VLA能讓系統(tǒng)“說出理由”,有利于合規(guī)和用戶信任;世界模型能把長期風(fēng)險提前顯現(xiàn),有利于安全驗(yàn)證和策略穩(wěn)健性。兩者在算力和實(shí)時性上的要求也不同,端到端的VLA若要部署在車端,需要在多模態(tài)推理與延時之間做平衡;高保真世界模型若用于在線預(yù)測,也要保證預(yù)測速度和穩(wěn)定性,否則實(shí)時控制就受影響。

如何將這兩者用好?

自動駕駛行業(yè)常見做法是把世界模型放在云端或仿真平臺,用來大規(guī)模生成極端和稀有場景,做訓(xùn)練數(shù)據(jù)擴(kuò)充和策略評估;把VLA或其它決策模型放到車端,負(fù)責(zé)實(shí)時感知-推理-動作映射,并把可解釋的中間表示(例如“為什么剎車”)記錄下來,用于審計(jì)。還有一種做法是在車端保留一個輕量的世界模型,用于短時軌跡預(yù)測和冗余校驗(yàn),作為主決策器的安全網(wǎng)。

在選擇技術(shù)路線時,務(wù)必要考慮幾個現(xiàn)實(shí)問題,即目標(biāo)場景是什么(城市復(fù)雜路況還是高速長途)、能否承擔(dān)大量真實(shí)路測、對可解釋性和監(jiān)管合規(guī)的要求有多高。面向消費(fèi)者的駕駛輔助系統(tǒng)可能更重視用戶體驗(yàn)和自然交互,VLA能提高語義層面的表現(xiàn);面向商用車隊(duì)或?qū)Π踩弦?guī)嚴(yán)格的場景,則更需要強(qiáng)大的世界模型做仿真與驗(yàn)證。無論哪條路,一定要建立嚴(yán)格的sim-to-real校準(zhǔn)流程、冗余策略以及持續(xù)的在線/離線評估體系,避免把過擬合的語言推理或低保真仿真直接當(dāng)成“能上路”的決策依據(jù)。

對于自動駕駛企業(yè)來說,可以用世界模型生成的極端場景來補(bǔ)齊訓(xùn)練集,但要用真實(shí)數(shù)據(jù)來校準(zhǔn);在車端實(shí)現(xiàn)可解釋性輸出和異常檢測機(jī)制,以便監(jiān)管和事后分析;在設(shè)計(jì)系統(tǒng)邊界時明確何時由人工接管、何時由系統(tǒng)限制能力,避免模型在不確定情況下做出過激動作?;旌鲜褂脙烧卟⑼ㄟ^嚴(yán)格驗(yàn)證可以讓自動駕駛系統(tǒng)既能“想清楚后果”,又能“把理由講清楚”,是比較穩(wěn)妥的路線。

最后的話

VLA和世界模型不是誰替代誰,而是兩種互補(bǔ)的工具。VLA把語言式的推理能力帶進(jìn)決策里,提升對復(fù)雜語義場景的處理和可解釋性;世界模型讓系統(tǒng)能在“腦子里”模擬未來,提升對風(fēng)險和后果的評估能力。對于自動駕駛行業(yè)來說,更實(shí)際的做法是把兩者的優(yōu)點(diǎn)結(jié)合起來,用世界模型來補(bǔ)數(shù)據(jù)、做驗(yàn)證,用VLA提升語義理解與交互,同時確保有清晰的安全邊界和多層冗余。這樣既能提高功能性,也能把安全性和可審計(jì)性放在首位。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3657

    瀏覽量

    51800
  • 自動駕駛
    +關(guān)注

    關(guān)注

    791

    文章

    14699

    瀏覽量

    176979
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    VLA世界模型什么不同?

    [首發(fā)于智駕最前沿微信公眾號]當(dāng)前自動駕駛行業(yè),各車企的技術(shù)路徑普遍選擇了單車智能方向。而在實(shí)際落地過程中,不同企業(yè)選擇了差異化的技術(shù)實(shí)現(xiàn)方式,部分車企側(cè)重于視覺—語言—動作模型(Vision
    的頭像 發(fā)表于 12-17 09:13 ?100次閱讀
    <b class='flag-5'>VLA</b>與<b class='flag-5'>世界</b><b class='flag-5'>模型</b><b class='flag-5'>有</b>什么不同?

    世界模型是讓自動駕駛汽車?yán)斫?b class='flag-5'>世界還是預(yù)測未來?

    ? [首發(fā)于智駕最前沿微信公眾號]世界模型自動駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對自動駕駛的作用時,難免會出現(xiàn)分歧。它到底是讓自動駕駛汽車
    的頭像 發(fā)表于 12-16 09:27 ?517次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是讓<b class='flag-5'>自動駕駛</b>汽車?yán)斫?b class='flag-5'>世界</b>還是預(yù)測未來?

    自動駕駛模型中常的泛化能力是指啥?

    [首發(fā)于智駕最前沿微信公眾號]在討論自動駕駛模型時,常會有幾個評價維度,如感知是否準(zhǔn)確、決策是否穩(wěn)定、系統(tǒng)是否足夠魯棒,以及模型有沒有“泛化能力”。相比準(zhǔn)確率、延遲這些容易量化的指標(biāo),“泛化能力
    的頭像 發(fā)表于 12-10 09:15 ?272次閱讀
    <b class='flag-5'>自動駕駛</b>大<b class='flag-5'>模型</b>中常<b class='flag-5'>提</b>的泛化能力是指啥?

    VLA能解決自動駕駛中的哪些問題?

    [首發(fā)于智駕最前沿微信公眾號]很多從事自動駕駛的小伙伴應(yīng)該對VLA這個概念已經(jīng)非常熟悉了。VLA即“Visual-Language-Action”(視覺—語言—動作)模型,它的核心是將
    的頭像 發(fā)表于 11-25 08:53 ?220次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動駕駛</b>中的哪些問題?

    模型中常的快慢思考會對自動駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型世界模型的全新自動駕駛技術(shù)架構(gòu)標(biāo)志著其全棧自研的智能
    的頭像 發(fā)表于 11-22 10:59 ?2303次閱讀
    大<b class='flag-5'>模型</b>中常<b class='flag-5'>提</b>的快慢思考會對<b class='flag-5'>自動駕駛</b>產(chǎn)生什么影響?

    VLA世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導(dǎo)的世界
    的頭像 發(fā)表于 11-05 08:55 ?508次閱讀
    <b class='flag-5'>VLA</b>和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動駕駛</b>的最優(yōu)解?

    自動駕駛中常的ODD是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛中,經(jīng)常會聽到一個概念,那就是ODD。所謂ODD,全稱為Operational Design Domain,中文譯為“運(yùn)行設(shè)計(jì)域”或者“作業(yè)域”。直觀一點(diǎn)
    的頭像 發(fā)表于 09-22 09:04 ?595次閱讀
    <b class='flag-5'>自動駕駛</b>中常<b class='flag-5'>提</b>的ODD是個啥?

    車規(guī)級和消費(fèi)級什么區(qū)別?為什么自動駕駛需要車規(guī)級?

    區(qū)別主要體現(xiàn)在可靠性、環(huán)境適應(yīng)、質(zhì)量管理與安全保障等多個方面。對于汽車,尤其是自動駕駛系統(tǒng)而言,任何一次失效都可能帶來嚴(yán)重后果,因此必須選用符合車規(guī)級標(biāo)準(zhǔn)的硬件與軟件。那什么是車規(guī)級?什么是消費(fèi)級?為什么自動駕駛需要車規(guī)級?
    的頭像 發(fā)表于 07-15 08:55 ?1205次閱讀
    車規(guī)級和消費(fèi)級<b class='flag-5'>有</b><b class='flag-5'>什么區(qū)別</b>?為什么<b class='flag-5'>自動駕駛</b>需要車規(guī)級?

    為什么自動駕駛端到端大模型黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)落地,端到端(End-to-End)大模型也成為行業(yè)研究與應(yīng)用的熱門方向。相較于傳統(tǒng)自動駕駛系統(tǒng)中的模塊化結(jié)構(gòu),端到端模型嘗試直接從感知輸
    的頭像 發(fā)表于 07-04 16:50 ?626次閱讀
    為什么<b class='flag-5'>自動駕駛</b>端到端大<b class='flag-5'>模型</b><b class='flag-5'>有</b>黑盒特性?

    自動駕駛中常世界模型是個啥?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)的不斷成熟,車輛需要在復(fù)雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。世界模型
    的頭像 發(fā)表于 06-24 08:53 ?822次閱讀
    <b class='flag-5'>自動駕駛</b>中常<b class='flag-5'>提</b>的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?

    VLA,是完全自動駕駛的必經(jīng)之路?

    芯片,以及英偉達(dá)Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當(dāng)前智駕領(lǐng)域集中主流的大模型技術(shù)路線,以及各家廠商實(shí)現(xiàn)方式的區(qū)別和發(fā)展。 ? VLA 和VL
    的頭像 發(fā)表于 06-18 00:06 ?8794次閱讀

    自動駕駛行業(yè)的高階智駕是個啥?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著人工智能、大數(shù)據(jù)、傳感器技術(shù)及高性能計(jì)算平臺的迅速發(fā)展,自動駕駛行業(yè)不斷突破。從最初的駕駛輔助系統(tǒng)到最近火熱的端到端,再到如今的高階智駕,智駕行業(yè)關(guān)鍵詞
    的頭像 發(fā)表于 04-18 12:24 ?884次閱讀
    <b class='flag-5'>自動駕駛</b>行業(yè)<b class='flag-5'>常</b><b class='flag-5'>提</b>的高階智駕是個啥?

    自動駕駛模型中常的Token是個啥?對自動駕駛何影響?

    、多模態(tài)傳感器數(shù)據(jù)的實(shí)時處理與決策。在這一過程中,大模型以其強(qiáng)大的特征提取、信息融合和預(yù)測能力為自動駕駛系統(tǒng)提供了有力支持。而在大模型的中,一個“Token”的概念,有些人看到后或許
    的頭像 發(fā)表于 03-28 09:16 ?1010次閱讀

    理想汽車推出全新自動駕駛架構(gòu)

    2025年3月18日,理想汽車自動駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在NVIDIA GTC 2025發(fā)表主題演講《VLA:邁向自動駕駛物理智能體的關(guān)鍵一步》,分享了理想汽車對于下一代自動駕駛技術(shù)M
    的頭像 發(fā)表于 03-19 14:12 ?930次閱讀

    為什么聊自動駕駛的越來越多,聊無人駕駛的越來越少?

    自動駕駛什么區(qū)別?為什么現(xiàn)在一直都在聊自動駕駛,卻鮮少有企業(yè)無人駕駛?今天智駕最前沿就圍繞
    的頭像 發(fā)表于 02-23 10:52 ?1032次閱讀
    為什么聊<b class='flag-5'>自動駕駛</b>的越來越多,聊無人<b class='flag-5'>駕駛</b>的越來越少?