chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

CMU最新《多模態(tài)機器學習的基礎和最新趨勢》綜述

新機器視覺 ? 來源:專知 ? 作者:專知 ? 2022-12-07 14:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

57ae762e-75e6-11ed-8abf-dac502259ad0.png

論文:Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址:https://arxiv.org/pdf/2209.03430.pdf

多模態(tài)機器學習是一個充滿活力的多學科研究領域,旨在通過整合多種交流模態(tài),包括語言、聲學、視覺、觸覺和生理信息,設計具有理解、推理和學習等智能能力的計算機智能體。隨著最近人們對視頻理解、具身化自主智能體、文本到圖像生成以及醫(yī)療健康和機器人等應用領域的多傳感器融合的興趣,多模態(tài)機器學習給機器學習社區(qū)帶來了獨特的計算和理論挑戰(zhàn),因為數(shù)據(jù)源的異質(zhì)性和模式之間經(jīng)常發(fā)現(xiàn)的相互聯(lián)系。然而,多模態(tài)研究的廣泛進展使得很難確定該領域的共同主題和開放問題。通過從歷史和最近的角度綜合廣泛的應用領域和理論框架,本文旨在提供一個多模態(tài)機器學習的計算和理論基礎的概述。我們首先定義了驅(qū)動后續(xù)創(chuàng)新的模態(tài)異質(zhì)性和相互聯(lián)系的兩個關鍵原則,并提出了6個核心技術挑戰(zhàn)的分類:表征、對齊、推理、生成、轉(zhuǎn)移和涵蓋歷史和近期趨勢的量化。最新的技術成果將通過這種分類法來展示,讓研究人員了解新方法的異同。最后,我們提出了幾個由我們的分類法確定的開放問題,以供未來研究。

開發(fā)具有智能能力的計算機智能體一直是人工智能的一個宏偉目標,如通過多模態(tài)經(jīng)驗和數(shù)據(jù)進行理解、推理和學習,就像我們?nèi)祟愂褂枚喾N感官模式感知世界的方式一樣。隨著近年來在具身自主代理[77,512]、自動駕駛汽車[647]、圖像和視頻理解[16,482,557]、文本到圖像生成[486]以及機器人[335,493]和醫(yī)療健康[281,357]等應用領域的多傳感器融合方面的進展,我們現(xiàn)在比以往任何時候都更接近能夠集成許多感官形態(tài)并從中學習的智能體。多模態(tài)機器學習這一充滿活力的多學科研究領域帶來了獨特的挑戰(zhàn),因為數(shù)據(jù)的異質(zhì)性和通常在模態(tài)之間發(fā)現(xiàn)的相互聯(lián)系,并在多媒體[351,435]、情感計算[353,476]、機器人[308,334]、人機交互[445,519]和醫(yī)療健康[85,425]中有廣泛的應用。

然而,多模態(tài)研究的進展速度使得很難確定歷史和近期工作的共同主題,以及該領域的關鍵開放問題。通過從歷史和最近的角度綜合廣泛的應用領域和理論見解,本文旨在提供多模態(tài)機器學習的方法論、計算和理論基礎的概述,這很好地補充了最近在視覺和語言[603]、語言和強化學習[382]、多媒體分析[40]和人機交互[269]等面向應用的研究。

581f04f2-75e6-11ed-8abf-dac502259ad0.png

圖1:多模態(tài)學習的核心研究挑戰(zhàn):(1)表示研究如何表示和總結多模態(tài)數(shù)據(jù),以反映單個模態(tài)元素之間的異質(zhì)性和相互聯(lián)系。(2)對齊旨在識別所有元素之間的聯(lián)系和相互作用。(3)推理的目的是將多模態(tài)證據(jù)組合成知識,通常通過對一個任務的多個推理步驟。(4)生成包括學習生成過程,以產(chǎn)生反映跨模態(tài)交互、結構和一致性的原始模態(tài)。(5)遷移旨在在模態(tài)及其表示之間遷移知識。(6)量化包括實證和理論研究,以更好地理解異質(zhì)性、相互聯(lián)系和多模態(tài)學習過程。

為了建立多模態(tài)機器學習的基礎,我們首先為數(shù)據(jù)模式和多模態(tài)研究的定義奠定基礎,然后確定驅(qū)動后續(xù)技術挑戰(zhàn)和創(chuàng)新的兩個關鍵原則:(1)模態(tài)是異質(zhì)的,因為在不同模態(tài)中出現(xiàn)的信息往往表現(xiàn)出不同的質(zhì)量、結構和表征;(2)模態(tài)是相互聯(lián)系的,因為它們經(jīng)常相關、共享共性,或在用于任務推斷時相互作用產(chǎn)生新信息。基于這些定義,我們提出了多模態(tài)機器學習中的六個核心挑戰(zhàn)的新分類:表示、對齊、推理、生成、遷移和量化(見圖1)。這些構成了傳統(tǒng)單模態(tài)機器學習中研究不足的核心多模態(tài)技術挑戰(zhàn),為了推動該領域向前發(fā)展,需要解決這些挑戰(zhàn):

1. 表征: 我們能學習反映個體模態(tài)元素之間的異質(zhì)性和相互聯(lián)系的表征嗎?本文將涵蓋以下基本方法:(1)表示融合:整合來自2個或更多模態(tài)的信息,有效減少單獨表示的數(shù)量;(2)表示協(xié)調(diào):互換跨模態(tài)信息,目標是保持相同的表示數(shù)量,但改善多模態(tài)語境化;創(chuàng)建一個新的不相交的表示集,其數(shù)量通常大于輸入集,反映有關內(nèi)部結構的知識,如數(shù)據(jù)聚類或因子分解。

2. 對齊:我們?nèi)绾巫R別樣式元素之間的連接和交互?模態(tài)之間的對齊具有挑戰(zhàn)性,涉及(1)識別模態(tài)元素之間的連接,(2)上下文表示學習以捕獲模態(tài)連接和交互,以及(3)處理具有歧義分割的模態(tài)輸入。

3. 推理被定義為從多模態(tài)證據(jù)中組合知識,通常通過多個推理步驟,為特定任務開發(fā)多模態(tài)對齊和問題結構。這種關系通常遵循某種層次結構,更抽象的概念在層次結構中被定義為較不抽象的概念的函數(shù)。推理包括(1)對推理發(fā)生的結構建模,(2)推理過程中的中間概念,(3)理解更抽象概念的推理范式,(4)在結構、概念和推理的研究中利用大規(guī)模的外部知識。

4. 生成:第四個挑戰(zhàn)涉及學習生成過程,以生成反映每個模態(tài)的獨特異質(zhì)性和模態(tài)之間的相互聯(lián)系的原始模態(tài)。我們將其子挑戰(zhàn)分類為:(1)總結:總結多模態(tài)數(shù)據(jù)以減少信息內(nèi)容,同時突出輸入中最突出的部分;(2)翻譯:從一種模態(tài)轉(zhuǎn)換到另一種模態(tài)并保持信息內(nèi)容,同時與跨模態(tài)交互保持一致;(3)創(chuàng)造:同時生成多個模態(tài)以增加信息內(nèi)容,同時保持模態(tài)內(nèi)部和跨模態(tài)的一致性。

5. 遷移旨在在模態(tài)及其表示之間遷移知識,通常用于幫助可能有噪聲或資源有限的目標模態(tài)。以以下算法為例:(1)跨模態(tài)遷移:使模型適應涉及主要模態(tài)的下游任務;(2)共同學習:通過在兩種模態(tài)之間共享表示空間,將信息從次要模態(tài)轉(zhuǎn)移到主要模態(tài);保持單個單模態(tài)模型獨立,但在這些模型之間傳遞信息,從一種模態(tài)學到的知識(例如,預測的標簽或表示)如何幫助以另一種模態(tài)訓練的計算模型?

6. 量化: 第六個挑戰(zhàn)涉及實證和理論研究,以更好地理解異質(zhì)性、模態(tài)相互聯(lián)系和多模態(tài)學習過程。量化旨在理解(1)多模態(tài)數(shù)據(jù)集的異質(zhì)性維度以及它們?nèi)绾斡绊懡:蛯W習,(2)多模態(tài)數(shù)據(jù)集和訓練過的模型中模態(tài)連接和交互的存在和類型,以及(3)異構數(shù)據(jù)涉及的學習和優(yōu)化挑戰(zhàn)。

最后,我們對多模態(tài)學習的未來研究方向提出了一個長遠的展望。

5839d4a8-75e6-11ed-8abf-dac502259ad0.jpg

58503e32-75e6-11ed-8abf-dac502259ad0.jpg

588f42bc-75e6-11ed-8abf-dac502259ad0.jpg

58b9bf7e-75e6-11ed-8abf-dac502259ad0.jpg

58d724b0-75e6-11ed-8abf-dac502259ad0.jpg

58fcea56-75e6-11ed-8abf-dac502259ad0.jpg

59260314-75e6-11ed-8abf-dac502259ad0.jpg

5945c23a-75e6-11ed-8abf-dac502259ad0.jpg

5988050a-75e6-11ed-8abf-dac502259ad0.jpg

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31021

    瀏覽量

    221938
  • 機器學習
    +關注

    關注

    66

    文章

    8551

    瀏覽量

    136841
  • 智能體
    +關注

    關注

    1

    文章

    460

    瀏覽量

    11597

原文標題:CMU最新《多模態(tài)機器學習的基礎和最新趨勢》綜述

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    商湯科技正式開源模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在模態(tài)搜索與推理的核心基準測試中以 69.74 分超越Gemini-3-Pro(69.0
    的頭像 發(fā)表于 01-30 10:13 ?470次閱讀
    商湯科技正式開源<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>自主推理模型SenseNova-MARS

    模態(tài)感知大模型驅(qū)動的密閉空間自主勘探系統(tǒng)的應用與未來發(fā)展

    ? ? 模態(tài)感知大模型驅(qū)動的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅(qū)動的密閉空間自主勘探系統(tǒng),是融合
    的頭像 發(fā)表于 12-29 11:27 ?281次閱讀

    模態(tài)大模型驅(qū)動的復雜環(huán)境精準導航避障系統(tǒng)平臺的應用

    模態(tài)大模型驅(qū)動的復雜環(huán)境精準導航避障系統(tǒng)平臺的應用
    的頭像 發(fā)表于 12-22 13:15 ?263次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型驅(qū)動的復雜環(huán)境精準導航避障系統(tǒng)平臺的應用

    商湯科技正式發(fā)布并開源全新模態(tài)模型架構NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學S-Lab合作研發(fā)的全新模態(tài)模型架構 —— NEO,為日日新SenseNova 模態(tài)模型奠定了新一代架構的基石。
    的頭像 發(fā)表于 12-08 11:19 ?998次閱讀
    商湯科技正式發(fā)布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>模型架構NEO

    格靈深瞳模態(tài)大模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、圖像、音頻乃至視頻,實現(xiàn)跨模態(tài)檢索
    的頭像 發(fā)表于 11-02 15:56 ?1695次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態(tài)嵌入模型。該模型是首個通過單一模型支持文本、
    的頭像 發(fā)表于 10-29 17:15 ?250次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    iPhone 17爆了!今年下半年看什么新技術、新趨勢?

    iPhone 17爆了!今年下半年看什么新技術、新趨勢?
    的頭像 發(fā)表于 09-23 10:48 ?517次閱讀
    iPhone 17爆了!今年下半年看什么新技術、<b class='flag-5'>新趨勢</b>?

    淺析模態(tài)標注對大模型應用落地的重要性與標注實例

    ?在人工智能邁向AGI通用智能的關鍵道路上,大模型正從單一的文本理解者,演進為能同時看、聽、讀、想的“多面手”。驅(qū)動這一進化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?2085次閱讀

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時間是最好的試金石,AI領域尤其如此。當行業(yè)熱議大模型走向時,商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實踐反復驗證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1166次閱讀

    模態(tài)感知+豆包大模型!家居端側(cè)智能升級

    的關鍵力量。星宸科技與豆包大模型的合作,將這一技術趨勢落實到實際應用場景中,在智能家居、可穿戴設備以及連鎖店等領域引發(fā)了深刻變革。 ? 智能家居升級 ? 陳立敬指出:“智能家居2.0需要大模型大腦”。在智能家居領域,模態(tài)感知與
    的頭像 發(fā)表于 06-21 00:06 ?7086次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>感知+豆包大模型!家居端側(cè)智能升級

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?618次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式

    XMOS為普及AI應用推出基于軟件定義SoC的模態(tài)AI傳感器融合接口

    模態(tài)傳感信號AI處理為智算中心和邊緣智能開啟感知智能的新篇章
    的頭像 發(fā)表于 05-12 17:51 ?519次閱讀
    XMOS為普及AI應用推出基于軟件定義SoC的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI傳感器融合接口

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)大模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)模態(tài)大模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的模態(tài)大模MiniCPM V 2.0,上海人工智能實驗室的書生
    的頭像 發(fā)表于 04-21 10:56 ?3019次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    ??低暟l(fā)布模態(tài)大模型AI融合巡檢超腦

    基于??涤^瀾大模型技術體系,海康威視推出新一代模態(tài)大模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業(yè)帶來全新的模態(tài)大模型巡檢體驗,以更準確、更高效的智慧巡檢,為各行各
    的頭像 發(fā)表于 04-17 17:12 ?1605次閱讀

    ?模態(tài)交互技術解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動等)與計算機系統(tǒng)進行自然、
    的頭像 發(fā)表于 03-17 15:12 ?4316次閱讀