當前位置:首頁(yè) > 百科 > 正文內容

通用多模態(tài)人工智能:架構、挑戰和機遇綜述

襄陽(yáng)海報印刷4個(gè)月前 (07-05)百科4
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

來(lái)源:專(zhuān)知

多模態(tài)模型被認為是未來(lái)人工智能進(jìn)步的關(guān)鍵組成部分。由于基礎模型在自然語(yǔ)言處理 (NLP) 和視覺(jué)領(lǐng)域的成功,這一領(lǐng)域正迅速發(fā)展,并涌現出大量新的設計元素。人們普遍希望將基礎模型進(jìn)一步擴展到多種模態(tài)(如文本、圖像、視頻、傳感器、時(shí)間序列、圖等),最終形成通用的多模態(tài)模型,即在不同數據模態(tài)和任務(wù)之間通用的單一模型。

然而,關(guān)于最近的多模態(tài)模型(尤其是那些超越文本和視覺(jué)的模型)的系統性分析研究較少,特別是對于所提出的底層架構。因此,本研究通過(guò)一種新穎的架構和訓練配置特定的分類(lèi)法,提供了關(guān)于通用多模態(tài)模型(GMMs)的新視角。這包括統一性、模塊化和適應性等對GMMs廣泛采用和應用至關(guān)重要的因素。本文綜述進(jìn)一步強調了該領(lǐng)域的關(guān)鍵挑戰和前景,并指導研究人員了解新的進(jìn)展。

引言

多模態(tài)模型是能夠跨越多種數據模態(tài)進(jìn)行學(xué)習的深度學(xué)習模型。有人推測,這類(lèi)模型可能是實(shí)現人工通用智能(AGI)所必需的一步,因此,機器學(xué)習社區對它們的興趣正在迅速增加。多模態(tài)學(xué)習的最終目標是開(kāi)發(fā)一個(gè)可以執行(或輕松適應執行)各種多模態(tài)任務(wù)的單一模型。一個(gè)簡(jiǎn)單的多模態(tài)例子是一個(gè)視覺(jué)語(yǔ)言模型,它可以執行單模態(tài)任務(wù)(如文本生成、圖像分類(lèi))和跨模態(tài)任務(wù)(如文本到圖像檢索或圖像字幕生成),后者需要跨模態(tài)的上下文和吉印通學(xué)習【58】。

在機器學(xué)習的發(fā)展歷程中,多模態(tài)研究一直在積極推進(jìn)【3, 28, 31, 33, 34, 44, 75, 83】。然而,這些研究偏重于跨模態(tài)學(xué)習和有限范圍的模態(tài)(文本和圖像)。因此,模型架構的設計元素不足以促進(jìn)向更通用模型的現代研究的平穩過(guò)渡。例如,與傳統機器學(xué)習(ML)模型不同,基礎模型通過(guò)重建大量(通常是未標注的)數據進(jìn)行訓練,以便在各種下游數據集和任務(wù)中表現良好。訓練基礎模型的目標是學(xué)習如何提取可在不同領(lǐng)域和應用中重用的通用特征表示。類(lèi)似地,多模態(tài)領(lǐng)域基礎模型的目標是實(shí)現跨多種模態(tài)和任務(wù)的學(xué)習,但這些模型受限于對文本和圖像模態(tài)的研究重點(diǎn)。

受這些差距的激勵,多模態(tài)文獻中引入了一系列新的設計元素【5, 58, 70, 84, 93, 106】。這些大多受NLP和視覺(jué)領(lǐng)域的單模態(tài)基礎模型成功的啟發(fā)。我們將這類(lèi)新模型稱(chēng)為通用多模態(tài)模型(GMMs)。GMMs可以包括那些能夠跨越研究中最常見(jiàn)的兩種數據類(lèi)型(文本和圖像)之外的模態(tài)運行的模型。更具體地說(shuō),模型必須展示跨越多種模態(tài)(包括但不限于文本、圖像、語(yǔ)音、音頻、視頻和傳感器)的能力。這一更廣泛的定義捕捉了在不同模態(tài)中具有廣泛泛化表示的模型。表1總結了我們對通用多模態(tài)模型和典型多模態(tài)模型的定義之間的詳細區分。

與標準深度學(xué)習模型相比,基礎模型具有多種獨特的屬性,包括大規模預訓練(監督或/和自監督,例如掩碼語(yǔ)言建?!?2】)和特殊的微調策略(例如,提示調優(yōu)、參數高效微調)。這些基礎模型的特性使它們在文本和視覺(jué)模態(tài)中成為領(lǐng)跑者【96】。這些特性也被引入GMMs,并在多模態(tài)學(xué)習中顯示出類(lèi)似的改進(jìn)。另一方面,多模態(tài)學(xué)習在架構、訓練策略和評估方面有許多方面,使得GMMs的發(fā)展成為一個(gè)獨特的研究領(lǐng)域。如圖1所示,GMMs的能力隨著(zhù)新策略的引入而不斷增長(cháng)。因此,審視當前GMMs的努力并確定進(jìn)一步增強GMMs能力的必要屬性具有重要價(jià)值。在本綜述中,我們確定了這些新興屬性并進(jìn)行了全面分析。

盡管已有一些關(guān)于多模態(tài)學(xué)習的綜述論文【1, 20, 43, 51】,但它們存在以下局限:(i)主要處理文本-視覺(jué)范式,對其他模態(tài)考慮甚少;(ii)僅關(guān)注跨模態(tài)的數據融合,忽略了其他關(guān)鍵因素,如架構設計、預訓練目標以及不斷擴展的多模態(tài)任務(wù)范圍【17, 62】;(iii)對跨模態(tài)學(xué)習的關(guān)注較多,對單模態(tài)方面考慮較少【51】。因此,我們對現有的GMMs(涵蓋文本和視覺(jué)以外模態(tài)的模型)進(jìn)行了全面的綜述,結合了各種數據處理、架構和訓練方面的內容。據作者所知,這是第一篇全面回顧GMMs學(xué)習最新趨勢的綜述。本文的主要貢獻如下:

- 提出了一種新的分類(lèi)法,解決了當前多模態(tài)架構設計空間的問(wèn)題。

- 分類(lèi)法因素明確與基礎模型的背景相一致,與之前的綜述論文不同。

- 提出了一種基于分類(lèi)法的問(wèn)題化當前方法的方法。

- 提供了一系列可以推進(jìn)多模態(tài)范式的研究方向。

本文其余部分的組織結構如下:第二部分提供了關(guān)于各單模態(tài)領(lǐng)域基礎模型的背景;第三部分討論了GMMs的典型架構管道;第四部分描述了我們的分類(lèi)法,將現有工作分類(lèi)到分類(lèi)法中,并利用分類(lèi)法評論當前方法的優(yōu)缺點(diǎn);第五部分強調了多模態(tài)基礎范式中的關(guān)鍵挑戰;第六部分列出了實(shí)現真正通用模型的發(fā)展潛在研究機會(huì );最后,第七部分總結了我們的研究發(fā)現。

典型的GMM架構管道

從輸入數據到輸出預測的典型GMM架構管道可以分為不同的階段,如下所述,并在圖2中進(jìn)行了說(shuō)明。以下小節將更詳細地描述這些不同的階段。

輸入預處理

第一個(gè)模塊與數據預處理相關(guān),其中來(lái)自不同模態(tài)的原始數據被轉換為可被通用學(xué)習模型消耗的形式。這包括不同的階段,如下所述:

序列化/標記化

這一過(guò)程將文本、音頻、圖像等不同模態(tài)轉換為通用的數值格式(也稱(chēng)為標記)。例如,在文本模態(tài)中,輸入文本被解析為標記,每個(gè)標記被映射到模型詞匯表中的一個(gè)數值ID。在視覺(jué)模態(tài)中,圖像被調整為固定大小的補?。ɡ?,在CLIP中為224 x 224像素【65】),并將對應的像素值存儲在數值張量中。在音頻模態(tài)中,原始音頻被轉換為頻譜圖表示,然后進(jìn)一步切分為小的時(shí)間/頻率幀。在點(diǎn)云中,"最遠點(diǎn)采樣"(原始點(diǎn)云的代表性骨架采樣)、最近鄰和鄰接矩陣可以定位/簡(jiǎn)化輸入數據【103】。這一步的主要目的是為編碼器準備數據。

編碼

編碼器在高維空間中獲取輸入標記的數值表示,稱(chēng)為嵌入。編碼器利用預定義的知識(通過(guò)訓練的凍結模型)準確地將輸入標記定位在支持學(xué)習的高維語(yǔ)義空間中。對于文本模態(tài),任何在大規模文本語(yǔ)料庫上訓練的語(yǔ)言模型(LLM)都可以作為有效的嵌入模型。CLIP和CLIP-VIT【65】系列模型是編碼視覺(jué)信息(包括圖像和視頻幀)的強有力候選者。大型音頻模型如WHISPER【66】用于編碼音頻模態(tài)。上述所有編碼器都是特定模態(tài)的,通常分別訓練,導致不同編碼器生成的表示(嵌入)之間可能存在差異。IMAGEBIND【19】是一種潛在的解決方案,它學(xué)習跨越六種模態(tài)(包括圖像、文本、音頻、深度、熱成像和慣性測量單元數據)的吉印通嵌入。諸如NEXT-GPT等GMMs利用IMAGEBIND來(lái)編碼其輸入模態(tài)。此外,最近的GMMs,如META-TRANSFORMER【103】和ONELLM【22】,已經(jīng)表明,任何經(jīng)過(guò)良好預訓練的Transformer都可以作為通用的跨模態(tài)編碼器。

投影

投影將編碼器的表示(嵌入)轉換為通用模型可理解的新空間。通常,LLM被用作通用模型;因此,投影器將原始嵌入轉換為語(yǔ)言空間。雖然序列化、標記化和編碼是標準化的,但投影步驟在不同模型之間有所不同,通常是可訓練的組件。投影可以從簡(jiǎn)單的全連接線(xiàn)性層到復雜的卷積操作不等。它還通過(guò)交叉注意力和其他精妙機制對齊不同模態(tài)特定的表示。

通用學(xué)習

來(lái)自輸入預處理模塊的不同模態(tài)的統一表示被送入第二個(gè)模塊,即通用/主干模型,該模型通過(guò)多個(gè)神經(jīng)網(wǎng)絡(luò )層在共享語(yǔ)義空間中執行表示學(xué)習和推理。在多模態(tài)學(xué)習中,通常使用預訓練/微調的LLM作為通用模型(例如,OFA中的BART【84】,ONELLM中的LLAMA-2【22】)。這主要有兩個(gè)原因:(i)與其他模態(tài)不同,語(yǔ)言模型在各種通用任務(wù)上已經(jīng)在大量數據吉印通行了廣泛訓練,從而形成了一個(gè)強大的知識模型;(ii)輸入和輸出交互大多以文本形式進(jìn)行,因此使用LLM作為核心模型并將其他模態(tài)圍繞其對齊是合理的,而不是反過(guò)來(lái)。

輸出解碼

在最后一個(gè)模塊中,數據后處理階段將學(xué)習到的多模態(tài)表示轉換為特定模態(tài)/任務(wù)的輸出。解碼器利用多模態(tài)編碼器表示的豐富融合,生成具有跨模態(tài)理解背景的任務(wù)特定輸出。對于僅文本輸出,可以利用標準的Transformer解碼器(具有注意力、交叉注意力和多層感知器(MLP)層),共享模型可以接受不同類(lèi)型的輸入并適應各種任務(wù)的文本生成。對于圖像生成,使用擴散解碼器模型如Stable Diffusion(SD)【72】;對于音頻合成,使用AudioLDM【53】。

來(lái)源:專(zhuān)知

聲明:本文版權歸原作者及原出處所有,內容為作者觀(guān)點(diǎn),并不代表本*贊同其觀(guān)點(diǎn)及對其真實(shí)性負責。如涉及版權等問(wèn)題,請及時(shí)與我們聯(lián)系,我們立即更正或刪除相關(guān)內容。本*擁有對此聲明的最終解釋權。

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
亚洲午夜av天堂_亚洲产国久久无码_亚洲欧美制服丝袜精品久久_91精品成人国产在线不卡