核心提示:真正的類人智能要考慮來自各種信號(hào)和感覺器官的信息。智能系統(tǒng)應(yīng)該是綜合的,引入來自所有可用模式的信號(hào)。在許多實(shí)際的數(shù)據(jù)體系
真正的類人智能要考慮來自各種信號(hào)和感覺器官的信息。智能系統(tǒng)應(yīng)該是綜合的,引入來自所有可用模式的信號(hào)。在許多實(shí)際的數(shù)據(jù)體系中,我們可以利用視覺(V)、語言(L)和語音/音頻(S)模態(tài)的數(shù)據(jù)。目前,研究者們?cè)诮⒗斫鈫文B(tài)、雙模太的模型方面取得了巨大的進(jìn)展,然而將這些工作推廣到能夠同時(shí)解譯視覺、語言、語音的三模態(tài)系統(tǒng)上仍然是一項(xiàng)艱巨的任務(wù)。
三模態(tài)訓(xùn)練需要大量的三模態(tài)數(shù)據(jù)(例如,帶文字描述的視頻),而此類數(shù)據(jù)的規(guī)模往往比可用的單模態(tài)或雙模態(tài)數(shù)據(jù)小好幾個(gè)數(shù)量級(jí)。例如,目前最大的帶標(biāo)注的視頻數(shù)據(jù)集由 1.8 億段視頻組成,而最大的圖像描述數(shù)據(jù)集則包含高達(dá) 9 億個(gè)圖文對(duì)。
為了解決該問題,本文提出了兩種解決方案。首先,除了三模態(tài)視頻,我們還利用了大規(guī)模的雙模態(tài)數(shù)據(jù),例如:帶有文本描述的圖像(V+L)、帶有轉(zhuǎn)寫文本的語音(S+L)和視頻描述(V+S)。這極大地?cái)U(kuò)展了模型輸入數(shù)據(jù)的規(guī)模和多樣性,同時(shí)涵蓋了全部三種目標(biāo)模式。其次,我們提出了一種融合架構(gòu),可以采用研究社區(qū)提出的最先進(jìn)的單模態(tài)編碼器的上下文輸出,而非從頭開始構(gòu)建一個(gè)獨(dú)立的模型。
本文提出了「i-Code」,其中 i 代表集成多模態(tài)學(xué)習(xí)。我們開發(fā)了一個(gè)有效的融合模塊,該模塊集成了單模態(tài)編碼器的輸出,進(jìn)行跨模態(tài)理解,從而獲得最終的預(yù)測(cè)結(jié)果。為了設(shè)計(jì)最佳的融合架構(gòu),我們?cè)囼?yàn)了多種 Transformer 架構(gòu)內(nèi)的自注意機(jī)制的變體,包括交叉和合并不同模態(tài)的注意力得分的機(jī)制。
接著,我們使用各種自監(jiān)督目標(biāo)利用雙模態(tài)和三模態(tài)數(shù)據(jù)對(duì) i-Code 進(jìn)行預(yù)訓(xùn)練。這些目標(biāo)包括:(1)掩碼單元建模。其中所有輸入信號(hào)都被轉(zhuǎn)換為離散的詞例(Token),旨在預(yù)測(cè)各模態(tài)下的被遮蔽的單元的正確詞例。(2)對(duì)比學(xué)習(xí)。給定兩種輸入模態(tài),模型預(yù)測(cè)給定的信號(hào)是否來自訓(xùn)練數(shù)據(jù)中的同一個(gè)三元組(或數(shù)據(jù)對(duì))。
我們?cè)诙鄠(gè)多模態(tài)對(duì)比基準(zhǔn)上徹底評(píng)估了 i-Code。實(shí)驗(yàn)結(jié)果證明了所提出的多模態(tài)預(yù)訓(xùn)練框架的有效性。對(duì) i-Code 進(jìn)行微調(diào),相較目前最先進(jìn),我們可以在 6 個(gè)多模態(tài)數(shù)據(jù)集和 GLUE NLP 基準(zhǔn)測(cè)試中的算法獲得 11% 的性能提升。
為了解決該問題,本文提出了兩種解決方案。首先,除了三模態(tài)視頻,我們還利用了大規(guī)模的雙模態(tài)數(shù)據(jù),例如:帶有文本描述的圖像(V+L)、帶有轉(zhuǎn)寫文本的語音(S+L)和視頻描述(V+S)。這極大地?cái)U(kuò)展了模型輸入數(shù)據(jù)的規(guī)模和多樣性,同時(shí)涵蓋了全部三種目標(biāo)模式。其次,我們提出了一種融合架構(gòu),可以采用研究社區(qū)提出的最先進(jìn)的單模態(tài)編碼器的上下文輸出,而非從頭開始構(gòu)建一個(gè)獨(dú)立的模型。
本文提出了「i-Code」,其中 i 代表集成多模態(tài)學(xué)習(xí)。我們開發(fā)了一個(gè)有效的融合模塊,該模塊集成了單模態(tài)編碼器的輸出,進(jìn)行跨模態(tài)理解,從而獲得最終的預(yù)測(cè)結(jié)果。為了設(shè)計(jì)最佳的融合架構(gòu),我們?cè)囼?yàn)了多種 Transformer 架構(gòu)內(nèi)的自注意機(jī)制的變體,包括交叉和合并不同模態(tài)的注意力得分的機(jī)制。
接著,我們使用各種自監(jiān)督目標(biāo)利用雙模態(tài)和三模態(tài)數(shù)據(jù)對(duì) i-Code 進(jìn)行預(yù)訓(xùn)練。這些目標(biāo)包括:(1)掩碼單元建模。其中所有輸入信號(hào)都被轉(zhuǎn)換為離散的詞例(Token),旨在預(yù)測(cè)各模態(tài)下的被遮蔽的單元的正確詞例。(2)對(duì)比學(xué)習(xí)。給定兩種輸入模態(tài),模型預(yù)測(cè)給定的信號(hào)是否來自訓(xùn)練數(shù)據(jù)中的同一個(gè)三元組(或數(shù)據(jù)對(duì))。
我們?cè)诙鄠(gè)多模態(tài)對(duì)比基準(zhǔn)上徹底評(píng)估了 i-Code。實(shí)驗(yàn)結(jié)果證明了所提出的多模態(tài)預(yù)訓(xùn)練框架的有效性。對(duì) i-Code 進(jìn)行微調(diào),相較目前最先進(jìn),我們可以在 6 個(gè)多模態(tài)數(shù)據(jù)集和 GLUE NLP 基準(zhǔn)測(cè)試中的算法獲得 11% 的性能提升。