1、什么是多模態(tài)
簡(jiǎn)單來說,多模態(tài)指的是數(shù)據(jù)或者信息的多種表現(xiàn)形式。
比如,我想把"我有一個(gè)蘋果"這個(gè)信息傳遞給你,我可以用文字寫出來,也可以用語言說出來,也可以用圖片畫出來,甚至我還可以拍成視頻告訴你。
這就是典型的一種信息,多種存在形式上的多模態(tài)。
我們可以這么理解,文本是一種模態(tài),圖像也是一種模態(tài),甚至兩種不同的語言,比如中文和英文,也各是一種不同的模態(tài)。
之所以相同的信息有那么多模態(tài),是因?yàn)槿祟愑卸喾N感官來處理信息:比如聽覺、嗅覺、視覺、觸覺、味覺等,它們都可以獲取并且處理不同形式的信息。
AI 如果真的想要模擬人類,實(shí)現(xiàn)通用人工智能(AGI),最重要的就是要實(shí)現(xiàn)對(duì)多模態(tài)的支持。
也就說,對(duì)于一個(gè)人工智能模型而言,它需要既可以處理文本,也可以處理圖像,又可以處理語音,還可以處理其他任務(wù)等。
2、深度學(xué)習(xí)中的多模態(tài)
在目前的人工智能任務(wù)中,我們所說的多模態(tài)更多的指對(duì)于 3V 任務(wù)的支持,也即 Verbal(文本)、Vocal(語音) 和 Visual(視覺)。
深度學(xué)習(xí)中有很多經(jīng)典的任務(wù),都是基于這三種任務(wù)之間互相轉(zhuǎn)換的。
比如圖像生成任務(wù)(Image Generation from Text),根據(jù)文本描述生成圖像。
再比如反過來的圖像描述任務(wù)(Image Captioning),根據(jù)圖像來生成文本,就像是我們小學(xué)學(xué)的看圖作文一樣。
當(dāng)然除了圖像和文本之間的跨模態(tài)深度學(xué)習(xí)之外,還有文本和語音的跨模態(tài),如微信支持的語音轉(zhuǎn)文字功能。
還有語音轉(zhuǎn)圖片,如給一段話,按照話語中的描述轉(zhuǎn)換為一張圖片。
這種組合可以有很多種,就像是人一樣,不同感官獲取到了不同形式的信息,統(tǒng)一都會(huì)送給大腦來處理,處理完之后,以另一種形式表現(xiàn)出來。
人看到了圖像,會(huì)用語言描述出來,AI 也需要具備這樣的能力。
正因?yàn)槿绱,一旦大模型支持了多模態(tài),就可以十分輕松地完成多種數(shù)據(jù)之間的轉(zhuǎn)換,也就使得大模型在表現(xiàn)上離通用人工智能更近了一步。