国产精品久免费的黄网站,亚洲欧美中文字幕5发布

0519-85602926 15861139266

更多>>新聞中心

熱門課程

聯(lián)系方式

當(dāng)前位置：網(wǎng)站首頁(yè) > 新聞中心新聞中心

通俗理解什么是多模態(tài)-常州機(jī)器視覺學(xué)習(xí)，常州上位機(jī)學(xué)習(xí)

日期：2024-3-28 14:01:24人氣：標(biāo)簽：常州機(jī)器視覺學(xué)習(xí) 常州上位機(jī)學(xué)習(xí)

1、什么是多模態(tài)

簡(jiǎn)單來說，多模態(tài)指的是數(shù)據(jù)或者信息的多種表現(xiàn)形式。

比如，我想把"我有一個(gè)蘋果"這個(gè)信息傳遞給你，我可以用文字寫出來，也可以用語言說出來，也可以用圖片畫出來，甚至我還可以拍成視頻告訴你。

這就是典型的一種信息，多種存在形式上的多模態(tài)。

我們可以這么理解，文本是一種模態(tài)，圖像也是一種模態(tài)，甚至兩種不同的語言，比如中文和英文，也各是一種不同的模態(tài)。

之所以相同的信息有那么多模態(tài)，是因?yàn)槿祟愑卸喾N感官來處理信息：比如聽覺、嗅覺、視覺、觸覺、味覺等，它們都可以獲取并且處理不同形式的信息。

AI 如果真的想要模擬人類，實(shí)現(xiàn)通用人工智能(AGI)，最重要的就是要實(shí)現(xiàn)對(duì)多模態(tài)的支持。

也就說，對(duì)于一個(gè)人工智能模型而言，它需要既可以處理文本，也可以處理圖像，又可以處理語音，還可以處理其他任務(wù)等。

2、深度學(xué)習(xí)中的多模態(tài)

在目前的人工智能任務(wù)中，我們所說的多模態(tài)更多的指對(duì)于 3V 任務(wù)的支持，也即 Verbal(文本)、Vocal(語音) 和 Visual(視覺)。

深度學(xué)習(xí)中有很多經(jīng)典的任務(wù)，都是基于這三種任務(wù)之間互相轉(zhuǎn)換的。

比如圖像生成任務(wù)(Image Generation from Text)，根據(jù)文本描述生成圖像。

再比如反過來的圖像描述任務(wù)(Image Captioning)，根據(jù)圖像來生成文本，就像是我們小學(xué)學(xué)的看圖作文一樣。

當(dāng)然除了圖像和文本之間的跨模態(tài)深度學(xué)習(xí)之外，還有文本和語音的跨模態(tài)，如微信支持的語音轉(zhuǎn)文字功能。

還有語音轉(zhuǎn)圖片，如給一段話，按照話語中的描述轉(zhuǎn)換為一張圖片。

這種組合可以有很多種，就像是人一樣，不同感官獲取到了不同形式的信息，統(tǒng)一都會(huì)送給大腦來處理，處理完之后，以另一種形式表現(xiàn)出來。

人看到了圖像，會(huì)用語言描述出來，AI 也需要具備這樣的能力。

正因?yàn)槿绱�，一旦大模型支持了多模態(tài)，就可以十分輕松地完成多種數(shù)據(jù)之間的轉(zhuǎn)換，也就使得大模型在表現(xiàn)上離通用人工智能更近了一步。

本文網(wǎng)址：

下一篇：沒有資料

相關(guān)信息:

常州機(jī)器視覺培訓(xùn)