亚洲mv大片欧洲mv大片入口,国产粉嫩无码一区二区三区,国内精品自产拍在线观看91,久久久亚洲欧洲日产国码二区,中文字幕人妻久久一区二区三区

常州機(jī)器視覺培訓(xùn)

常州上位機(jī)軟件開發(fā)

常州工業(yè)機(jī)器人編程設(shè)計(jì)培訓(xùn)

常州PLC培訓(xùn)

常州PLC

常州PLC編程培訓(xùn)

常州電工培訓(xùn)

常州和訊plc培訓(xùn)中心歡迎您!
當(dāng)前位置:網(wǎng)站首頁(yè) > 新聞中心 新聞中心
通俗理解什么是多模態(tài)-常州機(jī)器視覺學(xué)習(xí),常州上位機(jī)學(xué)習(xí)
日期:2024-3-28 14:01:24人氣:  標(biāo)簽:常州機(jī)器視覺學(xué)習(xí) 常州上位機(jī)學(xué)習(xí)

1、什么是多模態(tài)


簡(jiǎn)單來說,多模態(tài)指的是數(shù)據(jù)或者信息的多種表現(xiàn)形式。

比如,我想把"我有一個(gè)蘋果"這個(gè)信息傳遞給你,我可以用文字寫出來,也可以用語言說出來,也可以用圖片畫出來,甚至我還可以拍成視頻告訴你。

這就是典型的一種信息,多種存在形式上的多模態(tài)。



我們可以這么理解,文本是一種模態(tài),圖像也是一種模態(tài),甚至兩種不同的語言,比如中文和英文,也各是一種不同的模態(tài)。

之所以相同的信息有那么多模態(tài),是因?yàn)槿祟愑卸喾N感官來處理信息:比如聽覺、嗅覺、視覺、觸覺、味覺等,它們都可以獲取并且處理不同形式的信息。

AI 如果真的想要模擬人類,實(shí)現(xiàn)通用人工智能(AGI),最重要的就是要實(shí)現(xiàn)對(duì)多模態(tài)的支持。

也就說,對(duì)于一個(gè)人工智能模型而言,它需要既可以處理文本,也可以處理圖像,又可以處理語音,還可以處理其他任務(wù)等。



2、深度學(xué)習(xí)中的多模態(tài)


在目前的人工智能任務(wù)中,我們所說的多模態(tài)更多的指對(duì)于 3V 任務(wù)的支持,也即 Verbal(文本)、Vocal(語音) 和 Visual(視覺)。

深度學(xué)習(xí)中有很多經(jīng)典的任務(wù),都是基于這三種任務(wù)之間互相轉(zhuǎn)換的。

比如圖像生成任務(wù)(Image Generation from Text),根據(jù)文本描述生成圖像。


再比如反過來的圖像描述任務(wù)(Image Captioning),根據(jù)圖像來生成文本,就像是我們小學(xué)學(xué)的看圖作文一樣。


當(dāng)然除了圖像和文本之間的跨模態(tài)深度學(xué)習(xí)之外,還有文本和語音的跨模態(tài),如微信支持的語音轉(zhuǎn)文字功能。

還有語音轉(zhuǎn)圖片,如給一段話,按照話語中的描述轉(zhuǎn)換為一張圖片。

這種組合可以有很多種,就像是人一樣,不同感官獲取到了不同形式的信息,統(tǒng)一都會(huì)送給大腦來處理,處理完之后,以另一種形式表現(xiàn)出來。

人看到了圖像,會(huì)用語言描述出來,AI 也需要具備這樣的能力。

正因?yàn)槿绱,一旦大模型支持了多模態(tài),就可以十分輕松地完成多種數(shù)據(jù)之間的轉(zhuǎn)換,也就使得大模型在表現(xiàn)上離通用人工智能更近了一步。

本文網(wǎng)址:
下一篇:沒有資料

相關(guān)信息:
版權(quán)所有 CopyRight 2006-2017 江蘇和訊自動(dòng)化設(shè)備有限公司 常州自動(dòng)化培訓(xùn)中心 電話:0519-85602926 地址:常州市新北區(qū)府琛商務(wù)廣場(chǎng)2號(hào)樓1409室
蘇ICP備14016686號(hào)-2 技術(shù)支持:常州山水網(wǎng)絡(luò)
本站關(guān)鍵詞:常州PLC培訓(xùn) 常州PLC編程培訓(xùn) 常州PLC編程 常州PLC培訓(xùn)班 網(wǎng)站地圖 網(wǎng)站標(biāo)簽
在線與我們?nèi)〉寐?lián)系
亚洲mv大片欧洲mv大片入口,国产粉嫩无码一区二区三区,国内精品自产拍在线观看91,久久久亚洲欧洲日产国码二区,中文字幕人妻久久一区二区三区