正文

教ChatGPT學(xué)會(huì)看圖的方法來了

發(fā)布時(shí)間：2023-03-03 15:56:44 稿源：互聯(lián)網(wǎng) 閱讀： 552 問大家

羿閣發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

2022年流行“文生圖”模型，那2023年流行什么？

機(jī)器學(xué)習(xí)工程師Daniel Bourke的答案是：反過來！

這不，一個(gè)最新發(fā)布的“圖生文”模型在網(wǎng)上爆火，其優(yōu)秀的效果引發(fā)眾多網(wǎng)友紛紛轉(zhuǎn)發(fā)、點(diǎn)贊。

不僅是基礎(chǔ)的“看圖說話”功能，寫情詩、講解劇情、給圖片中對(duì)象設(shè)計(jì)對(duì)話等等，這個(gè)AI都拿捏得穩(wěn)穩(wěn)的！

比如，當(dāng)你在網(wǎng)上刷到誘人的美食時(shí)，只需把圖片發(fā)給它，它就會(huì)立馬識(shí)別出需要的食材和做菜步驟：

甚至圖片中的一些列文虎克的細(xì)節(jié)也能“看”得清清楚楚。

當(dāng)被問到如何才能從圖片中倒著的房子里離開，AI的回答是：側(cè)面不是有滑梯嘛！

這只新AI名為BLIP-2 （Bootstrapping Language-Image Pre-training 2），目前代碼已開源。

最重要的是，和以前的研究不同，BLIP-2使用的是一種通用的預(yù)訓(xùn)練框架，因此可以任意對(duì)接自己的語言模型。

有網(wǎng)友已經(jīng)在暢想把接口換成ChatGPT后的強(qiáng)強(qiáng)組合了。

作者之一Steven Hoi更是放話：BLIP-2未來就是“多模態(tài)版ChatGPT”。

那么，BLIP-2神奇的地方還有哪些？一起往下看。

理解能力一流

BLIP-2的玩法可以說非常多樣了。

只需提供一張圖片，你就可以與它對(duì)話，讓它看圖講故事、推理、生成個(gè)性化文本等各種要求都能滿足。

舉個(gè)例子，BLIP-2不僅能輕松識(shí)別圖片中的景點(diǎn)是長城，還能介紹出長城的歷史：

中國的長城是公元前221年秦始皇為了保護(hù)帝都不受北方侵略而建造的。

給它一張電影劇照，BLIP-2不光知道出自哪，還知道故事的結(jié)局是be：泰坦尼克號(hào)沉沒，男主淹死。

在對(duì)人類神態(tài)的拿捏上，BLIP-2同樣把握得非常準(zhǔn)確。

被問到這張圖片中的男人是什么表情，他為什么這樣時(shí)，BLIP-2的回答是：他害怕那只雞，因?yàn)樗w來。

更神奇的是，在許多開放性問題上，BLIP-2的表現(xiàn)也很出色。

讓它根據(jù)下面的圖片寫一句浪漫的話：

它的回答是這樣的：愛情就像日落，很難預(yù)見它的到來，但當(dāng)它發(fā)生時(shí)，它是如此的美麗。

這不光理解能力滿分，文學(xué)造詣也相當(dāng)強(qiáng)?。?/p> 教ChatGPT學(xué)會(huì)看圖的方法來了

讓它給圖片中的兩只動(dòng)物生成一段對(duì)話，BLIP-2也能輕松拿捏傲嬌貓貓x蠢萌狗狗的設(shè)定：

貓: 嘿，狗狗，我能騎在你背上嗎？

狗: 當(dāng)然，為什么不呢？

貓: 我已經(jīng)厭倦了在雪地里行走。

那么，如此強(qiáng)大的理解能力背后，BLIP-2究竟是怎么做到的？

多項(xiàng)視覺語言任務(wù)上實(shí)現(xiàn)新SOTA

考慮到大規(guī)模模型的端到端訓(xùn)練成本越來越高，BLIP-2使用的是一種通用且高效的預(yù)訓(xùn)練策略：

從現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和凍結(jié)的大型語言模型中引導(dǎo)視覺語言預(yù)訓(xùn)練。

這也意味著，每個(gè)人都可以選擇自己想用的模型接入使用。

而為了彌補(bǔ)了模態(tài)之間的差距，研究者提出了一個(gè)輕量級(jí)的查詢Transformer。

該Transformer分兩個(gè)階段進(jìn)行預(yù)訓(xùn)練：

第一階段從凍結(jié)圖像編碼器引導(dǎo)視覺語言表示學(xué)習(xí)，第二階段將視覺從凍結(jié)的語言模型引導(dǎo)到語言生成學(xué)習(xí)。

為了測(cè)試BLIP-2的性能，研究人員分別從零樣本圖像-文本生成、視覺問答、圖像-文本檢索、圖像字幕任務(wù)上對(duì)其進(jìn)行了評(píng)估。

最終結(jié)果顯示，BLIP-2在多項(xiàng)視覺語言任務(wù)上都實(shí)現(xiàn)了SOTA。

其中，BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%，且訓(xùn)練參數(shù)還減少了54倍。

而且顯而易見的是，更強(qiáng)的圖像編碼器或更強(qiáng)的語言模型都會(huì)產(chǎn)生更好的性能。

值得一提的是，研究者在論文最后也提到，BLIP-2還存在一個(gè)不足，那就是缺乏上下文學(xué)習(xí)能力：

每個(gè)樣本只包含一個(gè)圖像-文本對(duì)，目前還無法學(xué)習(xí)單個(gè)序列中多個(gè)圖像-文本對(duì)之間的相關(guān)性。

研究團(tuán)隊(duì)

BLIP-2的研究團(tuán)隊(duì)來自Salesforce Research。

第一作者為Junnan Li，他也是一年前推出的BLIP的一作。

目前是Salesforce亞洲研究院高級(jí)研究科學(xué)家。本科畢業(yè)于香港大學(xué)，博士畢業(yè)于新加坡國立大學(xué)。

研究領(lǐng)域很廣泛，包括自我監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、視覺-語言。

以下是BLIP-2的論文鏈接和GitHub鏈接，感興趣的小伙伴們可以自取～

論文鏈接：https://arxiv.org/pdf/2301.12597.pdf

GitHub鏈接：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

參考鏈接：[1]https://twitter.com/mrdbourke/status/1620353263651688448[2]https://twitter.com/LiJunnan0409/status/1620259379223343107

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

展示設(shè)計(jì)100字設(shè)計(jì)說明_1

輿情人現(xiàn)在經(jīng)常交流的網(wǎng)站（輿情人現(xiàn)在經(jīng)常交流的網(wǎng)站叫什么）

在百度做廣告的收費(fèi)標(biāo)準(zhǔn)是多少（在百度做廣告的收費(fèi)標(biāo)準(zhǔn)是多少錢）

藝術(shù)字1～10可復(fù)制（1234567各種字體）

一鍵生成標(biāo)題軟件（在線標(biāo)題自動(dòng)生成器）

怎么進(jìn)去wordpress看文（wordpress網(wǎng)頁版入口看文）

友是什么結(jié)構(gòu)的字（友是獨(dú)體字還是半包圍結(jié)構(gòu)）

一句話描述自己的價(jià)值觀（一句話描述自己的價(jià)值觀怎么寫）

問大家

泉城濟(jì)南征婚相親交友脫單機(jī)構(gòu)、相親聯(lián)誼平臺(tái)哪家口碑好？

成都錦江區(qū)承接能力最強(qiáng)圈層客戶活動(dòng)什么地方有？路過的bss們問一下哈

濟(jì)南單身男女婚戀交友平臺(tái)、大齡單身交友哪個(gè)正規(guī)？靠譜一些？

讓品牌有溫度、有情感
專注品牌策劃15年

教ChatGPT學(xué)會(huì)看圖的方法來了

猜你喜歡

問大家

推薦專題

相關(guān)主題

創(chuàng)意嶺品牌策劃

提交需求1對(duì)1免費(fèi)咨詢

讓品牌有溫度、有情感 專注品牌策劃15年

教ChatGPT學(xué)會(huì)看圖的方法來了

猜你喜歡

問大家

推薦專題

相關(guān)主題

創(chuàng)意嶺品牌策劃

提交需求1對(duì)1免費(fèi)咨詢

讓品牌有溫度、有情感
專注品牌策劃15年