繼 SAM 之后,威斯康辛麥迪遜、微軟、港科大等機(jī)構(gòu)的研究人員提出 SEEM 模型,通過不同的視覺提示和語言提示,一鍵分割圖像、視頻。
Meta 的「分割一切」的橫空出世,讓許多人驚呼 CV 不存在了。
基于這一模型,眾網(wǎng)友紛紛做了進(jìn)一步工作,比如 Grounded SAM。
將 Stable Diffusion、Whisper、ChatGPT 結(jié)合使用,就能做到通過語音讓一只狗變成一只猴子。
而現(xiàn)在,不僅僅是語音,你可以通過多模態(tài)提示實(shí)現(xiàn)一次性分割所有地方的一切。
具體怎么做?
鼠標(biāo)點(diǎn)一下,直接選中分割內(nèi)容。
張口一句話。
隨手一涂,完整的表情包就來了。
甚至,還能分割視頻。
最新研究 SEEM 是由威斯康星大學(xué)麥迪遜分校、微軟研究院等機(jī)構(gòu)的學(xué)者共同完成。
通過 SEEM 使用不同種類的提示,視覺提示、以及語言提示(文本和音頻)輕松分割圖像。
這個(gè)論文標(biāo)題有意思的地方在于,與 2022 年上映的一部美國科幻電影「瞬息全宇宙」的名字非常相似。
英偉達(dá)科學(xué)家 Jim Fan 表示,奧斯卡最佳論文標(biāo)題獎(jiǎng)?lì)C給「Segment Everything Everywhere All at Once」
擁有一個(gè)統(tǒng)一的、多功能的任務(wù)規(guī)范界面是擴(kuò)大大型基礎(chǔ)模型規(guī)模的關(guān)鍵。多模態(tài)提示是未來的方向。
看過論文后,網(wǎng)友表示,CV 現(xiàn)在也要開始擁抱大模型了,研究生未來出路在哪?
奧斯卡最佳標(biāo)題論文
正是受到基于提示的 LLMs 通用接口發(fā)展的啟發(fā),研究人員提出了 SEEM。
如圖所示,SEEM 模型可以在沒有提示的開放集中執(zhí)行任何分割任務(wù),比如語義分割、實(shí)例分割和全景分割。
此外,它還支持任意組合的視覺,文本和引用區(qū)域提示,允許多功能和交互式的引用分割。
在模型架構(gòu)上,SEEM 采用了常見的編碼器-解碼器架構(gòu)。其獨(dú)特的地方在于具有查詢和提示之間復(fù)雜的交互。
特征和提示被相應(yīng)的編碼器,或采樣器編碼到一個(gè)聯(lián)合的視覺語義空間。
可學(xué)習(xí)查詢是隨機(jī)初始化,SEEM 解碼器接受可學(xué)習(xí)查詢、圖像特征和文本提示作為輸入和輸出,包括類和掩碼嵌入,用于掩碼和語義預(yù)測。
值得一提的是,SEEM 模型有多輪交互。每一輪都包含一個(gè)人工循環(huán)和一個(gè)模型循環(huán)。
在人工循環(huán)中,人工接收上一次迭代的掩碼輸出,并通過視覺提示給出下一輪解碼的正反饋。在模型循環(huán)中,模型接收并更新未來預(yù)測的記憶提示。
通過 SEEM,給一個(gè)擎天柱卡車的圖,就能分割任何目標(biāo)圖像上的擎天柱。
通過用戶輸入的文本生成掩模,進(jìn)行一鍵分割。
另外,SEEM 通過對引用圖像的簡單點(diǎn)擊,或涂鴉,就能夠?qū)δ繕?biāo)圖像上有相似語義的對象進(jìn)行分割。
此外,SEEM 非常了解解空間關(guān)系。左上行斑馬被涂鴉后,也會(huì)分割出最左邊的斑馬。
SEEM 還可以將圖像引用到視頻掩碼,不需要任何視頻數(shù)據(jù)訓(xùn)練,都能完美分割視頻。
數(shù)據(jù)集和設(shè)置上,SEEM 在三種數(shù)據(jù)集接受了訓(xùn)練:全景分割,引用分割和交互式分割。
交互式分割
在交互式分割上,研究者將 SEEM 與最先進(jìn)的交互式分割模型進(jìn)行了比較。
作為一個(gè)通用模型,SEEM 獲得了 RITM,SimpleClick 等相當(dāng)?shù)男阅?。而且與 SAM 取得非常相似的性能,SAM 還多用了 50 個(gè)分割數(shù)據(jù)進(jìn)行訓(xùn)練。
值得注意的是,與現(xiàn)有的交互式模型不同,SEEM 是第一個(gè)不僅支持經(jīng)典的分割任務(wù),而且還支持廣泛的多模態(tài)輸入,包括文本、點(diǎn)、涂鴉、邊界框和圖像,提供了強(qiáng)大的組合能力。
通用分割
通過對所有分割任務(wù)預(yù)先訓(xùn)練的一組參數(shù),研究者可以直接評估它在通用分割數(shù)據(jù)集上的性能。
SEEM 實(shí)現(xiàn)了比較好的全景視圖,實(shí)例和語義分割性能。
研究人員對 SEEM 有四個(gè)期望目標(biāo):
1. 多功能性:通過引入多功能提示引擎處理不同類型的提示,包括點(diǎn)、框、涂鴉、遮罩、文本和另一圖像的引用區(qū)域;
2. 復(fù)合性:通過學(xué)習(xí)一個(gè)聯(lián)合視覺-語義空間,為視覺和文本提示組合即時(shí)查詢進(jìn)行推理;
3. 交互性:通過整合可學(xué)習(xí)的記憶提示,通過掩碼引導(dǎo)的交叉注意力保留對話歷史信息;
4. 語義感知:通過使用文本編碼器對文本查詢和遮罩標(biāo)簽進(jìn)行編碼,實(shí)現(xiàn)開放詞匯表的分割。
和 SAM 區(qū)別
Meta 提出的 SAM 模型,可以在一個(gè)統(tǒng)一框架 prompt encoder 內(nèi),指定一個(gè)點(diǎn)、一個(gè)邊界框、一句話,一鍵分割出物體。
SAM 具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓(xùn)練,就可以開箱即用地用于新的圖像領(lǐng)域,無論是水下照片,還是細(xì)胞顯微鏡。
研究者就三個(gè)分割任務(wù)的交互和語義能力對 SEEM 和 SAM 進(jìn)行了比較。
在開放集分割上,同樣需要高水平的語義,并且不需要交互。
與 SAM 相比,SEEM 涵蓋了更廣泛的交互和語義層次。
SAM 只支持有限的交互類型,比如點(diǎn)和邊界框,而忽視了高語義任務(wù),因?yàn)樗旧聿惠敵稣Z義標(biāo)簽。
對于 SEEM,研究者點(diǎn)出了兩個(gè)亮點(diǎn):
首先,SEEM 有一個(gè)統(tǒng)一的提示編碼器,將所有的視覺和語言提示編碼到一個(gè)聯(lián)合表示空間中。因此,SEEM 可以支持更通用的用法,它有可能擴(kuò)展到自定義提示。
其次,SEEM 在文本掩碼和輸出語義感知預(yù)測方面做得很好。
作者介紹
論文一作 Xueyan Zou
她目前是威斯康星大學(xué)麥迪遜分校的計(jì)算機(jī)科學(xué)系博士生,導(dǎo)師是 Yong Jae Lee 教授。
在此之前,Zou 在加州大學(xué)戴維斯分校度過了三年時(shí)光,由同一位導(dǎo)師指導(dǎo),并與 Fanyi Xiao 博士密切合作。
她在香港浸會(huì)大學(xué)獲得了學(xué)士學(xué)位,由 PC Yuen 教授和褚曉文教授指導(dǎo)。
Jianwei Yang
Yang 是 Redmond 微軟研究院深度學(xué)習(xí)組的高級研究員,由高劍峰博士指導(dǎo)。
Yang 的研究主要集中在計(jì)算機(jī)視覺、視覺與語言和機(jī)器學(xué)習(xí)。他主要研究不同層次的結(jié)構(gòu)化視覺理解,以及如何進(jìn)一步利用它們通過語言和環(huán)境的體現(xiàn)與人類進(jìn)行智能交互。
在 2020 年 3 月加入微軟之前,Yang 在佐治亞理工學(xué)互動(dòng)計(jì)算學(xué)院獲得了計(jì)算機(jī)科學(xué)博士學(xué)位,他的導(dǎo)師是 Devi Parikh 教授,他還與 Dhruv Batra 教授密切合作。
高劍峰
高劍峰是微軟研究院的杰出科學(xué)家和副總裁,IEEE 會(huì)員,以及 ACM 杰出會(huì)員。
目前,高劍峰領(lǐng)導(dǎo)著深度學(xué)習(xí)小組。該小組的任務(wù)是推動(dòng)深度學(xué)習(xí)的最先進(jìn)技術(shù)及其在自然語言和圖像理解方面的應(yīng)用,并在對話模型和方法方面取得進(jìn)展。
研究主要包括,用于自然語言理解和生成的神經(jīng)語言模型、神經(jīng)符號計(jì)算、視覺語言的基礎(chǔ)和理解、對話式人工智能等等。
2014 年到 2018 年,高劍峰在微軟人工智能與研究部和 Redmond 微軟研究院的深度學(xué)習(xí)技術(shù)中心擔(dān)任商業(yè)人工智能的合作伙伴研究經(jīng)理。
2006 年到 2014 年,高劍峰在自然語言處理組擔(dān)任首席研究員。
Yong Jae Lee
Lee 是華盛頓大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)系的副教授。
他在 2021 年秋季加入華盛頓大學(xué)麥迪遜分校之前,曾在 Cruise 擔(dān)任過一年的人工智能客座教師,在此之前,他在加州大學(xué)戴維斯分校擔(dān)任了 6 年的助理和副教授。
他還曾在卡內(nèi)基梅隆大學(xué)的機(jī)器人研究所做了一年的博士后研究員。
他于 2012 年 5 月在德克薩斯大學(xué)奧斯汀分校獲得博士學(xué)位,師從 Kristen Grauman,并于 2006 年 5 月在伊利諾伊大學(xué)厄巴納-香檳分校獲得學(xué)士學(xué)位。
他還曾作為微軟研究院的暑期實(shí)習(xí)生與 Larry Zitnick 和 Michael Cohen 一起工作。
目前,Lee 的研究集中在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。Lee 對創(chuàng)建強(qiáng)大的視覺識別系統(tǒng)格外感興趣,該系統(tǒng)可以在最少的人類監(jiān)督下理解視覺數(shù)據(jù)。
目前,SEEM 已經(jīng)開放了演示 demo:
快上手試試吧。
參考資料:
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。