時(shí)代商業(yè)網(wǎng) > 財(cái)經(jīng) >

華人團(tuán)隊(duì)顛覆CV，SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

來源：IT之家時(shí)間：2023-04-24 12:08 編輯：如思閱讀量：5230

繼 SAM 之后，威斯康辛麥迪遜、微軟、港科大等機(jī)構(gòu)的研究人員提出 SEEM 模型，通過不同的視覺提示和語言提示，一鍵分割圖像、視頻。

Meta 的「分割一切」的橫空出世，讓許多人驚呼 CV 不存在了。

基于這一模型，眾網(wǎng)友紛紛做了進(jìn)一步工作，比如 Grounded SAM。

將 Stable Diffusion、Whisper、ChatGPT 結(jié)合使用，就能做到通過語音讓一只狗變成一只猴子。

而現(xiàn)在，不僅僅是語音，你可以通過多模態(tài)提示實(shí)現(xiàn)一次性分割所有地方的一切。

具體怎么做？

鼠標(biāo)點(diǎn)一下，直接選中分割內(nèi)容。

張口一句話。

隨手一涂，完整的表情包就來了。

甚至，還能分割視頻。

最新研究 SEEM 是由威斯康星大學(xué)麥迪遜分校、微軟研究院等機(jī)構(gòu)的學(xué)者共同完成。

通過 SEEM 使用不同種類的提示，視覺提示、以及語言提示(文本和音頻)輕松分割圖像。

這個(gè)論文標(biāo)題有意思的地方在于，與 2022 年上映的一部美國科幻電影「瞬息全宇宙」的名字非常相似。

英偉達(dá)科學(xué)家 Jim Fan 表示，奧斯卡最佳論文標(biāo)題獎(jiǎng)?lì)C給「Segment Everything Everywhere All at Once」

擁有一個(gè)統(tǒng)一的、多功能的任務(wù)規(guī)范界面是擴(kuò)大大型基礎(chǔ)模型規(guī)模的關(guān)鍵。多模態(tài)提示是未來的方向。

看過論文后，網(wǎng)友表示，CV 現(xiàn)在也要開始擁抱大模型了，研究生未來出路在哪？

奧斯卡最佳標(biāo)題論文

正是受到基于提示的 LLMs 通用接口發(fā)展的啟發(fā)，研究人員提出了 SEEM。

如圖所示，SEEM 模型可以在沒有提示的開放集中執(zhí)行任何分割任務(wù)，比如語義分割、實(shí)例分割和全景分割。

此外，它還支持任意組合的視覺，文本和引用區(qū)域提示，允許多功能和交互式的引用分割。

在模型架構(gòu)上，SEEM 采用了常見的編碼器-解碼器架構(gòu)。其獨(dú)特的地方在于具有查詢和提示之間復(fù)雜的交互。

特征和提示被相應(yīng)的編碼器，或采樣器編碼到一個(gè)聯(lián)合的視覺語義空間。

可學(xué)習(xí)查詢是隨機(jī)初始化，SEEM 解碼器接受可學(xué)習(xí)查詢、圖像特征和文本提示作為輸入和輸出，包括類和掩碼嵌入，用于掩碼和語義預(yù)測。

值得一提的是，SEEM 模型有多輪交互。每一輪都包含一個(gè)人工循環(huán)和一個(gè)模型循環(huán)。

在人工循環(huán)中，人工接收上一次迭代的掩碼輸出，并通過視覺提示給出下一輪解碼的正反饋。在模型循環(huán)中，模型接收并更新未來預(yù)測的記憶提示。

通過 SEEM，給一個(gè)擎天柱卡車的圖，就能分割任何目標(biāo)圖像上的擎天柱。

通過用戶輸入的文本生成掩模，進(jìn)行一鍵分割。

另外，SEEM 通過對引用圖像的簡單點(diǎn)擊，或涂鴉，就能夠?qū)δ繕?biāo)圖像上有相似語義的對象進(jìn)行分割。

此外，SEEM 非常了解解空間關(guān)系。左上行斑馬被涂鴉后，也會(huì)分割出最左邊的斑馬。

SEEM 還可以將圖像引用到視頻掩碼，不需要任何視頻數(shù)據(jù)訓(xùn)練，都能完美分割視頻。

數(shù)據(jù)集和設(shè)置上，SEEM 在三種數(shù)據(jù)集接受了訓(xùn)練:全景分割，引用分割和交互式分割。

交互式分割

在交互式分割上，研究者將 SEEM 與最先進(jìn)的交互式分割模型進(jìn)行了比較。

作為一個(gè)通用模型，SEEM 獲得了 RITM，SimpleClick 等相當(dāng)?shù)男阅?。而且與 SAM 取得非常相似的性能，SAM 還多用了 50 個(gè)分割數(shù)據(jù)進(jìn)行訓(xùn)練。

值得注意的是，與現(xiàn)有的交互式模型不同，SEEM 是第一個(gè)不僅支持經(jīng)典的分割任務(wù)，而且還支持廣泛的多模態(tài)輸入，包括文本、點(diǎn)、涂鴉、邊界框和圖像，提供了強(qiáng)大的組合能力。

通用分割

通過對所有分割任務(wù)預(yù)先訓(xùn)練的一組參數(shù)，研究者可以直接評估它在通用分割數(shù)據(jù)集上的性能。

SEEM 實(shí)現(xiàn)了比較好的全景視圖，實(shí)例和語義分割性能。

研究人員對 SEEM 有四個(gè)期望目標(biāo):

1. 多功能性:通過引入多功能提示引擎處理不同類型的提示，包括點(diǎn)、框、涂鴉、遮罩、文本和另一圖像的引用區(qū)域；

2. 復(fù)合性:通過學(xué)習(xí)一個(gè)聯(lián)合視覺-語義空間，為視覺和文本提示組合即時(shí)查詢進(jìn)行推理；

3. 交互性:通過整合可學(xué)習(xí)的記憶提示，通過掩碼引導(dǎo)的交叉注意力保留對話歷史信息；

4. 語義感知:通過使用文本編碼器對文本查詢和遮罩標(biāo)簽進(jìn)行編碼，實(shí)現(xiàn)開放詞匯表的分割。

和 SAM 區(qū)別

Meta 提出的 SAM 模型，可以在一個(gè)統(tǒng)一框架 prompt encoder 內(nèi)，指定一個(gè)點(diǎn)、一個(gè)邊界框、一句話，一鍵分割出物體。

SAM 具有廣泛的通用性，即具有了零樣本遷移的能力，足以涵蓋各種用例，不需要額外訓(xùn)練，就可以開箱即用地用于新的圖像領(lǐng)域，無論是水下照片，還是細(xì)胞顯微鏡。

研究者就三個(gè)分割任務(wù)的交互和語義能力對 SEEM 和 SAM 進(jìn)行了比較。

在開放集分割上，同樣需要高水平的語義，并且不需要交互。

與 SAM 相比，SEEM 涵蓋了更廣泛的交互和語義層次。

SAM 只支持有限的交互類型，比如點(diǎn)和邊界框，而忽視了高語義任務(wù)，因?yàn)樗旧聿惠敵稣Z義標(biāo)簽。

對于 SEEM，研究者點(diǎn)出了兩個(gè)亮點(diǎn):

首先，SEEM 有一個(gè)統(tǒng)一的提示編碼器，將所有的視覺和語言提示編碼到一個(gè)聯(lián)合表示空間中。因此，SEEM 可以支持更通用的用法，它有可能擴(kuò)展到自定義提示。

其次，SEEM 在文本掩碼和輸出語義感知預(yù)測方面做得很好。

作者介紹

論文一作 Xueyan Zou

她目前是威斯康星大學(xué)麥迪遜分校的計(jì)算機(jī)科學(xué)系博士生，導(dǎo)師是 Yong Jae Lee 教授。

在此之前，Zou 在加州大學(xué)戴維斯分校度過了三年時(shí)光，由同一位導(dǎo)師指導(dǎo)，并與 Fanyi Xiao 博士密切合作。

她在香港浸會(huì)大學(xué)獲得了學(xué)士學(xué)位，由 PC Yuen 教授和褚曉文教授指導(dǎo)。

Jianwei Yang

Yang 是 Redmond 微軟研究院深度學(xué)習(xí)組的高級研究員，由高劍峰博士指導(dǎo)。

Yang 的研究主要集中在計(jì)算機(jī)視覺、視覺與語言和機(jī)器學(xué)習(xí)。他主要研究不同層次的結(jié)構(gòu)化視覺理解，以及如何進(jìn)一步利用它們通過語言和環(huán)境的體現(xiàn)與人類進(jìn)行智能交互。

在 2020 年 3 月加入微軟之前，Yang 在佐治亞理工學(xué)互動(dòng)計(jì)算學(xué)院獲得了計(jì)算機(jī)科學(xué)博士學(xué)位，他的導(dǎo)師是 Devi Parikh 教授，他還與 Dhruv Batra 教授密切合作。

高劍峰

高劍峰是微軟研究院的杰出科學(xué)家和副總裁，IEEE 會(huì)員，以及 ACM 杰出會(huì)員。

目前，高劍峰領(lǐng)導(dǎo)著深度學(xué)習(xí)小組。該小組的任務(wù)是推動(dòng)深度學(xué)習(xí)的最先進(jìn)技術(shù)及其在自然語言和圖像理解方面的應(yīng)用，并在對話模型和方法方面取得進(jìn)展。

研究主要包括，用于自然語言理解和生成的神經(jīng)語言模型、神經(jīng)符號計(jì)算、視覺語言的基礎(chǔ)和理解、對話式人工智能等等。

2014 年到 2018 年，高劍峰在微軟人工智能與研究部和 Redmond 微軟研究院的深度學(xué)習(xí)技術(shù)中心擔(dān)任商業(yè)人工智能的合作伙伴研究經(jīng)理。

2006 年到 2014 年，高劍峰在自然語言處理組擔(dān)任首席研究員。

Yong Jae Lee

Lee 是華盛頓大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)系的副教授。

他在 2021 年秋季加入華盛頓大學(xué)麥迪遜分校之前，曾在 Cruise 擔(dān)任過一年的人工智能客座教師，在此之前，他在加州大學(xué)戴維斯分校擔(dān)任了 6 年的助理和副教授。

他還曾在卡內(nèi)基梅隆大學(xué)的機(jī)器人研究所做了一年的博士后研究員。

他于 2012 年 5 月在德克薩斯大學(xué)奧斯汀分校獲得博士學(xué)位，師從 Kristen Grauman，并于 2006 年 5 月在伊利諾伊大學(xué)厄巴納-香檳分校獲得學(xué)士學(xué)位。

他還曾作為微軟研究院的暑期實(shí)習(xí)生與 Larry Zitnick 和 Michael Cohen 一起工作。

目前，Lee 的研究集中在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。Lee 對創(chuàng)建強(qiáng)大的視覺識別系統(tǒng)格外感興趣，該系統(tǒng)可以在最少的人類監(jiān)督下理解視覺數(shù)據(jù)。

目前，SEEM 已經(jīng)開放了演示 demo:

快上手試試吧。

參考資料:

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場無關(guān)。僅供讀者參考，并請自行核實(shí)相關(guān)內(nèi)容。

天天日天天干天天搞_亚洲性色AV无码久久精品色欲_亚洲精品免费在线观看_午夜视频在线免费观看

華人團(tuán)隊(duì)顛覆CV，SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

圖文 PICTURE

頭條

排行

熱圖

天天日天天干天天搞_亚洲性色AV无码久久精品色欲_亚洲精品免费在线观看_午夜视频在线免费观看

華人團(tuán)隊(duì)顛覆CV，SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

圖文 PICTURE

頭條

排行

熱圖

華人團(tuán)隊(duì)顛覆CV，SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」