時(shí)代商業(yè)網(wǎng) > 財(cái)經(jīng) >

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個(gè)技能AI終于學(xué)

來(lái)源：IT之家時(shí)間：2022-11-12 12:42 編輯：葉知秋閱讀量：6334

2歲的人類幼崽能做什么，AI居然會(huì)學(xué)。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個(gè)技能AI終于學(xué)

直到現(xiàn)在，這個(gè)終于被科學(xué)家攻克了！

有網(wǎng)友評(píng)價(jià):很爽這可能是我最近幾個(gè)月看到的最好的項(xiàng)目了

它是如何工作的。

我們先來(lái)看幾個(gè)例子。

當(dāng)你上傳3張不同角度的陶瓷貓照片時(shí)，你可能會(huì)得到以下4張新圖像:兩只在船上釣魚的陶瓷貓，陶瓷貓書包，班克斯的藝術(shù)風(fēng)格貓和陶瓷貓主題飯盒。

同樣的例子是藝術(shù)品:

裝甲:

碗:

AI不僅可以從圖像中提取物體，還可以生成具有特定風(fēng)格的新圖像比如如下圖，AI提取了輸入圖像的繪畫風(fēng)格，生成了一系列這種風(fēng)格的新繪畫

更神奇的是，它還可以將兩組輸入的圖像進(jìn)行組合，提取一組圖像中的物體，然后提取另一組的圖像風(fēng)格，將兩者組合生成一幅全新的圖像。

除此之外，通過這個(gè)功能，你還可以啟動(dòng)一些經(jīng)典的圖像，給它們添加一些新元素。

那么，如此神奇的功能背后是什么原理呢。

雖然近兩年來(lái)，大規(guī)模的文本—圖像模型，如DALL，CLIP，GLIDE等，已經(jīng)被證明有很強(qiáng)的自然語(yǔ)言推理能力

但有一點(diǎn):如果用戶提出一些具體的要求，比如生成一張新的包含我最喜歡的童年玩具的照片，或者把孩子的涂鴉變成一件藝術(shù)品，這些大規(guī)模的模型是很難做到的。

為了應(yīng)對(duì)這一挑戰(zhàn)，提出了一種固定的，預(yù)訓(xùn)練的文本圖像模型和一小組描述概念的圖像目標(biāo)是從這個(gè)小集合中找到一個(gè)單詞來(lái)嵌入和重建圖像因?yàn)檫@種嵌入是通過優(yōu)化過程發(fā)現(xiàn)的，所以稱為文本倒置

具體來(lái)說(shuō)，就是先把用戶輸入的圖像中的物體或樣式抽象出來(lái)，轉(zhuǎn)換成偽詞s此時(shí)，這個(gè)偽詞可以被視為任何其他詞

S在沙灘上的照片，掛在墻上的S的油畫，畫一個(gè)S2風(fēng)格的S1。

值得注意的是，這項(xiàng)研究使用了小規(guī)模，有計(jì)劃的數(shù)據(jù)集，因此在生成圖像時(shí)可以有效避免刻板印象。

比如下圖，當(dāng)提示醫(yī)生時(shí)，其他模型傾向于生成白人和男性的圖像，而該模型生成的圖像中增加了女性和其他種族的數(shù)量。

目前這個(gè)項(xiàng)目的代碼和數(shù)據(jù)已經(jīng)開源，有興趣的伙伴可以關(guān)注一下。

參考鏈接:

。

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。