欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

前沿科技 3年前 (2022) 虛像
2 0 0

給 Imagen 加上 " 指哪打哪 " 的能力,會變得有多強?

只需上傳 3-5 張指定物體的照片,再用文字描述想要生成的背景、動作或表情,就能讓指定物體 " 閃現 " 到你想要的場景中,動作表情也都栩栩如生。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

不止是動物,其他物體像墨鏡、書包、花瓶,也都能做出幾乎以假亂真的成品:

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

屬于是發朋友圈也不會被別人看出破綻的那種。(手動狗頭)

這個神奇的文字 - 圖像生成模型名叫 DreamBooth,是谷歌的最新研究成果,基于 Imagen 的基礎上進行了調整,一經發布就在推特上引發熱議。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

有網友調侃:這簡直是最先進的梗圖生成器。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換
谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

目前相關研究論文已上傳至 arXiv。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

幾張照片就能 " 環游世界 "

在介紹原理前,讓我們先來看看 DreamBooth 的各種能力,包括換景、指定動作表情服飾、更迭風格等。

如果你是個 " 鏟屎官 ",有了這個模型的 "換景能力",就能足不出戶送自家狗子走出家門,凡爾賽宮里、富士山腳下……通通不在話下。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

光照也比較自然

不僅如此,寵物的動作和表情也都能隨意指定,屬實是把 " 一句話 P 圖 " 的細節拿捏到位了。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

除了上面的 " 基操 " 以外,DreamBooth 甚至還能更換各種照片風格,也就是所謂的 " 加濾鏡 "。

例如,各種 " 世界名畫 " 畫風、各種視角的狗子,簡直不要太藝術:

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

至于給它們加上裝飾?各種 cosplay 的小道具,也是小菜一碟。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

除此之外,無論是更換顏色:

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

還是更魔幻一點,更換物種,這只 AI 也都能做到。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

那么,如此有趣的效果背后的原理是什么呢?

給輸入加個 " 特殊標識符 "

研究人員做了個對比,相較于其他大規模文本 - 圖像模型如 DALL-E2、Imagen 等,只有采用 DreamBooth 的方法,才能做到對輸入圖像的忠實還原。

如下圖所示,輸入 3 張右邊表盤上畫著黃色 "3" 的小鬧表,其中 DreamBooth 生成的圖像完美保留了鐘表的所有細節,但 DALL-E2 和 Imagen 幾次生成的鐘都與原來的鐘 " 有那么點差異 "。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

李逵和 " 李鬼 "

而這也正是 DreamBooth 最大的特點——個性化表達

用戶可以給定 3-5 張自己隨意拍攝的某一物體的圖片,就能得到不同背景下的該物體的新穎再現,同時又保留了其關鍵特征。

當然,作者也表示,這種方法并不局限于某個模型,如果 DALL · E2 經過一些調整,同樣能實現這樣的功能。

具體到方法上,DreamBooth 采用了給物體加上 "特殊標識符" 的方法。

也就是說,原本圖像生成模型收到的指令只是一類物體,例如 [ cat ] 、 [ dog ] 等,但現在 DreamBooth 會在這類物體前加上一個特殊標識符,變成 [ V ] [ 物體類別 ] 。

以下圖為例,將用戶上傳的三張狗子照片和相應的類名(如 " 狗 ")作為輸入信息,得到一個經過微調的文本 - 圖像擴散模型。

該擴散模型用 "a [ V ] dog" 來特指用戶上傳圖片中的狗子,再把其帶入文字描述中,生成特定的圖像,其中 [ V ] 就是那個特殊標識符。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

至于為什么不直接用 [ V ] 來指代整個 [ 特定物體 ] ?

作者表示,受限于輸入照片的數量,模型無法很好地學習到照片中物體的整體特征,反而可能出現過擬合。

因此這里采用了微調的思路,整體上仍然基于 AI 已經學到的 [ 物體類別 ] 特征,再用 [ V ] 學到的特殊特征來修飾它。

以生成一只白色的狗為例,這里模型會通過 [ V ] 來學習狗的顏色(白色)、體型等個性化細節,加上模型在 [ 狗 ] 這個大的類別中學到的狗的共性,就能生成更多合理又不失個性的白狗的照片。

為了訓練這個微調的文本 - 圖像擴散模型,研究人員首先根據給定的文本描述生成低分辨率圖像,這時生成的圖像中狗子的形象是隨機的。

然后再應用超分辨率的擴散模型進行替換,把隨機圖像換成用戶上傳的特定狗子。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

研究團隊

DreamBooth 的研究團隊來自谷歌,第一作者是 Nataniel Ruiz。

Nataniel Ruiz 是波士頓大學圖像和視頻計算組的四年級博士生,目前在谷歌實習。主要研究方向是生成模型、圖像翻譯、對抗性攻擊、面部分析和模擬。

谷歌用新AI超越自己:讓Imagen能夠指定生成對象,風格還能隨意轉換

原文地址:http://www.myzaker.com/article/630a38e58e9f0922495a1078

相關文章

主站蜘蛛池模板: 维西| 封丘县| 宜春市| 武胜县| 南陵县| 璧山县| 迭部县| 喀什市| 陆河县| 库车县| 广昌县| 岳阳县| 招远市| 乐安县| 类乌齐县| 桃江县| 岐山县| 于田县| 永丰县| 咸阳市| 弥渡县| 承德县| 巴彦县| 井研县| 海原县| 聂拉木县| 通渭县| 静乐县| 东光县| 南京市| 杭锦后旗| 怀宁县| 扶风县| 巴彦淖尔市| 体育| 康定县| 泉州市| 湟源县| 金门县| 全州县| 巴彦县|