時間:2018-01-29 來源:互聯網 瀏覽量:
文:李超凡
現在是鹹蛋超人直播答題現場,獎金 100 萬,請看本次答題的最後一題:
圖片中的這隻鳥類的學名叫什麼?
如果真有這題,估計沒人能真答對。即使用上了答題助手,求助科學達人,甚至動物學家都會全軍覆沒。
因為這隻小鳥實際上並不存在,是微軟的 AI 工具 AttnGAN 生成的一張假照片,操作十分簡單,隻要你根據想象輸入對這隻鳥類的一句話描述,這隻不存在的鳥類就誕生了。
這是微軟研究實驗室最近開發的一項人工智能技術 AttnGAN ,可以讓 AI 根據類似字幕的文本描述生成相應的圖片。
其實根據文本生成圖像的技術不算新鮮,但微軟稱 AttnGAN 生成的圖像質量比此前的文本生成圖像技術相比提高了近 3 倍,微軟研究實驗室的首席研究員 Xiaodong He 表示:
四年前還沒人相信這個技術能做到這種程度。
當 AI 擁有想象力
到底 AttnGAN 這項技術有什麼了不起,總結起來其實就三個字:想象力。
以開頭那隻小鳥為例,如果我們要憑空畫出來,大概步驟會是這樣,先在那腦海中想象這幅畫的樣子:一隻腹部紅白相間、黑色翅膀、短喙的小鳥。然後先在紙上勾勒出鳥身的輪廓,然後用不同顏色的畫筆畫出鳥身的各個部位,最後畫上黑色短小的鳥喙。
(圖自:時光網)
而 AttnGAN 也可以完成這樣需要豐富想象力的工作,微軟研究人員稱之為繪圖機器人。Xiaodong He 認為這樣這項技術的挑戰在於,需要讓繪圖機器人想象出文字描述中沒有包含的細節:
這意味著,你需要讓 AI 通過機器學習的算法想象出這個圖像中缺失的部分。
目前 Google 和 Adobe 的一些圖片生成技術都是基於真實的圖片開始生成,而微軟這個繪圖機器人則是從像素點開始生成,是真的「憑空想象」。
(小鳥照片生成過程)
比如那幅小鳥的照片,輸入的文本中並沒有提到它會站在一個樹枝上,最後的結果其實是來自 AI 在大量數據學習後的想象。
這一切都是通過一個生成式對抗網絡(Generative Adversarial Network,GAN)完成的。顧名思義,這是由「敵對」的兩個機器學習模型組成。一個負責從文本描述生產圖像,另一個是鑒別器(discriminator),負責判斷生產圖片的真實性。
如果鑒別器判定生成的圖片不合格,就會打回重做。而負責從文本描述生產圖像的 AI 模型則要想方設法提高圖片的真實性,以「欺騙」鑒別器的火眼金睛。兩者相互矛盾又相互配合,讓最終生產的圖片可信度更高。
此外微軟的這個繪圖機器人高度模仿了人類繪畫的思路。在人類的繪畫過程中,會對正在描繪的部分十分專注,根據反複想象畫出下一部分的內容。
AttnGAN 模擬了了這個過程,將輸入的文本拆解為各個單詞,再分別將這些關鍵詞與圖像中的特定區域相匹配。微軟研究實驗室的首席研究員 Xiaodong He 表示:
注意力是一個人類的概念,我們把這個概念變成了一個機器學習的問題。
盡管微軟這個繪圖機器人在文本到圖像的生成方麵取得了突破,不過實際上目前仍不夠成熟。上文中提到的那隻「不存在」的小鳥,照片像素隻有 256 x 256,這已經是它能做到的極限了。
而這些機器生成的照片如果仔細查看,還是會有不少破綻。比如這幅這張根據「擺放了香蕉和奇異果」的文本描述生成的照片,可以看到香蕉發生了明顯的變形。
而麵對某些更為複雜的文字描述,AttnGAN 顯然還無法很好地理解。研究人員對其進行了一係列難度測試,比如輸入「漂浮在湖麵上的紅色雙層巴士」。結果生成的卻是一艘紅白相間的遊艇,可能是 AI 認為巴士漂浮在湖麵並不可能。
而一些看似簡單的文字描述 AttnGAN 也未必能領會,比如麵對「一個吃披薩的女孩」的文字命令,它生成的是一張人臉幾乎無法辨認甚至有點驚悚的照片。
微軟的研究人員表示,這個繪圖機器人還需要學習更多常識和背景知識才能繪製出更逼真和複雜的圖像。
繪圖機器人是福還是禍?
說了這麼多,微軟的繪圖機器人在生活中有有什麼用呢?
微軟表示,隨著這種文本到圖像的生成技術逐漸成熟,它可以作為畫家和設計師的智能助理,還能通過語音指令來美化圖片,甚至能基於電影劇本生成動畫電影,降低動畫電影製作的成本。
(AI 編劇的電影《 Sunspring 》,圖自:YouTube)
不過如果生成一張虛構照片真的隻需要一句話,這樣的低門檻也可能讓假新聞和謠言的滋長和傳播增添一大利器。
在社交網絡裏,我們市場看到一些營銷號「發現」了奇葩的或者已經滅絕的新物種照片,偶爾還會被一些媒體當作新聞報道。
其中最為知名的則是發生在 2007 年的華南虎事件, 陝西林業廳公布了獵人周正龍用數碼相機和膠片相機拍攝的野生華南虎照片。
當時野生華南虎已經基本絕跡,因此照片公布後引起了全國範圍的關注,不過這些照片很快就被證明是根據一張年畫偽造的。
過去做這樣的假新聞還需要比較好的 P 圖技術,而微軟繪圖機器人這樣的工具,可能讓生成假照片變得更加容易,也更難以甄別真假。
去年 7 月份,美國華盛頓大學的研究者們就利用人工智能以及數字圖像合成技術,生產了一段真假難辨的奧巴馬演講視頻。
而最近還有人利用 AI 工具把好萊塢女星的臉嫁接到色情影片的演員上。
(《神奇女俠》主演蓋爾·加朵的臉被「換」到了一個色情電影演員上,圖自:motherboard)
盡管如此,也不必對這種技術過於擔憂。很多科技產物本事就是雙刃劍,就像核裂變的鏈式反應既可以給人類的大量能源,也能發生核泄漏或者變成核彈毀了一座城市。
科技讓生活更美好,前提是我們能掌控它,我們要做的是想辦法去掌控它,而不是因為它的副作用而把它關進盒子裏。
題圖來自:Space,部分配圖來自:微軟研究院