學界 | 來認識認識微軟的「畫家 AI」

華盛頓人 · 發表於 2018-1-21 12:31

　　2018-01-20 20:56微軟/機器人/人類

　　AI 科技評論按：近年來圖像生成模型方面的研究可謂是突飛猛進，內容的豐富程度和清晰程度都在不斷刷新著以往的記錄。終於，微軟研究院的這篇新論文突破了另一個瓶頸，能自由地根據文本描述生成逼真的圖像。

　　微軟在官方博客上也發出了對這篇論文的通俗介紹，AI 科技評論編譯如下。

　　

　　試想一下，你手中拿著稿紙和畫筆，然後讓你畫一張鳥，這隻鳥要有黃色的身體，黑色的翅膀和短短的鳥喙。你大概會先畫出鳥的大概輪廓，之後檢查修改一下，繼續想想黃色的身體部分，然後用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀，最終檢查一下，畫上短短的有些發亮的鳥喙。為了使之更生動形象，你或許會畫上鳥所棲息的樹榦。

　　如今，機器人也可以如你一樣做到這一點了！

　　微軟研究院正在開發的新 AI 能夠從整句文本描述中準確捕捉各個詞語的含義並生成圖像。論文中表示，根據行業標準測試的結果，這項技術產生的圖像質量與之前的文本到圖像生成技術相比，提高了將近三倍。

　　

　　研究員們把它簡單地稱之為繪圖機器人，該技術可以生成從普通的田園風光（如放牧家畜）到荒謬無意義的（如浮動的雙層巴士）所有圖像。每幅圖像都包含了文字描述中沒有提及的細節，表明該人工智慧技術擁有一種人造的想象力。

　　「如果你用 Bing 搜索一隻鳥，你會得到一張鳥的圖片。但是在這裡，圖片是由計算機逐個像素地從頭開始創建的，」位於微軟在華盛頓州雷蒙德市的微軟研究院深度學習技術中心的首席研究員和研究主管何曉東表示，「這些鳥在現實世界中可能不會存在——它們只是表明了計算機對鳥類想像力的一個方面」。

　　這項繪圖機器人技術完成了他和他的同事在過去五年中，探索過的計算機視覺和自然語言處理的交叉學科研究。他們從自動編寫圖像描述 AI（CaptionBot）的技術開始，然後轉向另外一種技術，回答人類對圖像提出的問題，例如對象的位置或屬性，這點對盲人特別有用。

　　這些研究工作需要訓練機器學習模型來識別對象，完成行為和自然語言間的交互。

　　「現在我們要用文字來生成圖像，」該組織的博士后研究員，論文合著者 Qiuyuan Huang 表示，「所以，這就是一個循環。」

　　圖像生成是一個比圖像字幕更具挑戰性的任務，團隊中的副研究員 Pengchuan Zhang 補充說，因為這個過程需要繪圖機器人想像沒有包含在標題中的細節。他說：「這意味著你需要運行人工智慧的機器學習演演算法來想象一些圖像中的缺失部分。」

　　細緻的圖像生成

　　微軟繪圖機器人的核心是一種被稱為「生成對抗網路」（Generative Adversarial Network，GAN）的技術。網路由兩個機器學習模型組成，一個是生成器，從文本描述生成圖像，另一個稱為鑒別器，使用文本描述來判斷生成圖像的真實性。生成器試圖通過假照片騙過鑒別器，同時鑒別器進行判斷。二者迭代更新，不斷提高生成器的表現。

　　微軟的繪圖機器人在包含對應圖像和圖像描述的數據集上進行了訓練，這可以讓模型學習如何將單詞與這些單詞的可視化圖片表示相匹配。例如， GAN 學會在標題說鳥的時候生成鳥的圖像，並且同樣學習鳥的圖像應該是什麼樣的。何曉東說：「這是我們相信機器可以學習的根本原因。」

　　當從簡單的文字描述（例如藍鳥或常青樹）產生圖像時， GAN 可以很好地工作，但在更複雜的文本描述中效果不佳，例如具有綠色的冠、黃色的翅膀和紅色腹部的鳥。這是因為整個句子作為了生成器的唯一一個輸入，其中的詳細信息發生了丟失。因此，生成的圖像是一種模糊的帶綠色和微黃色的鳥，而不是與描述中的辭彙緊密匹配。

　　在人類的繪畫過程中，我們會反覆看描述文本，花不少注意力確認我們正在繪製的圖像和對應單詞描述是否相符。為了捕捉這種人的特質，研究人員創建了稱為 attentional GAN或 AttnGAN 的新模型，它在數學上模擬了人類關注的概念。它將輸入文本分解為單個單詞並將這些單詞與圖像的特定區域相匹配，從而實現目標。

　　

　　「注意力是來自人類的概念，我們這次用數學的方式把注意力變得可以計算。」何曉東解釋說。

　　該模型還從訓練數據中學習到了人類稱為常識的東西，並且利用這個學習的概念來填充留在想象中圖像的細節。例如，由於訓練數據中的許多鳥類圖像中，鳥都是坐在樹枝上的， AttnGAN 生成的圖像里鳥也就棲息在樹枝上，除非文本另有規定。

　　「從數據來看，機器學習演演算法學到了鳥站在樹枝上應該就屬於常識，」Zhang 說。作為測試，研究人員們給繪圖機器人輸入了奇怪的文本描述，例如「一輛紅色的雙層巴士漂浮在湖面上」。它生成了一個模糊的，飄逸的雙層巴士圖像，類似於兩層甲板船或雙層甲板船，漂浮在群山環繞的湖上。這張圖像表明 AI 內部出現了爭執，「能漂浮在湖泊上的是船」和文本明確描述的「公共汽車」之間有著矛盾。

　　

　　「我們可以控制我們描述的東西，看看機器如何作出反應。」何曉東解釋說，「我們可以干涉和測試機器到底學到了什麼東西。這台機器已經學到了一些作為背景知識的常識，但它仍然可以按照你所要求的樣子來生成圖像，不過生成的圖像有時候看起來很滑稽。」

　　實際應用方面

　　這項文本到圖像的生成技術可以運用到實際應用中，可以作為畫家和室內設計師的草圖助手，或作為語音控制的照片美化工具。如果有更強大的計算能力，何曉東認為這項技術可以根據電影劇本直接生成動畫電影畫面，為電影製作人減少一些需要人工的成本。

　　但就目前來看，這項技術還不完善。如果仔細查看生成的圖像，幾乎總能發現瑕疵，例如藍鳥喙，而不是黑色的，水果和基因突變的香蕉長在一起。這些缺陷清楚地表明，是電腦而不是人類創造了這些圖像。儘管如此， AttnGAN 圖像的質量比以前最好的 GAN 圖像質量提高了近 3 倍，並且這是通往增強人類自身能力的類人工智慧道路上的一個里程碑。

　　「為了讓人工智慧和人類可以生活在同一個世界，他們之間必須找到一種互相交流的方式。」何曉東說，「語言和視覺是人類與機器交流的兩個最重要的途徑。」

學界 | 來認識認識微軟的「畫家 AI」

瀏覽過的版塊