CNCC | 微軟全球執行副總裁沈向洋博士：理解自然語言：表述，對話，意境

非常時期 · 發表於 2017-10-28 09:49

　　2017-10-27 23:48微軟/計算機/人工智慧

　　由中國計算機學會（CCF）主辦，福州市人民政府、福州大學承辦，福建師範大學、福建工程學院協辦的2017中國計算機大會（CNCC2017）於今日（10.26）在福州·海峽國際會展中心正式開幕。今年大會的主題是「人工智慧改變世界（AI Changes the World）」，在上午的特邀報告環節，美國國家工程院院士、微軟全球執行副總裁、ACM/IEEE Fellow沈向洋博士帶來了主題為《理解自然語言：表述，對話，意境》的分享。

　　以下為他的分享內容：

　　非常高興今天來到美麗的福州，感謝大家的邀請。我今天的主題是《理解自然語言：表述，對話，意境》，今天主要給大家講的是人工智慧中我個人覺得最重要的研究方向。

　　

　　得益於大計算，大數據和精準模型，人工智慧在近年來快速發展，特別是在深度學習方面。

　　

　　另外還有感知和認知，感知中的視覺和語音進展飛速，而認知和語言、理解的發展速度有限。

　　

　　我們感知研究的飛速發展，有兩個方面，一是計算機視覺圖像識別，二是計算機語音識別合成。

　　

　　我們先來講語音識別，微軟目前在標準測試上的精度已經達到人類水平，最新的誤差率到5.1%。大家都知道，就算是人類的誤差率，也分普通人的誤差還是專家的誤差。我們今天做的這個效果非常好，誤差率比專家的水平都要低。

　　

　　下面是我們研究的152層殘差神經網路，我們在訓練神經網路的時候遇到了很多困難，比如到底要多少層才能做到最優的結果。

　　

　　深度學習在圖象識別中的總體趨勢是更深更准。下面有一個簡單的介紹，可以看到，這幾年隨著模型的深度越來越深，誤差也越來越低。

　　

　　前面都是我的鋪墊，接下來進入正題。我認為，在下一個十年裡，人工智慧的突破在自然語言的理解，我最近老講的一句話就是「懂語言者懂天下」。

　　

　　我們自己理解自然語言的三層層次是機器學習、機器智能、機器意識。第一層是怎麼去表述，我們用機器學習就可以學到很多東西。第二層就到了機器智能領域，對話以及提問，這一步就比較困難了。第三點就是到了機器意識，意境，比如說為什麼有的人講的東西你覺得比較有深度，就是從這個角度來講。實際上這三個層次的東西是可以轉換的。我們小的時候寫作文，第一步是記敘，第二步是論證，第三步就是當你文章開始寫得有點水平了，我們就開始寫詩歌，寫散文。

　　

　　我今天有機會從這三個方面和大家探討。第一步就是已經做的相當不錯的機器語言，我用兩個微軟的工作來介紹，第一個就是微軟認知服務，第二個就是微軟應用軟體。

　　

　　第一步我簡單介紹一下什麼是API，這裡有一張圖片，這張照片上面有關於這個人的表述，這個人的動作、表情等。

　　

　　大家有興趣也可以到微軟的網頁上看到更多介紹，我們還有很多其他視覺的服務。

　　

　　我想跟大家解釋一下這裡面研究的問題是什麼，其實就是圖像的描述，以及它想解決什麼樣的問題。首先你要有一個語義空間，要把圖像與文字聯結起來。通過深度結構語義模型把圖像和文字均表徵成語義空間內的向量，在此空間中進行語義相似度計算。

　　

　　就算我們有很好的想法，如果不去做系統，那麼大家就看不到你的問題在哪裡。我們有一個項目，裡面會有很多用戶提供問題，其中很好的一點就是用戶會幫助你提供建議，以及發現系統的問題。比如在系統中的有些場景下，我們覺得不好，但是用戶覺得好，或者我們覺得還行，但是用戶覺得也不行，另外也有我們和用戶都覺得不行的部分。

　　

　　在做大數據的時候，大家要明白，一定要去分析數據。其好處就是不斷迭代，接下來會越來越好。微軟的圖像描述服務系統已經根據收集到的用戶數據進行了多次迭代。

　　

　　圖像描述目前在現實生活中也有應用，比如微軟每天服務數百萬微軟辦公軟體用戶，並應用Seeing AI軟體服務盲人。我覺得從描述這件事情上，就可以有很多應用。

　　

　　接下來我想講的就是機器智能。第一就是對話即智能，從回答問題到提出問題，從一問一答到連續對話，之前是機器閱讀理解，之後是問答對話生成。

　　

　　在閱讀文本及提問時，首先要深度理解語言，不僅要回答問題，還要能提出問題，閱讀並找出關鍵點，圍繞關鍵點生成問題。比如講讀了一段文字以後，對它的理解怎麼體現出來，或者我讀了這篇文章我可以自己提問，另外還可以回答。

　　

　　我再簡單解釋一下，這裡有一個記憶機制，並且需要端到端對話生成模型。要在回復生成的過程中提煉主要的觀點，然後綜合對話情感，用戶畫像以及記憶，一個對話往往會發生多次話題的轉換，時間越長的對話，越有機會被自然地引導入期望的話題。

　　

　　第三點就是我上面提到的，理解和表達意境。從機器描述到機器對話，到底智能體現在哪裡？講圖片的時候，你可以理解和表達意境，可以有意識的腦補。圖片評論就是從客觀描述到主觀評論，但再到天馬行空的意境，就是只可意會，不可言傳的境界。

　　

　　到現在，人工智慧的研究是通過人做一些東西，再加上環境，有這個的一個表徵。通過你的輸入，機器把這些輸入進來的信息做成機器語言，再進行深度學習。今天絕大多數人工智慧的科研都是停留在這一步，真正有意義的、對人類有貢獻的，就是要對機器的結果進行反向推理。我們來看一下Image Caption的進步，它的表述和評論都充滿了人情味。

　　

　　微軟最近上線的一個比較激動人心的消息就是小冰寫詩，下面就是講生成詩歌的過程。生成單句詩：前向RNN模型+反向RNN模型；生成整句詩：基於遞歸神經網路的層級生成模型。

　　

　　下面是小冰寫詩的兩個例子，這是由照片到詩歌的創作過程：

　　

　　我再講講微軟對話式人工智慧產品的布局，第一個就是智能搜索，第二個是智能助理，第三個是智能客服，第四個是智能聊天。

　　

　　我覺得每一次時代的變遷，都是在重新定義人類和世界的關係。

　　

　　現在人類到世界之間，AI最了不起的就是對我們人腦的理解，可以從IQ和EQ兩個方面說起。任何一個時代你都要思考什麼改變了我們的生活。

　　

　　最後講一下，小冰目前已經登陸中日美印尼五個國家，具體如下圖所示。

　　

　　最後我要強調一句：「懂語言者得天下」。「不要人誇顏色好，只留清氣滿乾坤」。我的演講到此結束，謝謝大家。

　　演講結束之後，沈向洋博士與媒體進行了簡短的交流，以下為媒體提問。

　　問：沈老師您好，微軟上個月先是和Facebook一起推出ONNX，然後又聯手亞馬遜，推出了一個深度學習庫Gluon。與這些企業聯手，對於微軟有什麼重大的意義？

　　沈向洋：我覺得道理很簡單，就像前面提到的，傳統以為計算機大會都像微軟或者是真正做計算機軟硬體的企業為主，其實我們今天看了一下，有很多自然學科、基礎學科的公司也都參與其中了。融合是一個大趨勢。這個事情的發展剛才梅院士也提到了，這個世界到今天只有開放，開放合作才是王道，因為今天整個這樣的發展，要向前走。

　　最近針對深度學習，微軟做了三件事情：

　　1、我們和Facebook（現在已經有很多其他的公司也加入了）的合作，包括Intel等等，我們做了一個中間層的東西，其實就是一個格式（ONNX），大家都轉化成這樣一個格式以後，你把深度學習的模型編譯到任何的系統上，運算的能力效率都會非常高，我們已經做了，還再繼續向前推。

　　2、開始深度學習的時候，你要去搭建深度學習的模型，用的界面是什麼？包括TensorFlow、MXNet、Microsoft CNTK等等，大家做了很多東西，其實這樣反而令程序員不知道到底要什麼，很多人覺得谷歌的TensorFlow做得好，事實上，其他的系統也有很多的優勢。

　　所以，我們幾家大的公司就站在一起，大家覺得還是應該合作，做一個公用的界面系統。所以我們最近也做了Gluon，大家粘在一起。

　　3、還是要有一個大家熟悉的編程環境，所以我們最近做了Microsoft Studio，希望有一個非常熟悉的編程環境，大家進來之後就是一些模型，可以Copy，一直編程到底層去。

　　我們會繼續和其他的公司以非常開放合作的心態。

　　問：您剛才提到Google的TensorFlow，TensorFlow現在覆蓋率很廣，微軟會和Google在這方面展開合作嗎？

　　沈向洋：會展開合作，我們一直都在合作，比如說ONNX，我們非常希望TensorFlow也把它做成中間層，我們都很Open，如果我們做這樣一個開放的系統的話，對任何的公司都是開放的。

　　問：沈老師，您在演講中提到微軟小冰，微軟小冰在微軟人工智慧生態的地位是怎麼樣的？

　　沈向洋：我剛才已經講了，對話是人工智慧產品線的話有四條線，我們現在都在做：智能搜索、智能助理、智能客服、智能聊天機器人。所以，對於小冰來講，實際上很多人覺得小冰好像不是很有用，只是隨便聊聊天，我個人的看法是完全相反的，它真正智能的地方是連續對話的能力在所有其他產品的能力之上。

　　問：傳統上，我們會以為計算機大會是以微軟或者是真正做計算機軟硬體的企業為主，但現場有很多自然學科、基礎學科的公司也都參與其中，現在越來越多的領域都會在一起，這種融合現象是未來的趨勢嗎？

　　沈向洋：這是必須的，我1980年上大學的時候，很多大學還沒有計算機系，中國的計算機系差不多是在1979-1981年這個階段才成立的。以前提到計算機是在哪裡呢？通常要麼是在數學系弄理論，要不然就是在自動化系做應用，或者是電子系，後來才真正成立了計算機系，美國最早成立計算機系也就是60年代中後期。

　　融合是毫無疑問的，但是接下來我覺得更加激動人心的地方是人工智慧在向後的發展。現在這幾年的發展，我覺得更多的是人工智慧在各個學科的融合，特別是腦科學、心理學、哲學，在這些方面我覺得會有更多的發展。腦科學是我自己最看重的一個領域，我覺得在基礎科研方面大家的投入還遠遠不夠，認識還遠遠不夠深刻，當然對於這個的研究我不是很深入。腦科學現在作為一項科學，還不那麼科學，科學就是你要做實驗，要有大量的數據，要重複實驗。而腦科學則很難，今天還沒有到這個階段。我相信以後10年、20年，腦科學家、AI是最基本的。

　　包括我今天講的自然語言的理解，我們對自然語言理解的不是很清楚，腦在處理這些東西的時候能夠給我們一些建議。

　　問：這次大會的主題是人工智慧改變一切，您覺得現在已經開始改變了嗎？而且您覺得下一個爆發點可能在哪個領域？

　　沈向洋：我剛才在演講裡面講到了，實際上這個世界人工智慧是有兩個方向的：

　　一是感知，二是認知。

　　最近感知方面的發展非常神速，主要是在計算機識別、計算機語音方面的。人之所以有智能，首先是我們能夠感知這個世界。大家可能不太清楚，比如說人的信息處理，進到腦子裡面信息量的處理91%是視覺的信息，然後是聽覺的信息，其他的觸覺相對比較小。

　　認知現在的發展還相對比較慢，首先第一步是自然語言的發展，包括很多推理，這些東西對世界和人、社會的理解都還有很遠的路要走。

　　最近的爆發點就是感知方面的意義，比如說像計算機視覺，最近「刷臉」在技術上越來越可行了，還有語音的合成，也有很多發展機會。我們做的一個激動人心的項目就是機器翻譯，實際上未來會有非常巨大的市場。大家可能不見得知道，全世界有6000種語言，一個人不可能都學會，學兩種語言已經很了不起了，講三種語言講得很好的人，這個世界上幾乎沒有。

　　問：目前來說，做哪些事情可以吸引更多的海外人才回歸？

　　沈向洋：我覺得海外人才回歸是大趨勢，很多人現在都回來了，不光是剛剛念完書的人，也有工作了很多年的人回來，包括我的很多同事都看到國內有非常多的機會，例如BAT。除了BAT，其他一些新的AI創業公司也有很多這樣的海歸人才。我覺得這非常正常，今天已經沒有地區性人才這個概念了，人才都是全局性的人才，你有能力去哪裡都一樣。舉個例子，RestNet的研究員賀凱明從微軟去了美國Facebook，他最近得了獎，我們都覺得非常自豪，我們培養出了這樣的人才，這樣之後中國就損失了一個人才嗎？我覺得也不必要這樣看，可能我們從Facebook、微軟和其他地方拉回中國的人會更多。

　　政府方面的話，這一年，政府和高校、研究機構從「千人計劃」開始，做了很多事情，我的教授朋友基本上跟國內的合作都做得非常好，例如今天演講的丘成桐院士的數學研究中心，也是一批非常優秀的中心。