360首席科學家顏水成：人工智慧雜談 | 北大AI公開課筆記

非常時期 · 發表於 2018-5-2 11:09

　　2018-05-01 12:57人工智慧/360/視頻

　　主講人：顏水成 | 360首席科學家

　　整理：俞晶翔倫敦

　　4月25日周三晚，北京大學「人工智慧前沿與產業趨勢」第九講，本期360首席科學家顏水成，分享了人工智慧的理想與現實，深度學習的模型與應用，也為大家介紹了人工智慧與安全的關係。

　　講解內容清晰透徹，量子位作為獨家合作媒體，為大家帶來詳細課程筆記一份。

　　課程導師：雷鳴，天使投資人，百度創始七劍客之一，酷我音樂創始人，北京大學信科人工智慧創新中心主任，2000年獲得北京大學計算機碩士學位，2005年獲得斯坦福商學院MBA學位，同時也是「千人計劃」特聘專家。

　　主講嘉賓：顏水成，360集團副總裁、人工智慧研究院院長，千人計劃特聘專家，IEEE Fellow, IAPR Fellow 及 ACM 傑出科學家。他的主要研究領域是計算機視覺、機器學習與多媒體分析，發表了500+篇高質量學術論文，2014、2015、 2016 三次入選全球高引用學者 ( TR Highly-cited researchers )。

　　他領導的團隊是計算機視覺領域兩個核心競賽Pascal VOC 2012收官之戰和ImageNet 2017收官之戰的雙料冠軍團隊，曾取得多媒體領域核心會議 ACM MM 最佳論文獎，最佳學生論文獎，最佳技術演示獎的大滿貫。

　　人工智慧理想與現實

　　今天我更多是作為北大校友，分享自己從學生到老師，從學術界到工業界，在AI上趟過的一些坑，並不是一場深度的學術討論，其中大部分內容已在過去兩年的行業會議上分享過。以下是今天的topics：

　　

　　人工智慧的理想

　　人的天性會追求成功。對於AI從業者來說，不同的角色成功的標準是什麼呢？一幫朋友和我有過這樣的討論：

　　1、AI的PHD，如果畢業前能有第一作者單篇引用過百的論文，基本可以說是一個非常成功的PHD畢業生；

　　2、AI 的研究者，比如說研究所或者高校的教授，如果有第一作者單篇引用過千的論文，那麼基本可以說是AI領域非常不錯的研究者。

　　3、AI的創業者，假如說要做APP相關的產品，如果有一款產品的DAU能達到五千萬的話，在中國就算非常成功了。

　　

　　價值在於稀缺性，現在每年AI相關論文有四千多篇被接收。因為不稀缺，所以量已經不那麼重要，單篇影響力反而更重要。

　　AI表面上看起來風頭正盛，但是現實其實還非常的骨感。

　　

　　比如說在自動駕駛方面，在2016年，特斯拉就因為沒有識別出大貨車，直接撞上導致了交通事故；今年Uber在路測中，撞上了橫穿馬路的人。對於自動駕駛，一些公司有些過於樂觀，而當前技術其實並沒有達到期望水平，前面的路還很長。

　　記得有位前輩說過一個很有趣的假設：假如發生了一場災難，地上的車道線都沒有了，旁邊的參照物也都沒有，你會願意把你的生命交託給自動駕駛車輛，還是希望這輛車有一個方向盤由自己來把控？短期內，我們不要太期望路上跑的車都是自動駕駛的。

　　

　　而對於情感機器人，大家都有一個夢想：可以通過語音與虛擬角色進行情感交流。電影《超能查派》中的機器人，我覺得是未來情感機器人最可能的樣子：機器人在一開始具備一些基本的能力，能夠在路上行走，進行簡單交流，他的智能是通過和周圍環境裡面的人進行交互，以及機器人自己在家裡看一些影視材料，去逐步提升的，最後具備接近小朋友水平的智能。

　　然而現在的現實是什麼呢？這是我跟一個已經非常成功的聊天機器人聊天的過程：

　　「我想出去旅遊」「泰國吧」

　　「多少銀子？」「五百以內…」

　　「瞎扯」「我不想說什麼了」

　　「夏威夷如何」「夏威夷那地方好啊。」

　　「什麼好」「很好啊。」

　　「什麼東西好」「沒什麼好東西。」

　　開始還不錯，到後面就和上下文完全無關了。核心的原因在於聊天機器人的整個原理主要還是參考搜索技術，和人的溝通機理是完全不同的。

　　此外，人類一直擔心機器人的安全性。去年在深圳的高交會上，機器人砸了玻璃傷到了人，無論當時具體情況是怎樣的，反映出人類對機器人的安全性一直處在驚弓之鳥狀態。

　　人工智慧的現實

　　

　　人工智慧具體在幹些什麼呢？從交互的角度來說，主要處理人、網際網路、物聯設備、物理世界這四者的關係，涉及到的數據包括視覺、語音、語義、大數據。

　　

　　人工智慧研發有三種不同的狀態：

　　初創公司，專註於某一產品或者某一領域，所有研發者都非常聚焦。百億美金級公司，比如Pre-IPO的公司，公司內部往往有一個AI實驗室/平台部門，對這個公司所有的AI需求作全方位的支持。千億級美金的公司，每個事業部有各自的有側重點的人工智慧團隊，當公司準備啟動一個AI的新產品，不同的團隊可以提供不同的方案，勝出者則主導這個產品，對於大公司來說這對於保障成功性很有意義。

　　對於AI研究者，應提前清楚自己喜歡的風格，然後確定自己進哪種公司發展。

　　

　　人工智慧解決兩類不同的問題：一類問題是soft-tasks，只要有一點點進展，就能帶來很及時的效益，比如說廣告推薦技術，每提高一個百分點，都具有非常大的價值。另一類是hard-tasks，很長一段時間是默默無聞的，要等技術積累到一定水平，性能達到一定閾值，才能快速推動商業化。

　　你是想做一個時刻都被關注的人，還是想先默默無聞，最後爆發，在選擇公司和業務的時候也需要做一個提前的考慮。

　　人工智慧的四元分析

　　接下來用四元分析的方法來跟大家介紹在學術界和工業界做人工智慧的差別。

　　

　　2016年大家都在討論，人工智慧具有三要素：演演算法、算力、數據；而在2017年，大家開始重視場景，能落地的AI才有價值。

　　

　　在學術界，比如說在深度學習領域，往往導師會先把問題定義好，學生們要做的事情就是想盡一切辦法，讓這個問題求解的精度達到一個新的極限。比如說用更好、更大、更快的模型，更多的模型融合，同時希望有更多的計算機資源，有更便捷的訓練平台，更好的經驗參數，最終追求的是精度，發表有價值的學習論文，同時希望些方法具有普適性，可以幫助其他問題的求解。其次也希望做出來的東西能開源，社會上大大小小的公司都可以充分利用你的開源來提升自己的商業化能力。

　　

　　在工業界，大家清楚AI只是一種技術，並不是最終產品，這是從學術界進入到工業界會面臨的一個很大的挑戰。可能在學術界很成功，進入工業界的時候，會發現純粹的技術能起到的價值，有百分之三十，或者百分之四十，就已經非常不錯了。

　　要達到一個好的產品體驗，有後端的因素，比如訓練平台的架構，後台服務系統，如何保障幾千萬DAU運作的時候系統不會崩潰。未來在特定場景下，可能還希望AI硬體化；涉及到前端的演演算法工程化，產品的外觀設計，產品的市場營銷等，都是非常重要的。

　　AI的價值，必須跟具體的業務場景相融合，業務場景為人工智慧提供有壁壘的數據，然後再訓練出更好的模型，用到場景里繼續產生新的更有價值的數據，不停地迭代才能發揮好的價值。

　　同時，作為演演算法科學家進入工業界，需要明白：沒有完美的演演算法，需要產品等其他工程師一起把不完美的演演算法打造出沒有瑕疵的用戶體驗。很多時候演演算法工程師和產品工程師無法做出完美產品的原因是信息不對稱。

　　比如人臉的技術用於娛樂這個應用，更換人臉，技術是不完美的，一定會有抖動，不可能產生滿意的用戶體驗；而如果不是換人臉，只是加一個花環，或者其他的裝飾，即使技術不完美，但從用戶體驗來說，帶來的這種愉悅感是沒有問題的。這就是典型的演演算法+產品，儘管演演算法不完美，但用戶體驗不受影響。

　　另外工業界做一個基於AI的產品，需要考慮四個維度：

　　1、在學校時有一個想法，做一個demo，寫一篇論文就行；但在工業界一定要能滿足人的高頻剛需，這個產品才可能是成功的產品。

　　2、技術要成熟。如果現在要追求像《her》那樣的情感交流，技術不可能。

　　3、要有技術壁壘。現在這個時代很容易被競爭對手，或者大的公司，通過砸錢的方式直接斃掉了。無論是工程開發，還是後台的穩定性，以及投入的金錢，都是沒法跟大公司PK的。

　　4、商業變現模式。在學校思考得非常少，但工業界一定要做思考。沒有商業變現模式的公司遲早要遇到瓶頸和問題。

　　

　　由上面的分析可以看到，人工智慧研發的目標之一是學術界追求的精度極限，把場景和數據固定，在算力沒有約束的情況下，通過演演算法改良達到精度極限。

　　根據四元分析，其場景和數據是固定，通過提升算力和演演算法來達到精度極限，比如大家經常參加的ImageNet競賽，LFW-人臉的競賽，TRECVID-視頻的競賽, Switchboard-語音競賽，基本上都屬於這個範疇。

　　

　　而由工業界驅動的產品體驗極限追求，則把場景、算力固定。在這種情況下，不斷提升在特定場景情況下的數據積累，並提升演演算法，最後數據、演演算法、場景形成閉環，不停的迭代，最終達到產品的用戶體驗極限。

　　

　　學術界和工業界各有側重。學術界更看重演演算法極限，更多的是「用腦「，而工業界則更多考慮如何讓用戶有最佳的體驗，更多的是」用心「。很多公司覺得這兩個方向都非常重要，於是開始組建自己的AI Lab：精度極限瞄準前沿，瞄準可能是半年以後，或者一年以後公司的戰略方向，而產品體驗則保障在當前具體場景的技術落地。

　　深度學習模型發展

　　

　　接下來跟大家回顧一下深度學習模型近年的發展歷程，哪些方向是大家要注意的。

　　PASCAL VOC競賽總共舉行了八年，ImageNet競賽也舉行了八年，我帶領的團隊一共也參加了八年的競賽。早期比賽的時候，使用的主要是shallow learning的模型，利用人工方法設計出新的feature，這些feature再輸入到主要是SVM的分類器做訓練。而深度學習則是將特徵學習、分類器的學習融合到一個統一框架，基本從2012年開始就變成主要的參賽演演算法。

　　

　　2012年提出的最早的AlexNet模型，是一個5+3的結構，前面五層是卷積層，後面三層是全連接層。當時效果非常好，但是這個模型實在太大了，現實生活中沒辦法到手機上去部署。

　　

　　後續一個比較有價值的進展，是一個叫Lin Min的小夥子（我的PhD學生, 現在跟Bengio在做博士后）提出來的Network in Network。當初的想法是人的神經元具備非常複雜的結構，卷積外加非線性操作很難模擬它的功能，應該用一個更加複雜的結構來替代，這個結構可以是任意的網路結構；如果這個網路是一個多層感知機的話，那麼這種網路就變成了在通常的3×3，5×5卷積的基礎上，增加1×1卷積，從而提出一個1×1卷積的概念。

　　同時後面的全連接參數太多，容易overfitting，可以扔掉。既然前面有了比較複雜的子網路，後面則只要用Global average pooling，就可以得到我需要的feature。

　　1x1卷積對這個領域產生的價值是：可以讓深度學習模型訓練得非常非常的深。舉一個最簡單的例子，如果要訓練一個一千層的網路，如果都用3X3的卷積，每往上一層，receptive field就會增加2；那麼訓練了1000層，第1000層的一點對應到原圖至少是一個2000×2000的receptive field。而1x1卷積沒有改變receptive field，所以他能保證最後一層的每個點，還有機會能夠對應原圖裡面一個比較小的receptive field，這是1X1卷積起到的最主要的價值。

　　因為去掉了全連接層，網路的參數就變得非常少，由原來幾百兆的模型，當時可以減少到幾十兆，跟Alexnet還能有相當的性能。

　　

　　深度學習模型GoogleNet

　　GoogleNet借鑒了Network in Network的子網路和1x1卷積的思想，子網路設計得更加複雜並且非常合理，每個子網路擁有多通道，既有1×1的卷積，也有1×1，3×3的疊加，1×1，5×5疊加，或3×3 max pooling，1×1的疊加，可以實現多種尺度上的perception。 GoogleNet把自己的網路結構也叫做network in a network in a network。

　　

　　Residual Networks

　　大家知道Residual Networks起到了里程碑式的作用。可以看到1×1的卷積變成大部分後續新的網路結構 (Residual Networks, Densely Connected Neural Networks, Dual-path Networks, …) 中不可或缺的子模塊。在Residual Networks中，1x1的卷積把256個channel變成64個，然後做3x3卷積，再用1x1的卷積升維到256，從而起到加速和減少參數的作用。

　　

　　深度學習模型：GAN

　　最近兩年，最讓人exciting的進展應該是GAN，生成對抗網路模型。準確的說是一種模型學習方法，不是模型結構進展。

　　它的基本思想是要學習數據生成模型。利用生成模型來合成圖像，同時學習一個判別模型，使其盡量區別生成模型合成的圖像和真實的圖像，最後完全不可分的時候，從理論上說生成圖像分佈和真實的圖像分佈則是一樣的，這樣就可以得到各種各樣非常真實的生成圖像。

　　

　　Cycle-GAN

　　Cycle-GAN則是GAN令人exciting的進一步拓展。

　　它有兩個域，目標把一個域的圖像轉換到另外一個域的圖像，但是沒有任何1-1對應的圖像。一張圖片從一個域變到另一個域，一方面滿足生成圖片的真實性，同時生成圖像轉換回原來的域，需要跟原來圖像盡量相似。這種思想可以把任何一種自然圖像變成梵高的風格，把真實圖像和畫的圖像互換，把沒有景深的圖像變成有景深的圖像等等。

　　

　　STAR-GAN

　　

非常時期 · 發表於 2018-5-2 11:10

STAR-GAN則在Cycle-GAN的基礎上具備以下特點：

　　1、通過Adversarial Loss約束生成圖像的真實性。

　　2、通過Domain Classification Loss約束生成圖像的標籤滿足。

　　3、通過Cycle Reconstruction Loss約束生成圖像與輸入圖像的相關性。

　　4、通過多庫聯合訓練方式提升圖像生成質量。

　　Star-GAN的結果是非常令人exciting的，給定任意一個頭像，可以換髮型，性別、年齡，加上粉底，甚至可以把原來的表情換成生氣、開心、害怕等等，圖像都非常真實。

　　

　　深度學習應用

　　ImageNet競賽是第一個海量圖片資料庫，開啟了deep learning的時代，在其上精度的提升也是有目共睹的。這個比賽是深度學習研究的最大推動者。

　　在具體垂直領域，深度學習取得了非常好的效果。比如說人臉檢測，最新的成果在FDDB資料庫上是人臉總誤檢數為100的情況下，檢測正確率達到了97.8%。最終檢測不到的都是一些非常模糊的人臉或者是被遮擋的人臉。

　　人臉特徵點定位，最新的成果在300-W資料庫上是平均誤差率只有4.38%。

　　另外圖像「翻譯」成自然語言也非常有前途，但是目前做的還不是非常好。5G的發展，實時的視頻流會非常多，如果有演演算法可以由視頻生成caption，做推薦和搜索都會更容易，但是現在的演演算法，還無法生成令人滿意的個性化的caption。

　　此外還有語音、語義、大數據等應用。語音、語義部分前面大家已聽過其他講者的分享，今天就不介紹了。大數據這一塊很有意思，大家都在想：深度學習會不會給大數據領域發生天翻地覆的變化。我們以及很多朋友的經驗發現，早期的時候數據清洗的重要性遠比模型要重要，當數據這個維度達到極致后，演演算法才能發揮大的價值，產生核心競爭力。

　　360的AI：研發與應用

　　

　　360是一家以安全為使命的公司，其業務場景既有網路空間上的360安全保護，也有對應物理世界安全的產品包括兒童手錶，攝像頭，機器人，行車記錄儀等。上述安全保護軟體則幫助推動內容服務的產品，例如360搜索。

　　

　　360人工智慧有三大方向：泛安全智能，短視頻智能，大數據智能。這些能力的保障包含兩部分，一是深度學習計算平台，保證圖像、語音、大數據分析能力的大規模GPU平台能快速訓練；二是在線雲服務的平台，可以在大用戶訪問量的情況下不崩潰。

　　人工智慧：AI vs. 安全

　　

　　針對安全和智能的交叉，我們提出「智能體」的概念。智能體，泛指與AI相關的代碼、訓練平台、服務系統、智能設備等。

　　一方面，AI可以提高綜合安全的能力，既包括網路空間的攻防能力，也包括物理世界人身安全的防護能力。

　　

　　另一方面，安全的能力可以幫助檢測智能體存在的安全隱患。比如AI感測器/數據安全，AI軟體安全，智能硬體安全。比如攝像頭存在失效或被誤導的可能性，像Mobileye的攝像頭在激光筆的光束下，很容易致盲；假的車道線也可能誤導自動駕駛系統。

　　而Tensorflow、Caffe框架的依賴庫中存在bug，一些研究者(360的李康教授團隊)發現可以通過這些bug，攻擊AI服務系統，達到劫持伺服器的目的。智能硬體也容易被攻擊，因為硬體往往需要聯網，而一旦聯網就會產生網路空間的攻擊，帶來物理世界的安全問題，比如特斯拉、比亞迪等汽車都有被黑客控制劫持的案例，這種安全問題已成為車聯網產業發展的重大瓶頸。

　　人工智慧：產業雜談

　　

　　由於時間限制，我們僅稍微討論一個產業場景。

　　AI+區塊鏈

　　今年區塊鏈的火爆程度甚至高於AI，那麼區塊鏈和AI是否有合力的空間呢？

　　我們發現有3家公司在該領域有不錯的進展，分別是Ocean，Cortex以及Raven PROTOCOL。Ocean是關於數據交易和共享的，走的是利用區塊鏈進行數據共享和交換的商業模式。 Cortex是關於在線inference的，目標是將AI模型融入智能合約以產生更大型的商業場景。而Raven PROTOCAL則瞄準利用閑置資源進行分散式計算的商業模式。

　　最後拋出一個問題，如果沒有ICO運轉，我們如何找到高頻剛需來很好地結合AI和區塊鏈？

　　雷鳴對話顏水成

　　在AI+視頻研究上，你認為未來幾年會有一些巨大的突破嗎？

　　現在做視頻分析研究，一方面存在標註數據的限制，與圖像資料庫不同，視頻數據具體應該標註什麼有些時候也不清楚。另一方面，即便知道標註的內容，標註的代價也很大。

　　最近幾年，基於圖像特徵、motion特徵的雙網路來做視頻分析效果很不錯，後面的進展不是很大，現在無法預言哪種技術最優，我們只能由最終的效果來判斷哪個好。

　　要推動視頻分析的發展，更重要的在於現在的產業公司，他們如果能夠由國家統一起來建立起很大的資料庫，那麼所有人就可以在這個資料庫基礎上去攻克技術問題，然後就會自然而然地在技術路線上進行推動。

　　視頻分析的核心當前還是歸結於圖像部分，在圖像單幀分析的基礎上，將圖像時序融合表示成視頻的特徵。目前能想到的方案不是很多，個人覺得圖像分析的基礎模型還會是推動視頻分析的關鍵點。

　　另一方面，圖像分析目前的複雜度就很高，視頻分析中，除了提高精度的模型研究要往前推進的同時，還要思考如何降低計算的複雜度。降低計算複雜度有助於我們迎接5G時代大規模高清直播視頻爆發的到來。

　　你對於AR的未來發展的觀點是什麼？比如未來會以一種什麼形態發展？還有就是你對AR和AI關係的看法？

　　AR眼鏡的必然性：從PC到手機，用戶可使用場景和時長提升了非常之多。而對於手機，其最大的瓶頸是必須用手拿著，要繼續增加使用場景和提升使用時長，最好的方式就是將手機的功能轉移到眼鏡上，保證24小時所有場景均可在線。

　　商業方面，無干擾實時智能增強是AR眼鏡最吸引人的地方，可以用在生活的方方面面，在各種場景上提供幫助與互動，彌補一些手機無法做到的輔助功能，例如記錄曾遇到的人，實時見人識名。在AR眼鏡上，很多以前信息與人交流的方式會變得不一樣，類似從PC到手機的變化，這些變化將產生更多新的商業機會，誕生更多新的百億美金公司。但當前，AR眼鏡確實還存在有很多問題，比如光學系統，電池，內容生態等等，然後這些不影響AR眼鏡一定會是未來。

　　AR眼鏡具備和人幾乎一樣的視角，聽覺位置，平常使用的語音識別，TTS，語義理解，實時在端上的基於視覺的理解，都是對AR眼鏡至關重要的能力。視覺分成兩個維度，一個維度是物理感知，感知深度信息，包括3D重建，SLAM等。另一個維度是語義感知，具體知道是什麼東西。AR眼鏡需要物理感知和語義感知相融合，才能提供高質量的服務。

　　你從科研界到產業界的轉變過程中有沒有遇到一些挑戰和困難，包括你在科研上定目標和管理，當在業界之後科研和研發團隊的不同點？

　　工業界的AI研究，更多時間需要思考AI怎麼在場景中能更有效率，從研發的角度需要從精度往速度上偏移。

　　從學術界到工業界，開始不要想著能解決所有問題，先從公司的一個重要場景出發，把演演算法和數據相互融合，開始不要一味追求模型精度的提升，因為開始的時候數據分析帶來的價值更大。演演算法的攻堅更適合在商業邏輯完善，數據流程清晰之後。

　　下期預告

　　本周三放假，大家好好休息~ 5月9日（下周三）繼續學習~

　　感興趣的小夥伴可以添加量子位小助手6：qbitbot6，備註「北大」，通過後可進入課程活動群，獲取每期課程信息，與其他小夥伴互動交流。

　　祝大家聽課愉快~

　　學習資料

　　在量子位微信公眾號（QbitAI）界面回復：「北大AI公開課」，可獲取本次講座的視頻回放，以及前八講的相關學習資料~

360首席科學家顏水成：人工智慧雜談 | 北大AI公開課筆記

瀏覽過的版塊