國內人工智慧公司在國際大賽上拿了一堆第一，但你知道他們到底在比什麼嗎?

春到人間 · 發表於 2017-10-31 08:06

　　2017-10-30 21:13人工智慧/計算機/技術

　　作為人工智慧的一個重要分支領域之一，計算機視覺在商業化上已經取得了不可小覷的成績，這同時也讓學界關於計算機視覺的研究吸引了很多商業群體的關注。

　　此時此刻，在義大利的威尼斯，剛剛結束的 2017 年國際計算機視覺大會上，來自中國的曠視科技研究院在 COCO 和 Places 競賽中參加了 4 項比賽，並拿下了三項第一，一項第二，領先於微軟、Facebook 和 Google 等科技巨頭。

　　關注到這一優秀的成績，極客公園第一時間通過遠程語音採訪了遠在威尼斯的曠視科技參賽團隊的帶頭人姜宇寧，請他來為我們科普一下這場備受行業矚目的競賽。

　　兩個大賽：一個針對東西，一個針對背景

　　首先介紹一下 COCO 和 Places 這兩個競賽。

　　COCO 的全稱是常見物體圖像識別（Microsoft Common Objects in Context），起源於微軟出資標註的一個數據集，與此前著名的 ImageNet 比賽同樣被視為是計算機視覺領域最受關注和最權威的比賽之一，也是目前該領域在國際上唯一能彙集 Google、微軟、Facebook 以及國內外頂尖院校和優秀創新企業的大賽。

　　相較於更關注整體圖像分類的 ImageNet，COCO 重在圖像中的物體檢測，打個比方，對於一張幾條狗的照片，ImageNet 更注重參賽者能否將這張圖片歸類到「狗圖」那一類，而 COCO 則注重於你能否識別出圖片中的動物是不是狗，有幾條，分別出現在圖片上的什麼位置等。

　　目前 COCO 已經舉辦到了第三屆，前兩屆的冠軍分別是微軟和 Google。

　　今年的 COCO 比賽包含 4 個子項，分別是物體檢測、物體分隔、人體關鍵點檢測和背景語義檢測，曠視科技參加了前三項的比賽，姜宇寧也向我們解釋了這幾項比賽的具體內容。

　　物體檢測在上面已經有了基本的介紹，在計算機的交互界面上主要表現為用矩形框將物體框住。

　　

　　而物體分割則是在物體檢測上更進一步，不僅僅要確定物體在某一區域，還要對物體在圖片上的形狀做一個更加細節性的定位。接著拿上面的「狗圖」舉例，在物體分割的比賽中，參賽選手要讓計算機識別出每條狗在圖片上的具體形狀，最終表現在二維圖片上的效果類似於畫圖中的「描邊」。

　　人體關鍵點檢測技術主要針對於圖片中的人體，計算機不僅僅要識別出人的位置、確定在圖上的細節形狀，還要確定人的手、肩膀、腿等關鍵點的具體位置。

　　

　　不同於 COCO 對物體的著重，與之同期舉辦的 Places 競賽則更注重場景的檢測。今年的 Places 開放了 3 個子項，場景分割、物體分割以及邊緣檢測。曠視科技參加了物體分割，並在挑戰中擊敗 Google，贏得了該問題的冠軍。

　　

　　據姜宇寧解釋，場景分割即把物體和背景分割開來，繼續「狗圖」的例子，假使兩條狗在一起，物體分割就需要把兩條狗分割開來，而場景分割「只需要描 1 個邊就可以了」。

　　至於邊緣檢測，則是對不同物體的邊緣進行「分辨」，假使「狗圖」中還有一隻貓，那麼貓與狗的邊緣和狗與狗的邊緣在這項任務中是不同的。姜宇寧提到，這項技術比較難，今年只有 6 支隊伍參加，並且沒有一支隊伍取得了「看得過去的成績」，所以最後並沒有對這項比賽進行頒獎。

　　這些高大上的技術都有什麼用？

　　姜宇寧提到，其實物體檢測是「所有計算機視覺的技術中最基本、最重要但卻最不容易被大眾察覺到的一個關鍵步驟」。

　　就好像吃飯前要洗手一樣，現在計算機視覺一個比較熱門的應用是人臉識別，而在人臉識別系統中第一個步驟就是人臉檢測，「第一步就是把人臉找到並摳出來，再進行人臉識別。」

　　在曠視最重要的產品 Face++上，這樣的基礎性技術就非常重要。「在安防的視頻結構化的場景中，行人、車牌、車輛的目標分析，第一步就是找到目標；同樣在無人駕駛這樣的應用中，物體檢測技術也是一個非常非常基本的條件。」

　　

　　而人體關鍵點檢測技術則更多地應用於行為動作分析和人機交互的場景。

　　比如在監控和無人超市這樣的場景中，機器需要知道顧客有沒有拿東西，第一步就是檢測顧客的手「有沒有伸出去」，對機器來說，這需要它確定攝像頭拍攝下的顧客的手上一幀在哪，現在這一幀在哪，從而分析出顧客的手是否發生了移動。

　　

　　在很多體感遊戲機上，人體關鍵點檢測技術就得到了廣泛的應用。

　　總的來說，競賽的各項技術都是人工智慧應用中的基礎型技術，用姜宇寧的話來說，就是人工智慧企業的「內功」。

　　從某種程度上來說，包括曠視、商湯在內的多家國內企業和高校在 COCO 和 Places 這種國際權威的大賽上取得不錯的成績，其實是國內人工智慧行業硬實力的體現。當極客公園問到姜宇寧為什麼要出去參加這項比賽時，他說道，「最重要的是檢驗自己的『內功』，在比賽中發現平時的研究是否有疏漏不足的地方，其次是要鍛煉年輕的研究隊伍，這次參加比賽的團隊平均年齡大概只有 22 歲，很多人還是本科在讀。」

　　「沒想過要出去秀一下肌肉嗎？」

　　姜宇寧笑著回答說，「這也算是原因之一吧。」

　　頭圖來源：視覺中國

　　責任編輯：早優夫斯基

國內人工智慧公司在國際大賽上拿了一堆第一，但你知道他們到底在比什麼嗎?

瀏覽過的版塊