在這篇 paper 中,我們提出構建一個關係網路(Relation Network)來讓其學習如何比較(Learning to Compare),從而實現少樣本學習(Few-Shot Learning)。這個方法非常簡單通用,但是效果很不錯,在少樣本學習及零樣本學習的幾個基準數據集上都取得了相當好的結果。下面,我們就來好好聊聊這篇 paper。
2. 為什麼有這個 idea?
一般我們在 paper 中,並不會探討這個問題,就是這個 idea 是怎麼產生的。但是在這篇博文中,我就可以先說說 idea 本身。我們想既然人可以實現少樣本學習,那麼我們是不是應該先問這樣一個問題就是為什麼人可以實現少樣本學習?這個問題可能會比較寬泛,那麼我們把它具體化一下:為什麼人可以看到 iPhone X 一眼然後就可以認出它?我們很顯然會說:因為 iPhone X 醜陋的齊劉海,因為 iPhone X 背後的雙攝像頭是豎著的,和其他手機不一樣!我們發現,我們大腦可以對 iPhone X 的形象提取關鍵特徵,並且和其他手機做比較,從而使其擁有獨特性讓我們能夠識別。我們再舉一個例子:你能夠快速的識別網紅嗎?我不知道其他人能不能,反正我覺得都一個樣,都是網紅臉,傻傻分不出。我們說到了「分不出」這三個字,因為我們在識別一個人的臉的時候,我們大腦依然是在和其他臉做比較,而網紅臉因為太像,以至於我們很難區分,也就很難識別。
所以,我們就發現了,我們人之所以能夠識別一個新的東西,在於我們人的視覺系統天生的能夠對任意物體提取特徵,並進行比較。因為我們能夠比較不同物體,所以我們根本無所謂看到的東西是不是以前就見過。這就是我們人具備少樣本學習能力的關鍵原因。那麼問題又來了:提取特徵很好理解,現在的神經網路比如卷積神經網路也是在學習提取特徵,但是這個比較能力又是什麼東西呢?思考清楚這個問題是產生這個 idea 的關鍵。看起來我們人不需要學習先天就擁有視覺比較能力。如果哪天你看到一個人看一個東西卻說出「It doesn』t look like anything to me.」,那你一定不是在現實世界,而是西部世界了。所以,為什麼人先天擁有視覺比較能力?我不清楚,我只能把它歸結為一種元知識 (Meta Knowledge)。
少樣本學習一直和元學習(Meta Learning)關係緊密。元學習的目標就是通過學習大量的任務,從而學習到內在的元知識,從而能夠快速的處理新的同類任務,這和少樣本學習的目標設定是一樣的。我們也希望通過很多任務來學習識別物體這種能力,從而面向新的少樣本學習任務,我們能夠充分利用我們已經學習到的識別能力(也就是元知識),來快速實現對新物體的識別。而在這裡,通過前面的分析,我們明白了,我們要研究如何通過元學習的方式來讓神經網路學會比較這個元知識能力。而因為任意的知識都可以通過神經網路來表示,因此呢,我們就想:為什麼不用一個神經網路來表示這個視覺比較能力呢?然後利用這個網路去做少樣本學習?到了這裡,我們的 idea 也就呼之欲出了。
因此,我們這篇 paper 也是想給大家一個啟示,用神經網路進一步去替代一些之前還是人為設計的東西,有希望取得更好的效果!像目前元學習(Meta Learning)在研究的一個方向就是用神經網路學習來生成網路結構,也是一個意思。
6. 小結
在這篇博文中,我們簡單的介紹了 CVPR2018 這篇最新少樣本學習的 paper,和大家分析了一下 paper idea 的核心思想。對於這個 idea,我們拓展一下就有一個非常重要的問題值得去思考,也就是「其他領域有多少問題其實也是依靠元知識 Meta Knowledge 來驅動的?」如果我們發現了這樣元知識的需求,就可以考慮使用類似的方法——元學習(Meta Learning)的方法來實現。