倍可親

回復: 0
列印 上一主題 下一主題

AlphaGo設計師黃士傑:「最強的學習技能在人類的腦袋裡」

[複製鏈接]

1萬

主題

2萬

帖子

3萬

積分

貝殼精神領袖

Rank: 6Rank: 6

積分
35927
跳轉到指定樓層
樓主
華盛頓人 發表於 2017-11-15 23:56 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  AlphaGo的「人肉手臂」、擔任Deepmind資深研究員的黃士傑,在近期公開演講中,分享他身為一名科學家,如何旁觀機器的進步。

  

  更新於2017年11月14日 07:12 英國《金融時報》中文網 編輯 史書華

  沒有人會否認,AlphaGo在過去一年炒熱全球對人工智慧的關注。

  2016年3月,谷歌Deepmind旗下的圍棋程序AlphaGo,以4比1的成績戰勝韓國職業棋手李世石。一年後,拿掉所有人類知識、完全靠自學的AlphaGo Zero,在今年10月又以100比0的戰績碾壓「AI前輩」AlphaGo。從擊敗人類、到自學成材,AlphaGo的進展超乎預期,研發團隊也自然成為關注焦點。這當中,被稱為AlphaGo的「人肉手臂」,替AlphaGo向棋聖聶衛平說「謝謝聶老師」的黃士傑(Aja Huang),就是AlphaGo發展的重要推手。

  1978年出生、現任Deepmind資深研究員的黃士傑,私底下是圍棋業餘六段,在每一場人機對戰中,都代表AlphaGo落子。但他不只是手腳,更貼近他身分的描述,其實是AlphaGo的設計者、是AlphaGo的大腦。讓AlphaGo登上科學期刊《自然》(Nature)封面的那篇知名論文,黃士傑並列為第一作者。

  上周五(11月10日)在台灣中研院舉辦的「2017年人工智慧年會」上,黃士傑首次把AlphaGo的研發過程公開說清楚,除了透露新一代AlphaGo Zero的能力還沒達到極限,他更多的是去分享身為一名科學家,旁觀機器的進步,以及一個科學團隊對基礎研究的使命和專註。

  以下是編輯后的演講摘錄:

  人工智慧

  人是瘋狂的,但機器不是

  東京上演了一場全球最前沿的人工智慧大戰。與其觀看機器進步了多少,更值得觀察的是機器背後的人們。

  

  AlphaGo的研發過程,有四個時刻對我影響很大。

  第一,是我們在韓國贏了李世石。當我們開始做AlphaGo時,沒想到它會變得那麼強。在韓國贏了李世石后,DeepMind首席執行官Demis Hassabis立刻發了一個推特,說「我們登上月球」(We landed it on the moon.)。我明白Demis那天的感覺,這是我們團隊的一小步,但卻是人類的一大步。

  第二個時刻,是我在網路上操作AlphaGo升級版「Master」,下了60盤棋。我從小喜歡下棋,在台灣是業餘六段。Master在網路上對弈的對象,都是我從小崇拜的人。雖然不是我真正在下棋,但卻感到非常榮幸。

  第三個時刻,是今年在烏鎮進行的人機大戰,由我操作AlphaGo和世界冠軍柯潔九段下棋。柯潔還不滿20歲,非常年輕,當天比賽氛圍和李世石對弈時很不同。我記得在韓國比賽,能感受到李世石承受到很大的壓力,感覺他是在為人類而戰。我當時坐在他對面,也盡量保持謹慎的態度,不喝水、不去上洗手間。但到了第二次和柯潔對弈,比較像是人機合作的氣氛,柯潔還走過來說:「黃博士,很榮幸跟AlphaGo下棋」,坦白說我有點驚訝。這也讓我們知道,如果Master是無敵的,那機器存在價值到底在哪裡?應該是要幫助棋手擴張思路、擴展圍棋理論。

  第四次對我意義重大的時刻,是AlphaGo Zero的出現。什麼是AlphaGo Zero?我們拿掉所有人類對圍棋的知識,只喂AlphaGo Zero圍棋規則,讓它自己學習下棋。我回想起讀博士班的熬夜日子,就是不斷寫代碼、找bug,每天做測試,讓程序進步。但AlphaGo Zero把我過去的所有東西全部取代,它完全不需要我的幫助。有同事問我,Aja,AlphaGo Zero把你這十幾年來對圍棋計算機的研究,一點一點的拿掉,甚至還超越你,有什麼感覺?我的確心情複雜,但後來跟同事說,這會是一個趨勢,如果我阻礙了AlphaGo,我確實應該被拿掉(笑)。AlphaGo有99%的知識是我做的,AlphaGo能走到這一步,我已經很滿足,找到了收尾。

  AlphaGo是怎麼開始的?

  回到一開始,AlphaGo到底是怎麼開始的?起點是有三組人馬的聚集:Deepmind首席執行官Demis Hassabis與AlphaGo項目領導David Silver、我、還有兩位谷歌大腦(Google brain)的同事Chris Maddison和Ilya Sutskever。

  Demis和David原本是劍橋大學的同學,友情深厚。對西方人來說,當1997年IBM超級電腦「深藍」贏了西洋棋棋王卡斯巴羅夫之後,就只剩下流傳幾千年的中國圍棋,是人工智慧發展的極大挑戰。一開始,很多研究人員想把研究西洋棋的技術移到圍棋上,但都失敗了。在2006年蒙特卡洛樹搜索出來后,研究才提升一階,讓機器棋手的水平能達到業餘三段,但離職業棋士一段還有距離。Demis和David心中開始藏有一個夢,希望有一天要能做出一個很強的圍棋程式。

  但有夢的不只有他們,故事的另一條線還有我。

  在就讀台灣師範大學資訊工程博士班時,我每天埋頭解bug、寫代碼,就是希望做一個很強的圍棋程序。2010年,我研發出的圍棋計算機程序Erica(事實上是用我妻子的名字來命名),在計算機奧林匹亞獲得 19 路圍棋的冠軍。雖然Erica只是單機版,但它打敗了用了6台PC的日本程序Zen跟其他參賽者,就像小蝦米對抗大鯨魚。當年還在英國當教授的David,在比賽后寫信問我有沒有興趣加入Deepmind,隔年我也正式加入團隊,成為第40號員工。

  我還記得當年面試,老闆問我,能做出Erica有什麼感覺?我回答,滿有成就的。Demis點頭,他明白我的感覺。

  2014年,Google收購Deepmind,AlphaGo項目也正式浮現。Demis起初還在教書、還不是全職員工,就常三不五時走過來跟我討論圍棋項目的想法。真的要開始時,我們其實都已經有些準備。

  既然決定要做圍棋項目,當時我和Demis有一個共識,就是絕對不要複製Erica。Erica其實有它的極限,最勉強的就是達到業餘三段,繼續複製的意義不大。我們想做不一樣的事,希望能運用到深度學習的原理。過了幾個月,團隊又增加了兩個人,包括深度學習之父以及帶動深度學習革命的研究者。

  我們怎麼判斷深度學習可能應用到圍棋?如果人類可以一看棋盤就知道下哪一步會是好棋,那麼神經網路也可能辦得到這種"直覺"。但如果人類得想五分鐘才能給出答案,神經網路可能辦不到。一開始,我們訓練AlphaGo從人類的棋譜去學習人類的直覺。我還記得第一次測試神經網路,沒想到能表現得那麼好,百分之百對戰都不會輸,是一種碾壓式的勝利。

  AlphaGo第二個突破的是價值網路。我記得當David跟我說他有這樣一個點子時,我還質疑,這會成嗎?當我們把策略網路(Policy Network)做出來后,最強的程式可以達到70%到80%的勝率,算得上是世界最強的。但老闆的目標不只於此,我們又繼續找人、繼續擴充團隊。

  這過程其實很辛苦,嘗試很多,譬如網路要多深、要用什麼架構?資料庫有沒有問題?最終檢驗的,還是看AlphaGo有沒有變強。過了一個月之後,我們找到了問題並且解決掉,我仍然記得,舊版AlphaGo配上價值網路產生的新版AlphaGo,第一次的實驗結果是達到95%的勝率,棋力非常強。可以這麼說,AlphaGo的成功就是深度學習與強化學習的勝利,因為兩者結合在一起,建構判斷形式的價值網路(Value Network),後來也成為AlphaGo Zero的主要理論。

  當價值網路出來后,Demis希望我們能與歐洲職業一段棋手進行比賽。當下,我除了要做價值網路,還要研究平行網路搜索技術,Demis走過來說要比賽,我只想著:真的那麼有信心嗎?

  後來我們與歐洲圍棋冠軍樊麾進行比賽,最終以5比0獲勝,這結果其實也很不可思議。我記得樊麾輸了第二盤棋后,想出去走走,會說中文的我,原本想去陪他,他揮揮手,「不用,我自己出去透透氣。」

  難能可貴的是,樊麾是第一個被AI打敗的職業棋士,但他的態度非常正面。樊麾在第五盤棋雖然認輸了,但他對AI並沒有感到害怕,後來甚至也加入了團隊,幫忙測試AlphaGo。

  當時要把AlphaGo研究投稿到科學期刊《自然》(Nature)也是另一段有趣的故事。我們那時剛弄出價值網路、剛打敗樊麾,正準備要挑戰韓國職業棋手李世石九段,Demis為什麼又要我們另外花時間去寫論文,而不是準備比賽?為什麼現在就要我們把研究秘密全部公開?

  

  以AlphaGo研究作為封面的《自然》期刊。(來源:Deepmind網站)

  Demis給了我一個很有意思的答案。他認為,我們是在做研究,科學的精神就是要互相分享,我們要推動整個領域的進步。也因為要寫論文投稿,和《自然》編輯也事先談好,在出版之前,我們不能和任何人說AlphaGo打敗了樊麾。那幾個月,所有人都憋著不講,當論文刊登之後,才正式向李世石九段提出挑戰。

  至於後來AlphaGo和李世石的比賽,大家也都知道了。

  這邊要特別提到的是,TPU(Tensor Processing Unit,谷歌的高性能處理器)在研究過程中對我們有極大的幫助。自從Deepmind加入Google后,我認為Google給我們最大的幫助,就是提供了硬體設備。我還記得當時有一個GPU(圖形處理器)版本,代碼完全一樣,但改用TPU之後,勝率變得強太多。

  而AlphaGo的故事也還沒結束。

  就在我們打敗李世石后,很多人認為AlphaGo項目是不是不動了。如果大家還記得,和李世石下棋時,第四盤棋我們輸得很慘。當時我坐在李世石對面,要幫AlphaGo下那幾步棋,明顯知道那些下法是初學者的錯誤,要擺棋很痛苦,甚至會覺得我來下都比AlphaGo來得好。雖然我們最終贏了,但這一盤棋確實有很大的弱點,如果五盤棋內,有20%的錯誤率,這樣的AI系統,你敢用嗎?所以我們決定,一定要把這個弱點解決掉,不只是解決第四盤的問題,是要把AlphaGo項目全面解決。

  後來過了三個月,我們就把弱點解掉了。怎麼做到的?還是採用深度學習和強化學習的方法,並不是用人類知識的方法。第一,我們加強AlphaGo的學習能力,所謂學習能力就是把網路程度加深,從第一篇論文的13層加深到40層,而且是改成ResNet。第二個改變是,把策略網路和神經網路結合,讓AlphaGo的直覺和判斷一起訓練,使兩者更有一致性。這個解決后的版本,就是Master。

  我那段時間一直說服團隊,要帶Master上線下棋測試棋力,不要等到Master完全無敵後才下棋。2016年年底,我回到台灣,當時特別低調,在線上中文圍棋網站奕城和野狐申請了帳號,偷偷當職業棋士下棋。12月29號開始,我關在自己的房間里測試Master,一盤棋下一小時,一早下三盤棋,然後吃飯,下午繼續,晚上吃完飯再繼續,非常累,到晚上眼睛都張不開。

  我還記得一開始在奕城下棋,沒人要跟經驗值為零的我對弈,直到第二天邀約才陸續上門,到了第三天,還愈來愈多人觀看。那時壓力很大,很怕自己點擊錯誤或是網路連線斷掉,AlphaGo不能因為我而輸掉阿。

  我到現在還是很感謝那些曾經和Master對弈的棋手。原本想低調比賽,但後來沒辦法,確實是每一盤都贏、每一盤贏的都是巨大的優勢。這當中,柯潔算是唯一一位可以跟AlphaGo比賽堅持最久的。

  AlphaGo Zero只用三天走過人類的千年曆程

  在Master之後,我們研究分出兩條線,一條是讓Master出去比賽,由我來測試,另一條線,則是把所有人類知識拿掉,從零開始學習,看AlphaGo Zero可以達到什麼程度。

  我們在初期預設AlphaGo Zero絕對不可能贏Master。圍棋被研究了幾千年,一個程序只知道棋盤和規則,一切從零開始,怎麼可能會超越幾千年的圍棋歷史?但我們錯了,40天的訓練后,AlphaGo Zero超越了Master,我們非常意外,深度學習和強化學習的威力太大了。

  AlphaGo Zero是從亂下開始,找出圍棋的下法,它只用了三天,走過了人類研究圍棋的千年曆程。這也是有趣的地方,人類幾千年的累積,跟科學研究是一致的。

  AlphaGo Zero前後訓練了 40 天,但第 40 天還沒有到達其極限,因為我們機器要做其他事情就先停下了。今年四月,我們也發表了AlphaGo Zero的論文,這篇論文的目的,沒有想要跟人類知識比較、或是討論人類知識有沒有用等問題,而是想證明機器不需要人類知識也可以擁有很強的能力。

  我認為,未來的人工智慧,是要與人類合作,而非跟人類對抗。強人工智慧距離我們仍是遙遠,而現在最強的學習技能,其實仍在我們的腦袋裡。

時代小人物. 但也有自己的思想,情感. 和道德.
您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-12-2 13:54

快速回復 返回頂部 返回列表