其實在第二代的「Master」完勝了當今棋壇最強的柯潔之後,AlphaGo 的對手就已經不再是人類了。但令人沒想到的是,賽后短短几個月它竟然又完成了一次進化。全新的 AlphaGo Zero 毫無意外地超越了前面兩代,不過比結果更重要的是,這次它「從零開始」用了一套完全不同的訓練方法。過去的 AlphaGo 都是在與無數人類業餘、職業棋手的對決中慢慢成熟,但 Zero 自誕生起就徹底摒棄了人類輸入,然後靠著自我學習、自我對弈孤身成長為了 DeepMind 口中的「史上最強棋手」。
那這個「最強」到底有多強?看看下面這串數字你估計就會有一個概念了。Zero 在對陣打敗了李世乭的那一版 AlphaGo 之前,只花了區區三天的訓練時間,就以 100 比 0 的絕對優勢取勝。然後在經過了 40 天的內部機器對戰以後,它又以 89 比 11 的懸殊差距輕取戰勝了柯潔的「Master」版本。在得知新 AlphaGo 的戰績之後,柯潔更是發出了這樣的感嘆:「一個純凈、純粹自我學習的 AlphaGo 是最強的,對於 AlphaGo 的自我進步來講,人類太多餘了。」