倍可親

回復: 0
列印 上一主題 下一主題

提醒一下,即將過去的2017年人類在這些遊戲里徹底輸給了人工智慧

[複製鏈接]

1萬

主題

3萬

帖子

6萬

積分

貝殼光輝歲月

倍可親決策會員(19級)

Rank: 6Rank: 6

積分
60345
跳轉到指定樓層
樓主
新鮮人 發表於 2017-12-28 11:37 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  2017-12-27 22:48人工智慧/遊戲/人類

  2017 年即將結束,這一年,人工智慧領域被炒得火熱,那麼有哪些新的技術和進展?一起來看哪些人工智慧再度刷新你的認知!

  AlphaGo 升級版:AlphaGo Zero

  去年 3 月,谷歌旗下 Deepmind 公司研發的圍棋程序 AlphaGo,以 4 比 1 的成績戰勝韓國職業棋手李世石。一年後,完全靠自學的AlphaGo Zero,在今年 10 月又以 100 比 0 的戰績碾壓前輩 AlphaGo。 

  AlphaGo Zero 通過 8 小時自我訓練戰勝李世石版本 AlphaGo; 12 小時自我訓練戰勝世界頂級國際象棋程序 Stockfish;14 小時自我訓練戰勝世界頂級將棋程序 Elmo。

  

  AlphaGO 的重要開發者黃士傑稱,AlphaGo 成功的背後是結合了深度學習(deep learning)、強化學習(reinforcement learning)與搜索樹演算法(search tree algorithm)三大技術。

  簡單來說,當時的 AlphaGo 有兩個核心:策略網路(policy network)和評價網路(evaluation network),這兩個核心都是由卷積神經網路(convolutional neural network)所構成。

  首先向「策略網路」中輸入大量棋譜,機器會進行監督式學習,然後使用部分樣本訓練出一個基礎版的策略網路,以及使用完整樣本訓練出進階版的策略網路,讓這兩個網路對弈,機器通過不斷新增的環境數據調整策略,也就是所謂的強化學習。

  而「策略網路」的作用是選擇落子的位置,再由「評價網路」來判斷盤面,分析每個步數的權重,預測遊戲的輸贏結果。當這兩個網路把落子的可能性縮小到一個範圍內時,機器計算需要龐大運算資源的負擔減少了,再利用蒙特卡洛搜索樹於有限的組合中算出最佳解。

  但 AlphaGo Zero 與 AlphaGo 不同,它沒有被輸入任何棋譜,而是從一個不知道圍棋遊戲規則的神經網路開始,僅通過全新的強化學習演算法,讓程序自我對弈,自己成為自己的老師,在這過程中神經網路不斷被更新和調整。

  黃士傑說,「計算機圍棋 AI 的價值在於幫助人類或棋手擴展圍棋的理論和思路,未來 AI 是人類的工具,跟人類合作,而非跟人類對抗。強人工智慧還是 Far Away,現在最強的學習技能仍在人類的腦袋裡」。

  牌場一霸:Libratus戰勝4位德州撲克頂級選手

  在今年 1 月賓夕法尼亞州匹茲堡的 Rivers 賭場,由卡耐基梅隆大學團隊研發的人工智慧系統 Libratus 和 4 位德州撲克頂級選手展開了一場為期 20 天的鏖戰,經過 12 萬手牌的比賽,Libratus 獲得了最終勝利,贏取了 20 萬美元的獎金。

  

  無限德州撲克是一種「不完全信息博弈」(Incomplete information game),相較於圍棋難度更大,因為它不僅信息缺失非常嚴重,而且策略以及心理等因素都能影響勝局。

  Libratus 的策略並非基於專業玩家的經驗,所以它的玩牌方式有明顯的不同。研發團隊採用了一套叫做Counterfactual regret minimization(反事實的遺憾最小化)演算法 。

  利用在匹茲堡超級計算機中心大約 1,500 萬核心小時的計算,它會先讓 Libratus 反覆地進行自我博弈,隨機地玩上萬億手撲克,不斷地試錯,建立自己的策略,最終達到頂尖撲克玩家的水平。

  Libratus 可以通過強大的計算和統計能力,把各種打法雜糅,並通過推理對其進行任意排列,將下注範圍和隨機性提高到人類牌手無法企及的程度,讓人類玩家難以猜測電腦手中到底握有什麼樣的牌。

  儘管開發者對 Libratus 運行方式的公開有所保留,但人們不難判斷,研發團隊會每晚利用超級電腦來分析白天的比賽,以提高 AI 系統性能。AI 系統會檢測自身在每輪比賽中的弱點,每天補救最明顯的失誤,最終贏得比賽。

  AI制霸電競: Open AI 完虐《Dota2》

  8 月 13 日,作為 2017 年度電競遊戲《Dota2》賽事中分量最重的一個,「TI7 國際邀請賽」在美國西雅圖鑰匙球館正式落下帷幕,中國的 NewBee 戰隊最終以 0:3 的總比分不敵歐洲勁旅 Liquid ,無緣捧起冠軍神盾。

  本屆賽事看點頗多,既有「李逵」(Liquid)戰隊在敗者組完成 1 穿 6 並最終奪冠的夢幻童話,同時也有著中國 Dota 戰隊再一次與世界冠軍失之交臂的悲情戲碼。只不過這些在以彩蛋形式亮相的 Open AI 面前,都只能淪為配角,因為它的出現,宣告了人工智慧正式向《Dota2》這款遊戲進軍了。

  抱歉 世界冠軍慘遭無情吊打!

  Dendi輸了!

  

  如果你玩過《Dota2》這款遊戲,那麼相信你或多或少的都會對這個名字有些印象。這位出生於 1989 年的烏克蘭老司機,可以說是整個世界上最頂尖的電子競技選手之一,曾經隨隊在第一屆 Dota2 國際邀請賽(TI1)上奪得冠軍,又在後面的兩屆 TI 上斬獲亞軍。

  而就是這樣一位有著強橫實力的選手,卻在 8 月 11 日正賽結束后的表演賽上輸的如此徹底,而他的對手則是一個 U 盤,確切點說,是 U 盤當中裝著的由 OpenAI 開發的 Dota AI。

  比賽從號角響起的那一刻開始,便不再有懸念!一開局,OpenAI 就展現出堪稱完美的卡兵技巧,而當雙方正式交鋒時,職業選手與人工智慧之間的差距也開始明顯地顯現出來,無論是正反補兵還是技能施放,AI 對距離和時機都把握都更加準確,毫無遲疑。

  根據 OpenAI 官方給出的數據,AI 每分鐘的操作次數(APM)僅僅是人類的平均水準,換言之,AI 的每次出手收益都比 Dendi 更高,無效操作更少。

  第一局,AI 利用假動作誘騙 Dendi 上前補刀並將其擊殺,而第二局對戰中,Dendi 更是因為前期的卡兵失誤而痛失先手,比賽也在 AI 無限地優勢滾雪球當中草草結束。兩局對戰兩場虐殺,更重要的是它們加起來一共才不到 10 分鐘。

  扎心!獨門招式讓它們越來越強!比賽結束之後,OpenAI 的老闆馬斯克還在自己的 Twitter 上怒刷一波存在,並認為 OpenAI 第一次在電競上完勝世界頂級選手這件事,可比象棋圍棋要複雜的多。

  當然,對於 OpenAI 的勝利,官方也公布了其獨門秘訣,要知道它之所以強大的原因就在於它並沒有通過模仿學習和搜索策略來進行訓練,而是完全通過「自我對決(Self-Play)」的方式來提升自己的水平。並且在整個提升的過程當中,AI 從最早隨機渾噩的狀態逐漸進化到世界冠軍級的單挑水準,僅僅花費了兩周的時間。

  AI玩《吃豆小姐》遊戲突破臨界的999990高分

  微軟研究人員創建了一個人工智慧的系統,這個系統能夠在 20 世紀 80 年代風靡全球的電子遊戲吃豆人小姐(Ms. Pac-Man)中獲得最高分,系統使用了分治策略來更大程度地影響 AI 代理,從而完美地通關遊戲。

  

  今年年初,微軟收購了一家人工智慧初創公司 Maluuba。Maluuba 公司團隊運用強化學習技術(機器學習的分支),在吃豆人小姐遊戲 Atari 2600 版本中表現完美。使用這種方法,該團隊在這個遊戲中得到的分數高達 999,990。

  加拿大蒙特利爾的麥吉爾大學(McGill University)的Doina Precup 副教授表示,AI 研究人員的常常使用各種電子遊戲來測試他們研發的系統,但研究人員發現吃豆人小姐遊戲是最難攻克的。

  為了在吃豆人小姐遊戲中獲得更高的分數,Maluuba 公司團隊將操控吃豆人小姐遊戲的大問題分解成若干個小問題,然後將小問題分發給 AI 代理解決。

  Maluuba 團隊將這種分治策略稱之為混合式獎賞架構(Hybrid Reward Architecture),這個方法使用了 150 多名人工智慧代理,每個代理與其他代理相互獨立地精通吃豆人小姐遊戲。比如,一些代理成功找到一個豆子將獲得的獎勵,而另外一些代理由於幽靈的存在必須呆在原處。

  然後,研究人員在吃豆人小姐遊戲中創建了一個頂級代理,就像一家公司的高級經理一樣,頂級代理能夠獲得所有代理的建議,綜合分析後由頂級代理來決定吃豆人小姐該如何移動。

  頂級代理會根據選擇各個方向前進的代理數量的多少來決定移動方向,但同時也需要考慮到代理想要往某個方向移動的反應強度。

  例如,如果 100 個代理想向右邊移動,因為向右邊走是他們的最佳路徑,但有 3 個人想要向左邊移動,因為右邊有一個致命的幽靈,但是這 3 個代理向左邊移動的反應強度明顯強於那 100 個想向右移動的代理,考慮到幽靈的存在,頂級代理應該決定向左移動。

  研發能夠通關吃豆人小姐遊戲的 AI 是有目的的,該團隊是想用它幫助公司的銷售部門預測商品的潛在客戶。有了 AI 系統預測的幫助,銷售主管可以把更多的時間放在潛在客戶身上,如此會提高出售機會,因為銷售人員的目光已經瞄準了最容易下訂單的客戶。

  從 AlphaGo 驚人學習能力,到牌場一霸 Libratus,從制霸電競 Open AI 到 AI 吃豆能手,屬於人工智慧的 2017 年給了我們許多好奇、興奮與驚喜。

  AI 同我們之間的接觸,變得愈發多元而親密,如何處理人工智慧和人類的關係、如何將人工智慧未來發展變得可控、如何防止人工智慧取代甚至是控制人類的討論,也變得空前火熱。

  隨著更大規模、更深度、更強交互性的機器學習,人工智慧的能力極限將不斷挑戰我們的認知。未來學家們把 AI 做事方式不再受人類控制的時刻稱為「奇點」。

  霍金在今年全球移動互聯網大會上表示,「人工智慧的崛起可能是人類文明的終結,人工智慧的崛起,可能是人類歷史上最好的事,也可能是最糟的」。

  而「矽谷鋼鐵俠」埃隆·馬斯克,也頻頻發出「全球 AI軍 備競賽將導致第三次世界大戰」 「AI 比朝鮮核武器更危險」 「AI 是人類文明存在的根本風險」等言論與擔憂。

  不可否認的是,在未來社會裡,AI 可能會和水電一樣,成為我們生活中的基礎性資源。當 AI 變得足夠聰明之後,勢必會取代人類越來越高水平的工作,這是科技發展必然結果。

  雖然很多工作人類也可以完成,但是在分工日益精細的當下,我們依賴於機器工作的精密與準確。在未來大部分工作都將由機器來完成時,我們收穫的不僅是增強了操作機器的能力,還被賦予了為機器人尋找工作的未來任務。

  面對即將到來的 2018 年,人工智慧又將帶領我們到達未來的何處呢?讓我們拭目以待。

知之為知之,不知為不知,是知也

海納百川,  有容乃大
您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-8-5 00:33

快速回復 返回頂部 返回列表