倍可親

回復: 0
列印 上一主題 下一主題

【DeepMind最新Nature論文】探索人類行為中的強化學習機制

[複製鏈接]

4364

主題

9732

帖子

1萬

積分

七級貝殼核心

Rank: 5Rank: 5

積分
17462
跳轉到指定樓層
樓主
非常時期 發表於 2017-9-5 11:28 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  2017-09-04 12:59人類

  新智元報道

  來源:DeepMind

  作者:趙以文

  【新智元導讀】DeepMind與來自普林斯頓、NYU、達特茅斯學院、UCL和哈佛大學的研究人員合作,探索了人類行為中的強化學習,為開發智能體強化學習提供了新的策略。研究人員具體探討了一種存在於無模型和基於模型的學習演演算法之間的方法,基於後繼表示(successor representation,SR),將長期狀態預測存入緩存中。作者預計,這些發現將為計算科學、電生理學和神經影像學研究開闢新的途徑去研究評估機制的神經基礎。相關論文《The successor representation in human reinforcement learning》日前在Nature子刊《自然-人類行為》上發表。

  人類和其他動物在不斷變化的環境中適時適機進行決策,這底層的演演算法是什麼?發現其中的機制對於完成序列決策(比如國際象棋和迷宮導航)尤其重要。

  過去20年,大部分致力於解決多步驟問題的研究,都關注強化學習(RL)的兩類演演算法,即無模型(MF)和基於模型的(MB)演演算法。

  MF和BM都將決策形式化為長期獎勵預期與不同的候選行動之間的關係,但在表示(representation)和計算方面卻不盡相同。

  

  突1:無模型、基於模型和基於後繼表示的學習演演算法在表示、計算和行為上的特點對比。來源:論文

  MF vs. MB兩者的對立使人產生了這樣一種觀點,那就是在決策的速度和準確性之間有明顯的tradeoff:MF將預計算長期行動值直接存儲起來,而MB演演算法則更加靈活,會通過對短期環境的建模來重估行動值,但這樣對計算力有更大需求。

  長期以來,由於這種速度和精度之間的tradeoff,人們一直以為要實現自主化、仔細思考(deliberation)和控制,需要消耗很多計算資源。同時,MF也被視為適應不良習慣和強迫行為(比如吸毒)的原因。

  儘管有實驗證明人類和其他動物在某些情況下的決策能夠徹底打敗MF選擇,但極少有證據表明人類大腦是如何進行MB重計算的,甚至人類大腦究竟有沒有進行MB重計算。

  實際上,在MF和MB之間完全可以有其他的計算路徑(shotcut)來合理解釋很多現有的實驗結果。

  為此,普林斯頓、NYU、達特茅斯學院、DeepMind兼UCL以及哈佛大學的研究人員,設計了兩項實驗,探索了大腦決策時是否使用了存在於MF和MB之間的演演算法,以及這種演演算法與MF、MB之間的異同。相關論文《The successor representation in human reinforcement learning》日前在Nature子刊《自然-人類行為》上發表。

  研究人員發現,人類決策時確實會用到MF和MB之間的中間演演算法。他們在論文中具體研究了其中的一類重要演演算法,基於後繼表示(successor representation,SR),將長期狀態預測存入緩存中。作者預計,這些發現將為計算科學、電生理學和神經影像學研究開闢新的途徑去研究評估機制的神經基礎。

  具體說,研究人員通過實驗設計,區分使用SR和MB的計算,重點關注人類是否存儲了有關未來狀態的長期預期。結果發現,MF策略不存儲狀態的任何錶示,並且在決策時也不計算狀態表示(參見圖1和圖2)。另一方面,MB策略存儲並且會檢索一步表示(one-step representations),因此決策時間的計算需求會更高。然而,SR緩存了一個多步驟轉換的「粗略映射」到智能體以後期望訪問的狀態。在決策時使用這些緩存的表示,SR在獎勵重估中做出了比MF更好的決策,但不能解決轉移重估,而MB在所有重新估值方面都做得一樣好。另一種可能性是將SR與其他策略相結合,也即論文中所說的「混合SR策略」。混合SR策略可以將半計算的軌跡粗略表示與MB表示或重放相結合。

  

  圖2.在獎勵和轉換重估測試中,模型預測和檢索到表示的原理圖

  所有混合SR策略將比轉換重估的純SR策略更好(但比MB差)。具體來說,相比預測過渡重估,混合SR策略在預測獎勵重估時準確性更高,反應時間更快。MF或MB都的預測性能都沒有展現出這樣的不對稱性。

  作者通過兩項研究實驗測試並確認了他們的猜測,為人類行為中的強化學習里的SR提供了第一個直接證據。

格外小心
您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-10-6 17:20

快速回復 返回頂部 返回列表