時間:2017-07-18 來源:互聯網 瀏覽量:
Maluuba是一個由微軟於1月收購的深度學習團隊,他創建了一個人工智能係統,為吃豆人提供了完美的分數。
根據The Verge的報道,AI係統“學會了如何在Atari 2600上達到999,900的最大點值,使用一種獨特的強化學習方法和一種分而治之的方法。”
“從報告:
雖然人工智能已經征服了大量的複古遊戲,但由於遊戲的缺乏可預測性,吃豆人多年來一直難以捉摸。
事實證明,這對人類來說也是一種堅強的意誌。
很多人都試圖達到吃豆人的最高得分,但在雅達利2600版本中隻達到了266,330。
不過,這個遊戲的999900個數字還不清楚,到目前為止,隻有通過騙子才能實現。
Maluuba能夠利用人工智能來解決這個問題,把責任分解成一份小的工作,分配給超過150名特工。
然後,團隊用他們所謂的混合獎勵體係結構來教授人工智能,這是一種強化學習和一種分而治之的方法的結合。
個別的特工被分配了一些零碎的任務——比如找到一個特定的小丸子——它與其他的藥劑一起工作,以達到更大的目標。
然後,Maluuba指定了一名頂級經紀人(微軟把這比作一家公司的高級經理),從所有的經紀人那裏得到建議,以決定在哪裏移動吃豆人。
最好的結果是當個體的經紀人“非常自我的”,而頂級的經紀人專注於對整個團隊最有利的事情,他們不僅考慮了有多少經紀人想要進入一個特定的方向,而且還考慮了這個方向的重要性。