當前位置：係統粉 > IT資訊 > 微軟資訊 > 圍棋算啥? 吃豆遊戲上微軟AI也完爆人類

圍棋算啥? 吃豆遊戲上微軟AI也完爆人類

時間：2017-06-16 來源：互聯網瀏覽量：

微軟研究人員創建了一個人工智能的係統，這個係統能夠在20世紀80年代風靡全球的電子遊戲吃豆人小姐（Ms. Pac-Man）中獲得最高分，係統使用了分治策略來更大程度地影響AI代理，從而完美地通關遊戲。

圍棋算啥? 吃豆遊戲上微軟AI也完爆人類(1)

今年年初，微軟收購了一家人工智能初創公司Maluuba。Maluuba公司團隊運用強化學習技術（機器學習的分支），在吃豆人小姐遊戲Atari 2600版本中表現完美。使用這種方法，該團隊在這個遊戲中得到的分數高達999,990。

位於加拿大蒙特利爾的麥吉爾大學（McGill University）、從事計算機科學研究的Doina Precup副教授表示，AI研究人員的常常使用各種電子遊戲來測試他們研發的係統，但研究人員發現吃豆人小姐遊戲是最難攻克的。

但是，Precup表示，相比於研究人員所取得的成就而言，她對於研究人員獲得成果的過程更加感興趣。為了在吃豆人小姐遊戲中獲得更高的分數，Maluuba公司團隊將操控吃豆人小姐遊戲的大問題分解成若幹個小問題，然後將小問題分發給AI代理解決。

Precup說：“這個分治策略的想法讓Maluuba公司的研究人員使用不同的係統來實現同一個目標，這是一件非常有趣的事情”。

她還說到：“這個想法類似於一些大腦如何工作的理論，它可以更大程度地影響AI代理教學，從而利用有限的信息來完成更為複雜的任務。倘若能夠完美利用分治策略，那人工智能將向前跨越一大步，這真的令人感到尤為興奮。”

Maluuba團隊將這種分治策略稱之為混合式獎賞架構（Hybrid Reward Architecture），這個方法使用了150多名人工智能代理，每個代理與其他代理相互獨立地精通吃豆人小姐遊戲。比如，一些代理成功找到一個豆子將獲得的獎勵，而另外一些代理由於幽靈的存在必須呆在原處。

然後，研究人員在吃豆人小姐遊戲中創建了一個頂級代理，就像一家公司的高級經理一樣，頂級代理能夠獲得所有代理的建議，綜合分析後由頂級代理來決定吃豆人小姐該如何移動。

頂級代理會根據選擇各個方向前進的代理數量的大小來決定移動方向，但同時也需要考慮到代理想要往某個方向移動的反應強度。

例如，如果100個代理想向右邊移動，因為向右邊走是他們的最佳路徑，但有3個人想要向左邊移動，因為右邊有一個致命的幽靈，那這3個代理向左邊移動的反應強度明顯強於其他代理，考慮到幽靈的存在，頂級代理應該決定向左移動。

Maluuba公司的研究室經理Harman Van Seijen，對於他們的最新研究成果發表了一篇文章，文章中寫到，當每位代理都果斷地做出選擇，頂級代理綜合利用每個代理的信息後做出最佳選擇，那麼在吃豆人小姐遊戲中就可以獲得最好的結果。Harman Van Seijen說：“雖然每個代理隻關心一個特定的問題，但是他們之間有很好的相互作用”。

圍棋算啥? 吃豆遊戲上微軟AI也完爆人類(2)