時間:2017-06-18 來源:互聯網 瀏覽量:
在Google的Alpha Go已經玩了大半年《星際爭霸2》、又在圍棋領域打敗了柯潔之後,微軟的AI也終於在《吃豆小姐》遊戲裏揚眉吐氣了。
去年9月,微軟的首席執行官Satya Nadellaz在開發者大會上表示“我們不會追求AI在遊戲中擊敗人類”,不過他們今年年初收購的人工智能初創公司Maluuba最近發布了一項成果:
Maluuba開發的AI在《吃豆小姐》(Ms. Pac-Man)Atari 2600版本中取得了這款遊戲的曆史最高分999,990分。
順便說,在此之前《吃豆小姐》的最高分是人類玩家阿布那·阿什曼保持的933,580分。
《吃豆小姐》遊戲
選擇《吃豆小姐》是因為簡單?不不不,其實是因為它難
《吃豆人》(Pac-Man)我知道,但是《吃豆小姐》是啥?
1980年5月,日本南夢宮(NAMCO)株式會社推出了《吃豆人》街機遊戲,並選擇了Midway Games作為這個遊戲的美國發行商。這款遊戲的玩法大家都知道了,就是在遊戲迷宮裏盡可能多地吃水果和白色豆子獲得分數,同時躲避四個幽靈的攻擊。
不過,初代《吃豆人》遊戲的地圖和幽靈出現的位置都是固定的,熟練玩家閉著眼都知道應該往哪走,所以遊戲本身並沒有什麼難度。
於是在遊戲發行一周年時,代理商Midway Games的伊利諾斯州分公司就在美國發行了《吃豆人》的非官方強化版《吃豆小姐》(Ms. Pac-Man)。這個強化版本的遊戲不僅把主角換成了吃豆小姐,怪物行動也有了隨機性。在這個版本裏玩家不能再閉著眼玩套路了,每次重玩都要動腦子。
強化版本推出之後大受玩家歡迎,吃豆小姐也被玩家親切地稱為“吃豆人的老婆”。親爹南夢宮株式會社還能怎麼辦,當然是選擇原諒他們,順便把這個不是自己開發的遊戲版本也編入了正統。
給AI玩的《吃豆小姐》差不多還是這樣的
當然研究人員讓AI玩的《吃豆小姐》不是最初的街機版本,而是Atari 2600版。Atari 2600是雅達利(Atari)公司1977年推出的一款家用遊戲主機,包括Alpha Go在內的很多AI目前都在玩。
Atari主機上的大部分遊戲都很適合機器學習,強化學習功能比較好的AI,隻要一遍一遍重複玩就可以獲得高分。當初DeepMind被Google收購,展示的項目之一就是AI玩Atari遊戲的能力。
Maluubad的研究人員測試了很多遊戲之後發現:對於AI來說,玩《吃豆小姐》比完其它Atari遊戲要難。要讓AI通過迷宮並不是難事,但隨機出現的水果和幽靈卻讓AI麵臨的環境變得複雜多了。
AI是怎麼玩這個遊戲的?
簡單來說,強化學習就是給定一個環境,如果AI在環境裏做出了正確選擇就給它獎勵。隨機性讓AI在遊戲裏麵臨的環境變得複雜了,所以玩有隨機性的遊戲對於AI來說也更有難度。
為了讓AI在遊戲裏獲得高分,Maluuba公司創造了混合式獎賞架構(Hybrid Reward Architecture),也就是一種把遊戲裏的大問題分解成小問題,再把小問題分發給AI代理來解決的分治策略。
Maluuba用來玩遊戲是一個頂級AI代理和150多個普通AI代理。每個普通AI代理都是相互獨立的,它們分別精通《吃豆小姐》的一部分技巧:有的負責吃水果,有的負責吃豆子,有的負責躲避幽靈。
頂級AI代理的工作,就是綜合考慮每個普通AI代理的意見,然後做出往哪邊走的決策。決策的考慮因素有兩個:一個是建議往某方向走的普通AI代理的數量,另一個是普通AI代理建議的強度。
比方說有100個普通AI代理建議向左、50個普通AI代理建議向右,那麼從數量上看就選擇左走;但如果50個AI建議向右的原因是左側有幽靈走過去會死,那麼從建議強度上就應該選擇向右。
至於這麼做的原理,Maluuba公司發表的研究論文裏是這樣解釋的:將任務分解成具有定義權重的離散目標可以降低“問題的規模大小”,從而使複雜問題變得簡單。
蒙特利爾學習算法研究所所長Yoshua Bengio在接受外媒采訪時表示:
這種解決方法非常像人類的大腦,如果人工智能能夠掌握這種分治策略,就能利用有限的信息來完成更加複雜的任務,人工智能技術也就會向前邁進一大步。
Yoshua Bengio所長是Maluuba公司的技術顧問。
也有反對者認為Maluuba公司的測試方法有問題。Maluuba公司事先已經把獎勵和懲罰的權重寫到了AI程序裏,在遊戲開始之前,AI就已經知道了幽靈是壞的、水果和豆子是好的。別的AI都是在玩遊戲的過程裏學習到哪些行為會得到獎勵、哪些行為會被懲罰,但是Maluubad的AI從一開始就知道這些了。
反對者認為AI在遊戲過程中並沒有從環境裏發現任何情報,隻是根據獎勵權重去決定收集豆子和水果、躲避幽靈,這根本不是在進行機器學習,因為AI在玩遊戲的過程裏根本就沒學到任何東西。
Maluuba目前專注於長期的人工智能研究,在微軟內部獨立運作,不過AI在《吃豆小姐》遊戲裏學到的東西還是會被應用到微軟的銷售和業務工具Dynamics裏,用來幫助用戶判斷銷售線索。