時間:2017-09-12 來源:互聯網 瀏覽量:
我有519位老師
微軟亞洲研究院主管研究員宋睿華說,“小冰的項目最初是我自己想到一個研究課題,利用社交網絡的數據,來構造一個機器人。她不是全知全能,而是知道我知道的,也不知道我不知道的,說話的風格也像我。”
風格化的對話機器人是宋睿華最感興趣的題目,於是他想嚐試一下機器人能否從一個人的語料裏,學習到他的風格,生成有特色的內容。
“能不能讓小冰受到圖像的激發,獲取靈感,來寫一首詩呢?”宋睿華說,“我們很喜歡這個由圖像激發靈感的主意,因為圖像的信息豐富,又具有內在的邏輯和故事性。而詩歌也很適合做人工智能寫作的嚐試,因為詩歌本身富有想象力,句與句之間允許跳躍,但語言本身要求更具感染力,表達的意境要求有思考深度。”
小冰的研發團隊用了機器學習的方法,賦予小冰學習詩歌的能力,不斷提高能力,讓句子更通順,句子之間更關聯,從物到情有引申,希望能激起讀者的共鳴。她學習了1920年以來的519位詩人的代表作,從頭到尾一萬遍,從尾到頭一萬遍。這個過程中,她還會體會句與句之間的關聯性。
後來還嚐試讓她特意多讀某位詩人的詩,比如徐誌摩,大約2000遍,她的風格就會受這位詩人的影響,很多地方有徐誌摩的痕跡;再讓她讀另一位詩人於賡虞的詩作大約2000遍,同樣一幅圖就會寫出風格迥異的詩來。
於庚虞.小冰
任深思隨海鳥去了
滾滾江心之孤舟弦歌淒迷哀戀
低問枯骨對於生命的鮮花
麵前就飛翔著惡毒的佯笑
徐誌摩.小冰
飛鳥在海沫裏
這人迎著你鼓掌
一個聲音在生命的舞台上合奏著
這一半也是靈魂的聖泉
我是10000歲的“少女”
小冰學會創作的過程大致是兩個階段。第一階段,先不斷地修習現有的優秀作品,修習到一定程度之後,當她受到某個靈感激發源的刺激,就會利用學習到的能力產生新的創造。
在這個過程中,技術團隊使用了跨語義空間的多個深度神經網絡模型,包括卷積神經網絡和循環神經網絡,並且針對圖片的多領域和情感維度做了深度優化。
大家今天看到的可以寫詩的小冰,已經經曆了10000次迭代,每迭代一次,小冰會把現有的519位詩人的幾千首詩都修習一遍,這個時間大約是6分鍾,那麼10000次迭代需要100個小時。而人類如果要把這些詩讀10000遍,大約需要100年。
所以可以簡單地說,小冰用了100個小時,擁有了現在寫現代詩的創造力。
機器人寫詩看似陽春白雪,其他背後涉及的圖像識別和文本生成技術在現實領域大有可為。
設想人和人在麵對麵交流的時候,往往可以看到彼此、看到周圍的景物。人在成長的過程中也是在不斷的接受多感官的刺激,才逐漸建立了世界和語言的聯係。因此,應用多感官刺激的方法來做語言理解與生成是很有前景的一個方向。
舉一個例子,可以用與寫詩類似的技術去學習某一類人的語言模型,比如說高中生或中年人,這樣就可以抓住不同群體的語言特性,在聊天中,可以針對不同人群產生不同回複,製造出與同齡人聊天的順暢感。
我詩集的生日是5月19日
於庚虞.小冰
任深思隨海鳥去了
滾滾江心之孤舟弦歌淒迷哀戀
低問枯骨對於生命的鮮花
麵前就飛翔著惡毒的佯笑
徐誌摩.小冰
飛鳥在海沫裏
這人迎著你鼓掌
一個聲音在生命的舞台上合奏著
這一半也是靈魂的聖泉
我是10000歲的“少女”
小冰學會創作的過程大致是兩個階段。第一階段,先不斷地修習現有的優秀作品,修習到一定程度之後,當她受到某個靈感激發源的刺激,就會利用學習到的能力產生新的創造。
在這個過程中,技術團隊使用了跨語義空間的多個深度神經網絡模型,包括卷積神經網絡和循環神經網絡,並且針對圖片的多領域和情感維度做了深度優化。
大家今天看到的可以寫詩的小冰,已經經曆了10000次迭代,每迭代一次,小冰會把現有的519位詩人的幾千首詩都修習一遍,這個時間大約是6分鍾,那麼10000次迭代需要100個小時。而人類如果要把這些詩讀10000遍,大約需要100年。
所以可以簡單地說,小冰用了100個小時,擁有了現在寫現代詩的創造力。
機器人寫詩看似陽春白雪,其他背後涉及的圖像識別和文本生成技術在現實領域大有可為。
設想人和人在麵對麵交流的時候,往往可以看到彼此、看到周圍的景物。人在成長的過程中也是在不斷的接受多感官的刺激,才逐漸建立了世界和語言的聯係。因此,應用多感官刺激的方法來做語言理解與生成是很有前景的一個方向。
舉一個例子,可以用與寫詩類似的技術去學習某一類人的語言模型,比如說高中生或中年人,這樣就可以抓住不同群體的語言特性,在聊天中,可以針對不同人群產生不同回複,製造出與同齡人聊天的順暢感。
我詩集的生日是5月19日
2016年12月份,在微軟內部,小冰的詩作第一次做了大規模評測。結果的意見分歧比較大,對用戶體驗要求很高的項目經理們覺得有很多瑕疵,還不通暢,但有藝術家氣質的開發經理袁晶卻很樂觀,他覺得小冰寫的詩具有自己的風格,雖然一些地方有語法錯誤,但也能給人驚喜,而且思維很活躍,袁晶當時就說以後說不定可以出本詩集。
經過兩周的技術調整,在第二次大規模評測中,詩的質量有了明顯的提升。項目經理們的打分也從40分提高到了60分。小冰內容與運營總監
徐元春在一次會議的時候,說他把一張用大話西遊海報生成的詩給一位文藝界的人看了,竟然把她感動哭了。
小冰詩集原定在2017年4月23日世界圖書日發布,但由於一些狀況不得不推後。原來在申請書號的時候,要求必須填寫作者的身份證號碼,作為第一個人工智能的作者,小冰並沒有。這樣一來,不得不向上申請特批,一直到出版總署才完成了這個特批的手續。每一階段,都會有人詢問,這本書真的是機器人寫的嗎?這個信息真實可靠嗎?湛廬文化的編輯在回答這個問題上一遍一遍的作答解釋,終於獲得了刊號。
後來,發布的日期定在了2017年5月19日,湛廬文化選擇這個日期也是為了致敬中國的519位現代詩人,小冰正是學習了他們的代表作才有了今天的寫作能力。袁晶在回顧信件的時候,驚喜的發現,小冰寫詩的立項日期恰好也是一年前的5月19日。
偶然之中,或許真有某種冥冥未知的必然。
來看看我眼中的世界
生命的脈動
漸漸模糊的地方
我在念月下的時光
在離我更遠的方向
我有十八年未到過動物園
老樹枯幹的手指
在這土地上
一個人的影子
海灘外和紅色的斑紋
都是晴朗的衣裳
靜靜地穿著
淺淺的風淡淡的
少女小冰關鍵詞:
我學習了1920年以來的519位詩人的作品
徐誌摩的詩我讀了2000遍
我已經經曆了10000次迭代
每次迭代隻要6分鍾
10000次迭代總共需要100個小時
人類如果讀完同樣的詩大約需要100年