時間:2017-07-14 來源:互聯網 瀏覽量:
作者| 石筱玉
編輯| 傅博
Ann Taylor原本非常害怕家外麵的世界。在她來到一個新地點的時候,她總是不知道這裏有誰、哪裏有空座位,因此經常不知所措。但她說,微軟的Seeing AI應用能夠讓她更有勇氣走出家門,麵對未知的世界。
Ann Taylor是Seeing AI 應用研發小組的一名成員,同時也是一個盲人。在她來到微軟之初,她就對微軟研究者們計劃中的一套視障人士輔助工具產生了興趣。Taylor親切地將這套工具稱為未來的“瑞士軍刀”(“Swiss Army knife”)。
Taylor對工程師們說:
“讓我們做一些真正對盲人群體有重要意義的事情吧!”
Mary Bellard(左)和AnneTaylor(右)是Seeing AI開發團隊的成員
在2016年3月,微軟在Build大會上講述了Taylor的故事。今年的7月12日,這個名叫Seeing AI的iPhone應用終於在美國區開放下載。微軟將這個應用稱作“給盲人群體的有聲相機”(Talking camera for the Blind),已經在app store獲得了超過四星的評分。
微軟將這個應用稱作“給盲人群體的有聲相機”(Talking camera for the Blind)。
在評分中,第一個“五星好評”表示自己並沒有嚐試過這個應用。但是給出這一評分的用戶rsturner2002寫道:
“我給這個app五星,是因為我覺得它是一個非常優秀、非常急需的應用。我希望它能夠滿足視障人士的需求,並且希望微軟能夠繼續改進它。”
用戶rsturner2002的評論。
Ann Taylor也分享過她對這一產品的期望。在微軟亞洲研究院發表的文章中,她說雖然早已有一些能夠幫助視障人士的手機應用和工具,但它們往往功能單一。而Seeing AI能夠自動讀出短語和長文章,識別身邊的朋友和環境,具有比大多數麵向視障人士的應用更多的功能。
這些應用場景對於視障人士,尤其是盲人來說,一定有非常大的意義。Seeing AI的這些理想真的能夠成真嗎?在實踐中,我們發現了不少驚喜,可是也遇到了一些問題。
一打開這個app,我們就能看到下方有五個主要功能:短語、文件、商品、人物與環境。其中,“環境”功能被標注為測試版。在點擊每一個按鈕後,會有語音提示我們選擇的功能是什麼。
app頁麵下方的功能選擇按鈕。
“短語”功能可以為用戶讀出身邊環境中的單詞,比如在我們用鏡頭對準Exit標誌的時候,Seeing AI就會自動並且重複地讀出“Exit”這個詞。在使用這個功能的時候,這個應用的識別敏感度比我們想象中高很多——我們曾經無意中將鏡頭湊近電腦鍵盤,應用甚至還能及時讀出“PrtScn”、“F2”等按鍵。
用“短語”功能,能夠讓Seeing AI讀出標誌牌上的文字。
不過,由於目前該係統僅僅支持英語,在我們將鏡頭麵對中英交雜的文章時,Seeing AI隻會讀出英文部分。
“文件”功能在一定程度上和“短語”通用,不過“文件”加入了拍照這一過程。和一些掃描類app的使用方法類似,使用時Seeing AI會自動檢測紙張、書本的邊界,並語音提示“左、上邊界無法識別”等。在掃描完成後,應用會自動將照片內容轉換成文本,用戶隨後可以選擇讓它將文字讀出來。
經“文件”功能識別的Exit標誌。
但是在我們閉上眼睛、試圖隻聽語音提示對書頁進行掃描的時候,還是遇到了一些困難。要是想完整地拍下書頁內容,手機要盡量和桌麵平行,並且照片中必須出現整個頁麵。在頁麵提示看不到某一邊界的時候,我們並不知道是因為手機的角度問題,還是因為手機與書本的距離太近。在嚐試很多次之後,我們才成功地讓手機識別並自動拍下了書頁照片。
在使用中我們還碰到了另一個問題:對於字數很多的文檔頁麵,Seeing AI在處理一段時間後經常會跳出“對不起,請求時間過長”的提示,並且直接放棄識別,而在短文章中並沒有出現這個問題。可能對於Seeing AI來說,識別較短文字還是目前的主要目標。
當我們試圖拍下整頁書之後,Seeing AI給了我們“對不起,請求時間過長”的提示。
“商品”功能和前兩個的使用方法類似,主要是通過條形碼進行商品辨別。但是對於中國用戶來說,大部分國內的條形碼並不能被Seeing AI讀取。在Mashable.com的評測中,這個app能夠成功讀取“黃油”、“啤酒”等商品的二維碼,並能夠加載成分和如何使用的相關信息。
來自Mashable.com的測評圖片。圖片中,Seeing AI正確識別了啤酒品牌。
“人物”功能可以告訴用戶在哪個方位、多遠距離中有幾個人。在使用中我們發現,Seeing AI會運用人臉識別功能,將鏡頭中出現的人臉用方框框出來,判斷距離,並告訴用戶人臉處於屏幕的中間還是靠上、靠下位置。不過,當被識別的人以側麵麵對鏡頭的時候,Seeing AI就不能準確檢測到人臉了。
Seeing AI告訴我,馬斯克這張照片中檢測不到人臉,而馬斯克的正麵照片就能被它清楚識別。
參與測評的我們一致認為,“環境”功能是最被視障人士需要的。如果能夠向Taylor所說的那樣,這個app能夠幫助她識別房屋內的設施、椅子的位置,那麼Seeing AI將會對Taylor和她的夥伴們有非常大的幫助。
在使用中,我們發現“環境”能夠對身邊的物體,例如人、電腦、書本,甚至裝飾品進行非常準確的識別,並且能將其識別出的關鍵詞組成常用的短語,用語音告訴用戶。例如“桌上的一盆花”和“一個放了家具、有大窗戶的起居室”。
不過Seeing AI對於這個環境描述的細節也就到此為止了。當我們拍攝一把椅子的時候,配文是“一把椅子放在地麵上”,並沒有告訴我們椅子的位置,和是否空著等信息。可能對於“測試版”的環境功能來說,它的功能還有很大提升空間。
用Seeing AI識別一把空椅子,得出的結果是“一把椅子放在地麵上”。
在測試中,我們發現Seeing AI對文字、圖片內容的識別敏感度、準確率都很高。盡管它對於一些環境細節仍然沒有辦法讀取,但是也能夠在很大程度上幫助視障群體。
然而,讓我們最不滿意的一點是,“環境”並不能像“短語”等功能一樣自動拍照並讀取相關信息,而是需要用戶手動點擊屏幕上的相機按鈕。
屏幕左側有一個小藍圖標,這就是拍照按鈕。
拍照按鈕處於屏幕的最左側,是一個小的藍色按鈕。實際上,按動屏幕左側的大片區域都能夠控製拍照,但是在如何使用拍照功能這一點上,Seeing AI缺乏可靠的語音提示。在實際使用中,讓視障用戶拍了照之後才能進行環境識別,也顯得不太方便。
除了“環境”功能隻能依靠拍照,“文件”、“人物”兩個功能既能夠讓用戶進行手動拍照,也能自動識別。而“短語”、“商品”和“人物”全部依靠自動識別。
對於Seeing AI的不足之處,微軟也在app的開啟頁麵上這樣提示:
“Seeing AI並不總是準確。它不應被用於導航,也不應被用於可能讓你受到傷害的場景中。在使用Seeing AI時,用戶風險自負。”
Seeing AI在開啟頁麵上的提示語。
我們覺得,盡管Seeing AI是“給盲人群體的有聲相機”,但是在視障群體真正能用上、用好Seeing AI這個應用之前,還是需要有人幫助他們熟悉這個app的使用方法,以及各個按鍵的位置。在目前的版本中,Seeing AI操作中的語音提示還是不夠完備的。
實際上,Seeing AI是微軟十多年計算機視覺的研究成果。據Taylor所說,Seeing AI已經是市麵上針對視障群體,功能最齊備的一個手機應用。微軟也一直致力於利用AI這項技術破解醫療難題,改善各類人群的生活。
Seeing AI應用開啟頁麵中列舉的多種功能。
微軟在今年2月啟動了Healthcare NExT 計劃,和Google、IBM等公司一樣,期望能夠將AI運用於醫療行業。在今年5月,微軟還曾設計了一個可穿戴設備,幫助帕金森患者Emma Lawton控製病情所帶來的抖動症狀。
微軟為帕金森患者Emma Lawton設計的可穿戴設備。
盡管微軟離“讓Seeing AI成為盲人群體的眼睛”這一設想可能還有點遠,但是Seeing AI已經擁有了較為完備的功能,也讓我們對它的性能提升有非常大的期待。對於視障群體來說,微軟這樣的大公司能夠根據他們的需求開發對應的產品,這也讓他們和獨立、便利的生活又近了一步。
Taylor本人也對Seeing AI這個產品頗為自豪。她說:
“我們最後真的推出了這款如此寶貴的‘瑞士軍刀’,讓其他視障人士也能更好地欣賞這個世界的美好。”