飛象網(wǎng)訊(李陶陶/文)4月29日消息,2016 GMIC全球移動互聯(lián)網(wǎng)大會正在進(jìn)行,飛象網(wǎng)作為直播媒體,全程為您直播,F(xiàn)在演講的是常務(wù)副院長,微軟亞洲研究院芮勇,他演講的題目是《那5個AI》。
以下是演講內(nèi)容:
各位人工智能的朋友們大家下午好!
非常高興今天有機(jī)會來到GMIC未來峰會,跟大家聊一個很有意思的話題,就是那5個AI,哪5個AI呢?第一個AI大家一下就能想到,叫人工智能。今年是2016年,在以前沒有詞叫人工智能,在1956年的時候有一個研討會才造成了人工智能。
在屏幕上看的這幾位都是人工智能的先驅(qū)。這是第一個AI,但是我今天要講5個AI。
第二個AI是什么?第二個AI要考大家英文學(xué)的水平怎么樣,就是說聚合的,聚眾的一種智能,什么意思呢?就是把我們?nèi)祟惖暮芏嘈袨榈拇髷?shù)據(jù)加以整理,加以挖掘,然后用它來訓(xùn)練我們的計算機(jī),我們的電腦,使得這些計算機(jī)變得智能,叫做聚合的智能。
第三個AI叫自適應(yīng)的AI,自適應(yīng)的智能。我們希望這個智能不要我作為一個用戶總想著它應(yīng)該在什么情況下去做,它應(yīng)該根據(jù)當(dāng)前的環(huán)境自身的去調(diào)整怎么來服務(wù)用戶,這是第三個AI,叫自適應(yīng)的智能。
第四個AI是什么呢?叫做隱形的智能。
我來自微軟,所以我就用微軟的幾個例子跟大家分享。
第一個聚合的智能。我們都知道我們?nèi)祟愂怯兄悄艿,我們(nèi)祟愑幸曈X、聽覺、觸覺等等,我們也希望讓計算機(jī)能夠感知我們的環(huán)境,能像我們?nèi)祟愐粯涌梢匀タ吹剑梢匀ヂ牭,可以去理解?/P>
在去年微軟發(fā)布了一個項目叫做微軟認(rèn)知服務(wù),就是在云上的一個智能的API。它想達(dá)到什么目的呢?就是希望如果我們第三方的開發(fā)人員調(diào)用這些API的話可以使得你們的應(yīng)用,你們的APP可以像人一樣理解這個事情,不用花20年、30年的時間開發(fā)視覺的感知,很方便的能拿到這樣的效果。
智能包括計算機(jī)視覺、語音、語言、知識和搜索。我講了半天認(rèn)知服務(wù),大家還不太清楚認(rèn)知服務(wù)是什么,我給大家看這張幻燈片的時間就想起來了,去年有一款紅遍中國大江南北的應(yīng)用叫做How-Old.net,我想很多人上傳過照片看過你自己是什么歲數(shù)。這款應(yīng)用是很有意思,我們下面的,有人把奧巴馬一家相片上傳進(jìn)去,奧巴馬家庭里最高興的是他的太太,36歲,比先生要年輕很多。靠右邊的圖片是微軟公司在剛成立的時候拍的一張,今天微軟公司有11萬員工分布在全球各個國家,但是當(dāng)時剛成立的時候只有11名員工,這款應(yīng)用不叫做年齡的估計,而是顏齡的估計,你看上像是多大了。除了對人臉的分析以外,知道他在那里,長什么樣,什么性別,什么年齡,我們還想知道一個人的喜怒哀樂是什么樣的,我們上傳一幅圖片知道這個人是高興還是生氣,還是憤怒,還是無奈,這種表情也做進(jìn)了我們智能的API。
比人臉更有意思的一件事情就是圖片。其實(shí)我們一直有這么一個愿景,我們希望計算機(jī)通過它的視頻攝象頭可以看到外面的世界,也可以去理解方面的世界,我們做的第一步就是要把這些圖片進(jìn)行分類。在座的如果有在計算機(jī)視覺領(lǐng)域做過研發(fā)的朋友可能知道計算機(jī)視覺有一個全球的比賽,叫做ImageNet,是什么呢?是有1000類不同的物體,總共有120萬張圖片可以用它進(jìn)行訓(xùn)練你的不同算法,在測試的時候還有10萬張圖片是計算機(jī)從來沒看倒過的,你把10萬張圖片讓計算機(jī)看,它需要告訴你這張沒有見到過的圖片是1000類物體中的哪一類,這是全球的比賽。全球很多的頂尖的學(xué)府、高等院校和大公司的實(shí)驗室都在參加這個比賽,這個比賽在深度學(xué)習(xí),沒有被引入計算機(jī)之前,2012年之前錯誤率是20%左右,我給計算機(jī)一張沒有見過的圖片,它分成1000累的某一類,2012年深度被引入之后錯誤率是10%左右,之后錯誤率一直下降,準(zhǔn)確率一直上升,到2014年的時候斯坦福一個在讀的博士生就說是計算機(jī)不同的算法在PK,我們?nèi)嗽谶@里能識別多少?看似簡單,其實(shí)并不簡單的問題。我如果告訴你,在這1000類物體中間,有67種不同的狗,我相信我們就知道這個問題有多難了,我對狗大概只能認(rèn)出四五種,1000類中有67種不同的狗,在座的能認(rèn)出幾類?所以斯坦福的博士把自己關(guān)在小屋里學(xué)了之后參加比賽,錯誤率是5.1%,比任何一位都要好,60多種不同的狗和不同的植物。我們微軟去年開發(fā)了深度學(xué)習(xí)的看法,把錯誤率降到了3.57,超過的人類的水平。
深度學(xué)習(xí)說白了是很深的人工神經(jīng)元網(wǎng)絡(luò),在20年以前,還記得那時候的隱含層只有一層,因為沒有足夠的計算能力,當(dāng)時只是一臺386,沒有足夠多的訓(xùn)練樣本,沒有好的算法,今天的深度學(xué)習(xí)在2012年的時候已經(jīng)到達(dá)了8層,看似很深還有比它更深的。
2014年的時候我們研究人員做出了19層的,在去年的時候微軟亞洲研究院同時把它做到了152層,達(dá)到了人類歷史上迄今沒有達(dá)到過的這么深的一個層次,它其實(shí)是模擬我們?nèi)祟惿窠?jīng)元的連接,發(fā)現(xiàn)一些原來沒有辦法發(fā)現(xiàn)的東西,不是給你一臺更大的計算機(jī)做得更深,算法上一定要有很重要的突破。比如說殘差式的學(xué)習(xí)方式,是新的算法突破,使得我們做出了152層,達(dá)到了比人類分類更準(zhǔn)確的準(zhǔn)確率,在比賽中間取得了第一名。
比圖片分類更難的事情是物體的檢測。圖片分類是什么意思呢?我給計算機(jī)看一張它沒有見過的圖片,它需要告訴我這張圖片里面是什么物體,比如說是一只狗,物體檢測就更難了,不僅要告訴我圖片里面有一只狗,還要告訴這只狗在什么地方,還要用框把它框出來,我在這里顯示的有很多物品,人、茶杯、桌子,還有邊上露了一個腿仍然能檢測出來這是一個人。
從圖片的分類到物體的檢測,更難的任務(wù)是什么呢?是在每一個像素級別都能告訴這是人還是狗。
(視頻播放)精確到像素級,幾乎和我們?nèi)丝吹酵饷娴氖澜缫粯拥臏?zhǔn)確。
大家看到這個沒有什么難的,圖像的分類,物體的檢測,這根本不難,但是計算機(jī)只能看到兩個事,一個0,一個1,這是非常難的事情,這是第二個AI,聚眾的智能,把人類的大數(shù)據(jù)挖掘,使得它能夠識別很多東西
第三個AI是自適應(yīng)的AI。
我想舉兩個例子,在座的肯定有很多人用手機(jī)自拍,特別是一些美女,我相信你們每天都會自拍,你非常想要一款很好的自拍應(yīng)用,為什么要用一款很好的自拍應(yīng)用呢?希望你不要太去操心,希望這款應(yīng)用能夠自己適應(yīng)你,你如果在很黑暗的房間他知道把光線調(diào)亮,如果后面有很亮的窗戶他想辦法讓窗戶變暗,臉變量,如果女士拍照最好美顏的程度高一點(diǎn),不要有皺紋,如果是男士希望不要有這個用戶,但如果你是用戶你不用去操心,這款應(yīng)用自己操心,他知道你在什么環(huán)境下做拍攝,他知道你是男士還是女士,知道你的膚色是白的還是黑的,是深的還是淺的,如果是這樣的能達(dá)到自適應(yīng)的。
這是一段簡短的視頻演示,這款用戶不用操心,因為這款應(yīng)用很智能的幫你操心過了。這是一個應(yīng)用來演示自適應(yīng)的智能。
第二個例子我想跟大家聊一下自適應(yīng)的智能。
在六十年代的時候美國有一部電影很有意思,叫《星際迷航》,這些星際的探索者們座著飛船不停的穿梭,大家想在同一個地球上有不同的語言,不同的星球上更有不同的語言,我們有沒有辦法和說不同語言的人能夠?qū)崟r的交流,當(dāng)時有一個他們在想象中的東西,叫宇宙翻譯器,你拿了這個東西和別人聊,不管這個人說什么都可以和它實(shí)時的交互。我們做研發(fā)的人就是想把夢想變成現(xiàn)實(shí)的人,過去二十年當(dāng)中微軟的同事花了很多精力開發(fā)這么一種軟件,在2012年的時候我們在內(nèi)部的技術(shù)節(jié)進(jìn)行了演示,2012年我們進(jìn)行了發(fā)布,2015年這款宇宙翻譯器就做成了。
它能做什么樣呢?我想給大家分享一段視頻,這個視頻是美國的背包客在中國拍了很多照片,走了3.5萬英里的路,但是他不會說中文,希望能和中國人進(jìn)行溝通。(播放視頻)一個不會說中文的人可以實(shí)時的和會說中文的人進(jìn)行交流,其實(shí)如果要達(dá)到這樣的效果至少有四個很重要的技術(shù)需要做到。第一點(diǎn),湯姆他說的英文的音頻信號要被實(shí)時的識別成英文的文字,這是第一步語音識別;第二點(diǎn),我們都是在日常的口語說話,不是讀報紙,里面有口語的詞,要把它刪除掉;第三點(diǎn),實(shí)時翻譯,把英文的文字翻譯成了中文的文字;第四點(diǎn),中文的文字還要變成中文的文字發(fā)出來。所以這四步,每一步都要非常準(zhǔn)確,如果每一步只做到了95%的正確率是串聯(lián)的,95%的四次方正確率就降到70%左右了,非常差,所以每一步要做的非常好。
具體的算法我沒有時間講太多,基本上也是基于深度神經(jīng)網(wǎng)絡(luò)和語言識別相結(jié)合,是的語音識別大幅度上升,語音合成TTS也變得更加自然和精準(zhǔn)。
我想給大家聽一段簡短的音頻,既選了有中文又有英文的一段話,這是美國的女士不是說中文,但是現(xiàn)在讓她說出的中文,像我一會兒說英文,一會兒說中文,你還知道是我一個人在說。(語音播放)這是我想說的第三個AI,叫做自適應(yīng)的AI。
第四個AI叫做隱形的智能。
今天我們都談了很多的智能家居也好,智能場地也好等等,這些智能家居、智能場地、智能穿戴要有設(shè)備,我不用操心站在什么地方,這些智能設(shè)備都幫我們做了,如果有一天我們讓智能設(shè)備變得很智能,它要結(jié)合計算機(jī)的語音,變成我們?nèi)祟惸軌蚵牰奈淖终f出來,這不是一件非常美好的事情嗎?我們可以想一下,這樣可以幫助我們那些看不見外面世界的朋友可以看得到外面的世界,比如這么一個場景,如果讓計算機(jī)可以看到的話它就知道這是一個男子騰空而起,表演一個科技。
我下面給發(fā)展放一段很簡短的視頻,是說微軟的工程師7歲失明了,看不見外面的世界,但是有了人工智能使得他能聽見外面的世界是什么樣的。(視頻播放)他可以通過一個眼鏡看到外面的世界,聽到外面的世界。很有用,非常有用的技術(shù),它把計算機(jī)視覺和自然語言處理相結(jié)合,使得通過一個眼鏡能看到外面的世界,名且以自然語言的方式把它給說出來。
還有很多這種隱形的智能,比如說像穿戴設(shè)備。我下面想給大家放一個簡短的視頻,我們可以看一看今后的可穿戴設(shè)備,它如果智能的話,它將來可以應(yīng)用在室內(nèi)設(shè)計、城市規(guī)劃、醫(yī)療,對生物個體的研究,對大腦的研究,我們可以看一看。(視頻播放)
這張說得是人工智能經(jīng)過過去六十的發(fā)展變得越來越智能,也是受到了學(xué)術(shù)界、工業(yè)界和我們一般大眾的很多關(guān)注,特別是在今年人工這個詞被造出來60周年之際,我覺得有很多新的事情也會在2016年發(fā)生,人工智能也會往前接著有幾步大的臺階走。
我已經(jīng)說了四個AI,第五個AI是什么呢?前一陣大家一直討論一個問題,因為人工智能越來越強(qiáng)大,就說人和人工智能我們今后怎么共存?是不是有一天人工智能要?dú)缥覀內(nèi)祟惖鹊,我覺得人工智能和人其實(shí)都是有各自的強(qiáng)項和弱項,人工智能強(qiáng)的地方就在于它有很強(qiáng)的記憶能力和運(yùn)算能力,在座的誰能把π的小數(shù)點(diǎn)背到100位?估計沒有,對計算機(jī)確實(shí)很簡單。但是別忘的人有兩個大腦,外邊大腦是邏輯推理、記憶、簡單的預(yù)算,右邊的大腦充滿了想象力,發(fā)散思維,有很多藝術(shù)細(xì)胞。人和機(jī)器是不一樣的,我想我們今后談的話題是人類+機(jī)器,人類利用人工智能很強(qiáng)的東西,使得我們?nèi)祟愖兊酶鼜?qiáng),這是第五個AI。
謝謝大家!