飛象網(wǎng)訊(李樂羽/文),4月28日消息,在今天的GMIC 2017北京大會未來創(chuàng)新峰會上,竹間智能科技創(chuàng)始人 & CEO簡仁賢發(fā)表演講,演講題目為AI時代的人機(jī)情感共鳴。
以下為演講內(nèi)容:
大家好!很高興可以來參加GMIC,GMIC的口號,我個人是非常喜歡的,“愿全世界每個人都來一次GMIC”,我覺得這是非常遠(yuǎn)大的愿景。
今天跟大家分享一下Bot如何改變?nèi)撕褪澜,如何用新的方法連接人和世界。我先定義一下什么是Bot,廣義來講,它就是一個對話機(jī)器人。一般人會把它聯(lián)想成實(shí)體機(jī)器人。Bot如何改變?nèi)撕褪澜绲倪B接呢?在一百多年前,人類就已經(jīng)開始有這些科學(xué)幻想,幻想人以后會演變成什么樣子的人。從那個時候的幻想才導(dǎo)致了人類對以后的恐懼,因?yàn)槿祟愰_始在設(shè)想以后會有什么樣的變化。一直進(jìn)步到90年代有更多的科幻想象出現(xiàn),開始演變成未來的科學(xué)、未來的人工智能是可以作為人的助手。一直演變到2000年以后的人類開始幻想Bot以后的人工智能機(jī)器人能不能成為人的伙伴。在竹間來講是非?赡艿,也是希望把機(jī)器人創(chuàng)造成人的伙伴,能跟人共存。
對我們來講,機(jī)器人、人工智能不是取代,我個人不覺得人工智能會取代人類,人類有他存在的必要性、有他存在的價值,人工智能應(yīng)該是幫助人類過更好的生活,幫助人類生活得更有價值,能夠創(chuàng)造更多的價值。
在未來全新的互聯(lián)網(wǎng)時代,Bot會成為新的交互界面。整個虛擬世界和實(shí)體世界之間需要一座橋梁,未來的橋梁是由Bot達(dá)成的。從這一段演變的歷史,大家可以看得出來,在1960年代,出來之前一切都是人類的,那個時候還有計(jì)算機(jī)、打字機(jī),就是火箭上天空也是由人計(jì)算出來火箭的升空路線,那個時候都是用自然語言的。慢慢演進(jìn)成Moinframe,一直到PC、搜索引擎、智能手機(jī)。隨著科技的發(fā)達(dá),大家的智能手機(jī)越來越多了,一臺筆記本,到公司又有很多儀器設(shè)備,這些東西終將讓我們處在數(shù)字時代,就會產(chǎn)生碎片化,人最終還是會回到自然語言交互的界面。
到2030年,人類和世界的絕大多數(shù)溝通都會有Bot存在,它不是取代,而是機(jī)器人AI跟人協(xié)作的景象。有可能Bot只是幫助到20-30%,有的行業(yè)是能幫助到80%。
大家每天離不開的是手機(jī),APP的使用在過去9年來已經(jīng)產(chǎn)生巨大變化。從大家瘋狂的下載APP,到現(xiàn)在每個人每一天會用的APP數(shù)量越來越少,每個月會下載的APP已經(jīng)驟減,APP的使用從碎片化到集中化。三天前,微信發(fā)布了消息,要開始做搜索。如果大家每天用手機(jī),其實(shí)70%的時間都是在微信,或者是在Facebook,或者是在Line,是不是就沒有搜索了呢?搜索是不是被另外一種方式而取代了?信息化會從非結(jié)構(gòu)的信息化,搜索去解決非結(jié)構(gòu)信息化的過程,到一個APP,能夠快速幫你進(jìn)入社交場合。APP會越來越示弱,取而代之的是Bot幫你完成一件事情,人們不再用兩只手點(diǎn)不一樣的頁面,可能一句話、一個聲音,或者是一個表情,Bot就能夠幫你達(dá)成。
我們講了這么多Bot,其實(shí)Bot已經(jīng)流行了幾十年。在美國,我個人知道做Bot的公司有200多家,垂直的也好,通用的也好,聊天的也好。在國內(nèi)卻比較少。為什么呢?中文比英文難多了,難很多,可能是10倍、幾十倍上的難。講最簡單的,英文沒有分詞的問題,每一個字每一個字都是space limitd(音),而中文幾乎是沒有標(biāo)點(diǎn)符號的,比如“我喜歡聽《十年》,十年過去了”。如果只用關(guān)鍵詞,你無法理解這兩句話是什么意思。
大家講了那么多,是不是Bot是一個泡沫?Bot的技術(shù)已經(jīng)到了嗎?我總結(jié)了一下目前市面上的Bot有三種。第一種是只會瞎聊的聊天機(jī)器人。如果它的單一目的只是聊天,是達(dá)不到用戶黏性的,用戶只會想到瞎聊,無聊的時候才會用。這個時候產(chǎn)生不了黏性。瞎聊的機(jī)器人有一個壞處,就是無法理解上下文,無法記憶,你每天跟它聊的時候,它都忘記你是誰,你要重新來一次,這跟玩兒小游戲沒有差別。第二種就是模板式的、常用問題式的,嘗試著理解問答系統(tǒng),很簡單的模板式的一問一答。答不出來的時候,就會給你回答一些通用性的問題,這也滿足不了需求。第三種是基于關(guān)鍵詞的搜索,大家用過很多中文的語音助手,它聽不懂,就給你搜索結(jié)果。以前我在微軟做移動搜索的時候,就是做這個的,這個跟搜索沒有兩樣,只是語音式的搜索,滿足不了人的需求。
目前Bot的問題有這三類,第一類是只會閑聊的聊天機(jī)器人,不懂上下文,無法記憶用戶。第二種是只會模板式的解決問題、回答問題。第三種是只能用關(guān)鍵詞、搜索結(jié)果,都達(dá)不到目的。這三種問題就是Bot沒有普及、沒有辦法落地、沒有辦法商業(yè)化、沒有辦法驗(yàn)證的最重要的問題。
這些問題怎么解決呢?2015年,我們創(chuàng)立了竹間智能,用了18個月的時間,集結(jié)了150位人工智能的愛好者,我們解決了這個問題。我們創(chuàng)建了一個新形態(tài)的對話系統(tǒng),新形態(tài)的Bot system,它是基于內(nèi)腦的方式,模擬人的思考方式和行為模式,以情感為出發(fā)點(diǎn),以理解人,以人為本為出發(fā)點(diǎn)。它不是以NLP自然語言處理為中心的對話系統(tǒng),它是以理解人的立場去做的。因?yàn)橛肗LP理解會造成剛剛提到的那三個問題。內(nèi)腦的對話機(jī)器人有很多的對話機(jī)制。
我們開發(fā)的第二個核心技術(shù)是多模態(tài)的情感識別,強(qiáng)調(diào)于情感。未來幾年之內(nèi),誰能夠?qū)嶒?yàn)情感智能加語義理解,誰就能夠?qū)崿F(xiàn)強(qiáng)人工智能的第一步。AI有很多,人機(jī)交互是一個。
我們也在將這些技術(shù)進(jìn)行商業(yè)的AI落地,在過去6個月,我們跟數(shù)十家企業(yè)在驗(yàn)證、打磨、落地這個技術(shù)。
要做到好的人機(jī)交互,必須要語言、語音和圖像一起做。如果單一的只做語言,你是沒有辦法理解人機(jī)交互的真正的重點(diǎn),我們把語音的情感、臉部的情感、語義的理解交互一起做,這樣才能構(gòu)成全套的人機(jī)交互系統(tǒng)。
很多人問我竹間智能跟其他競爭者有什么不一樣。我們可以說是國內(nèi)唯一一家能夠把語音情感、語言理解、基于人臉的圖像情感一起做的一家公司,做到全方位的人機(jī)交互,用情感理解、意圖理解真的能夠做到極致的對話系統(tǒng)。
竹間關(guān)注的是認(rèn)知世界,語音識別、圖像識別開始都是從感知層面開始做起,竹間做的是認(rèn)知層面,最重要的是把文字轉(zhuǎn)換成意思、把文字轉(zhuǎn)換成意圖和情感,才是最重要的,這樣才有辦法讓Bot為人做服務(wù)、制造商業(yè)價值。
我們認(rèn)為合格的對話應(yīng)該是這樣的,它可以記憶情感狀態(tài),可以記憶用戶的習(xí)慣,可以理解用戶的意圖和上下文,做一個比較滿意的交互。
(演示)
從意圖的理解到復(fù)雜語義。這里展示的是在聊天的過程中,識別意圖,可以幫助人達(dá)成一些任務(wù)。這個是基于一套的對話交互系統(tǒng),不是經(jīng)由關(guān)鍵詞或者是模板的匹配,它是把幾個技術(shù)連接在一起。它是beyond NPL,我們獨(dú)資開發(fā)了NLU的綜合解決方案,我們也發(fā)明了NLQ(自然語言查詢),通過自然語言的查詢可以問各式各樣的問題,不需要用關(guān)鍵詞來解決。NLG(自然語言的生成)。我們認(rèn)為語言模型是無法嵌入到單一的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)上的,一篇論文和一個理論是無法達(dá)成對話需求的,必須要在懂人的立場去上做的。我們做的各個模塊解決的是開放域的人機(jī)交互的問題,怎么解決呢?就是意圖理解、情感理解和各個領(lǐng)域的知識。
開發(fā)這樣一個對話系統(tǒng)不是只有深度學(xué)習(xí)、機(jī)器學(xué)習(xí),很重要的是必須加上認(rèn)知科學(xué)的元素。更重要的就是一般在做深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的時候忽略了語言學(xué),沒有辦法把語言學(xué)很重要的元素加到機(jī)器學(xué)習(xí)和深度學(xué)習(xí)里面去,這就是竹間在過去一年多以來一直在嘗試摸索和建構(gòu)的過程。
最后是心理學(xué)。人的思考方式、行為模式、交互方式還是要加上心理學(xué)模式的。
這是我們做的交互過程,必須具備上下文的理解、記憶、情感,才有辦法到底是要識別語音,還是完成任務(wù)。
我們做出了20多種情緒、情感的識別,情緒情感的認(rèn)知有三個方面。第一個方面是文字上代表的情緒情感。第二個是我說話時的心情、情緒、情感,有的時候不是字義上表示的。第三個是機(jī)器人在交互的時候應(yīng)該用什么樣的情緒情感來回復(fù)。我們做intent做的比較深,目前做到200種不同的intend,會繼續(xù)增加上去,有可能會做到上千個。在不同的領(lǐng)域、不同的場景和情境里都有不同的intend出現(xiàn)。每個人講話時代表的實(shí)體都是intend,我們用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法做出一套intend,它也是可以被高度定制化的。
從了解intend,再了解意思和情緒,就有辦法把一推轉(zhuǎn)換成Skill機(jī)器人可以有各式各樣的技能,幫你打車、幫你訂電影票、查找知識、陪你讀書。
綜合機(jī)器、語言學(xué)、內(nèi)腦的架構(gòu)構(gòu)成了比較獨(dú)特的對話系統(tǒng)。
以這樣比較完整的人機(jī)交互系統(tǒng)為基礎(chǔ),我們開發(fā)出了各式各樣的商業(yè)解決方案和個人應(yīng)用。比如,在金融領(lǐng)域,我們建構(gòu)了一套主動式的客服系統(tǒng)。同樣一個界面,也可以作為理財機(jī)器人。這是我們在金融方面的落地的解決方案。在商務(wù)和互聯(lián)網(wǎng)的解決方案上也是一樣,同樣一個對話界面,可以達(dá)到售后服務(wù)和售前的導(dǎo)購,以個性化對用戶的理解,主動式跟客戶溝通,做到售前、售中、售后的一整套對話系統(tǒng),全部都是由一個界面來完成。能夠做到這樣的地步,必須擁有比較強(qiáng)的交互對話系統(tǒng)。在IOT的部分,機(jī)器人具有視覺、speaker,用多模態(tài)的交互系統(tǒng),可以達(dá)到上機(jī)器人聽得懂、看得懂、讀得懂。還有智能冰箱,一直有幾個廠商在試。同樣一個交互系統(tǒng),如何在商業(yè)上落地,如何為商業(yè)帶來價值,如何在C端落地,必須經(jīng)過一個完整的對話系統(tǒng),人機(jī)交互技術(shù)來達(dá)成。
情緒情感的技術(shù),我們可以分析人的表情、人的視線、人的注意力,語音情感也可以用到呼叫中心語音自檢,帶來商業(yè)價值。這一整套應(yīng)用可以把語言、語音、圖像結(jié)合到商業(yè)解決方案中。商業(yè)需要的不是單一的技術(shù),而是圈套的解決方案。唯一具有語言、語音、圖像的交互技術(shù)才能帶來更多的商業(yè)價值。在短短的6個多月,我們得到數(shù)十家大型企業(yè)的認(rèn)同,把這些技術(shù)驗(yàn)證落地,這就是我們一直在做的工作。
(演示)
去年9月開發(fā)出來的多模態(tài)的辨識技術(shù),用傅園慧的語音做了一個demo。
不同的表情可以應(yīng)用的方向是非常多的,有不同的解決方案。
這是另外一個多模態(tài)的交互,可以應(yīng)用到有攝像頭的家電設(shè)備和智能機(jī)器人上。左邊是用戶看到的機(jī)器人的表情,右邊是機(jī)器人看到的人。它可以從你的表情、文字和語音上識別出你的情感,它跟你的交互就可以是各式各樣不同的情感。有的人喜歡我在傷心的時候你跟我共鳴,有的人喜歡在傷心的時候你給我一些鼓舞,只有多模態(tài)才有辦法讓人機(jī)交互做得更貼切。
現(xiàn)在已經(jīng)落地的是金融、電商、IoT,已經(jīng)得到驗(yàn)證。人工智能還只是起步,大家都認(rèn)為人工智能是一個泡沫,我個人認(rèn)為泡沫還沒來。
我們最后想要達(dá)到的是AI技術(shù)的共享化,我們的夢想是每個人都有一個Bot,每一個商家都有一個Bot。
Bot無處不在。
謝謝大家!