文/李智勇
回退到五年前,可能并不會有人想到給Google造成最大麻煩的會是亞馬遜,Alexa的成功事實上正在對Google造成根本性威脅,F(xiàn)在再回頭看亞馬遜一路采取的行動,你會發(fā)現(xiàn)它幾乎每步都做對了:(1)從收購三家語音公司打造Echo,(2)再到花4~5年打造一款產(chǎn)品的體驗而不是草草拼湊一款好像能用的產(chǎn)品,(3)然后確定一個柱狀的ID而不是擬人態(tài)的機器人來降低用戶預(yù)期,(4)銷量一旦站到百萬以上則開放后端Alexa Skills Kit以及Amazon Voice Service,(5)再到最近的開放七麥克風(fēng)陣列。幾乎每一步都高度務(wù)實和正確,與之相比有些國內(nèi)公司就顯的太想抄近路了。
從麥克風(fēng)陣列說起
麥克風(fēng)陣列是把多個麥克風(fēng)組合在一起來對聲場的空間特性進行采樣并處理的系統(tǒng),形狀不局限于環(huán)形,而可以有線性、十字等。(更詳細的介紹,請參見聲智科技的陳孝良博士的文章,如:http://www.leiphone.com/news/201610/BSlh3Kf6wcqNCRH9.html)。亞馬遜Echo這產(chǎn)品雖然用到了很多技術(shù),也連接了很多內(nèi)容,但最為核心的部分正是麥克風(fēng)陣列。因為在柱型ID下面,人們的預(yù)期已經(jīng)被大幅收窄,這樣內(nèi)容外的核心的體驗點就只有速度和精度。而在遠場語音交互中由于真實場景中各種干擾聲源的存在,精度的瓶頸就變成了聲學(xué),而不是已經(jīng)相對成熟的深度學(xué)習(xí)等。聲學(xué)技術(shù)中對最終體驗比較關(guān)鍵的正是這次亞馬遜授權(quán)給第三方的:麥克風(fēng)陣列,喚醒、回聲抵消、降噪、去混響等算法,當然還有一部分是融合到AVS中的已經(jīng)開放出來的遠場語音識別。
亞馬遜開放自己的7-Mic陣列的本質(zhì)含義在于亞馬遜正式把Alexa的優(yōu)先級放在Echo這個產(chǎn)品之上;趤嗰R遜的7-Mic陣列以及配套技術(shù),理論上講少數(shù)其它公司是可以打造出交互體驗與Echo一樣的產(chǎn)品的,而顯然的用亞馬遜陣列其背后必須集成的是亞馬遜的Alexa。
這很符合一個互聯(lián)網(wǎng)公司的本質(zhì)定位,Echo再怎么賣下去也很難讓亞馬遜變成蘋果,但Alexa如果成功則可以大幅侵蝕Google的市場份額。簡單來講是這樣:Alexa占據(jù)搜索多少份額,Google就失去多少。這點上正好可以突出一個產(chǎn)品公司和互聯(lián)網(wǎng)公司的差別,蘋果嘗試過授權(quán)自己的操作系統(tǒng),但很快放棄了,這在產(chǎn)品公司的商業(yè)邏輯上是合理的;亞馬遜開放自己的核心技術(shù),并授權(quán)給第三方,這在互聯(lián)網(wǎng)公司的商業(yè)邏輯下也是合理的。
亞馬遜的這次行動可以平息掉行業(yè)里面一些很莫名其妙的爭論,比如兩個麥克風(fēng)就夠了等等。既然亞馬遜認識到了對多麥克風(fēng)陣列的需求,并且NXP等也愿意跟進,那無疑的可以說明多麥克風(fēng)陣列是市場必須的環(huán)節(jié)。這反過來可以襯托Google Home上的決策失誤,Google那什么來覆蓋多麥克風(fēng)陣列的市場?
正在形成的新行業(yè)
顯然的大家也會比較關(guān)注亞馬遜這樣的行動會對國內(nèi)市場以及創(chuàng)業(yè)公司有什么樣的影響?
直接的影響其實不大,因為國內(nèi)語音交互的啟動速度眼下看比國外要慢個2~3年。但間接的影響其實并不小,因為亞馬遜的一系列行為本質(zhì)上是在開啟一個新的分工鏈條,這個分工鏈條里很可能出現(xiàn)很多個百億市值的公司(想象下iPhone的產(chǎn)業(yè)鏈拉動了多少百億市值的公司)。
很多人可能以為亞馬遜自己的授權(quán)行為會導(dǎo)致第三方技術(shù)提供商生存空間被壓縮,但其實正相反,在這個新開啟的行業(yè)中會涌現(xiàn)出新的有實力的技術(shù)提供商。
因為亞馬遜的這種行動本質(zhì)含義在于加速激活語音交互這個市場。假設(shè)我們前面的判斷正確,亞馬遜確實認為Alexa遠比Echo重要,那無疑的亞馬遜的核心使命是盡快為Alexa獲取客戶,這樣一來只用自己的麥克風(fēng)陣列(以及背后一系列技術(shù))來為Alexa獲取用戶顯然是極不明智的。那樣的話,Alexa用戶的增長速度會與自己麥克風(fēng)陣列技術(shù)的銷售速度等同。同時做過聲學(xué)前端的人會知道,聲學(xué)前端事實上是一種只能適度標準化的技術(shù),也就是說即使有80%的工作在一個產(chǎn)品上重用,但一旦遷移到第二個產(chǎn)品上還有至少20%的工作要調(diào)整,這和芯片有本質(zhì)差異。所以如果不能拉動整個鏈條,只依賴于自己一個公司,那語音交互推開的速度會極慢。所以如果亞馬遜足夠名字那一定會積極尋找第三方技術(shù)提供商,培育生態(tài),只有前端的生態(tài)鏈條足夠成熟并且有足夠的動力支持亞馬遜,那么Alexa才可能真的加速普及。
國內(nèi)有的很多人被互聯(lián)網(wǎng)模式荼毒過深,會想當然的覺得一切會免費,但可能并沒有意識到NXP這類大公司如果沒有合適的邊際利潤,那就根本沒和亞馬遜做下去的動力。我們假設(shè)說亞馬遜做成了Alexa,那亞馬遜可以得到Alexa整個生態(tài),那這時候NXP可以得到什么?也就是說除非亞馬遜只是自己玩這游戲,否則如果想創(chuàng)建生態(tài)鏈條,那就需要為生態(tài)鏈條上的各個玩家留下利潤空間。
這件事情上一個典型的反例是Google的Chrome Book,Chrome Book從體驗上其實已經(jīng)基本滿足了用戶對筆記本的各種需求,甚至可能更加方便。但展開上核心的一個問題是Google并沒為第三方廠商留下足夠的利潤空間,比如聯(lián)想使勁推這產(chǎn)品,但最終發(fā)現(xiàn)自己無法從中盈利,這時候即使有銷量,聯(lián)想這類公司顯然也動力也不足。從過往戰(zhàn)略的明智程度上來看,亞馬遜不是Google,所以估計不會犯Google的錯誤。
在這樣的大背景下,遠場語音交互的新鏈條上,最有機會的反倒正是對前端有深刻理解的公司,這些公司幾乎每個都不可能通吃整個市場,但考慮市場規(guī)模,只要占據(jù)20%的市場份額已經(jīng)足夠支撐起10億美元上估值的公司。在PC、手機上國內(nèi)公司參與這個分工鏈條比較晚,所以這個部分幾乎全是海外公司,但眼下聲智科技這樣的創(chuàng)業(yè)公司正在嘗試在其中搶占合適的位置。
亞馬遜開放7-Mic陣列授權(quán)后,Google、微軟等預(yù)計會采取相應(yīng)行動,因為亞馬遜的授權(quán)顯然不會允許支持Google Assistant與Cortana。
國內(nèi)語音交互的發(fā)展
國內(nèi)其實是缺一款能和Echo媲美的標桿性產(chǎn)品,沒有這樣一款產(chǎn)品,大家就沒法相信語音交互是普遍可用的。聲智科技等公司可以提供與亞馬遜水平相當?shù)倪h場語音交互技術(shù),但顯然的把這種技術(shù)轉(zhuǎn)化為產(chǎn)品體驗仍然需要合適的人與足夠的投入進行打磨。
沒有這樣一種標桿性產(chǎn)品,那就只會有各種簡單嘗試,但這種簡單嘗試基本上都只會得到體驗較差的產(chǎn)品,無法擔(dān)負起激活市場的重任(想想iPhone和Echo)。這很像用火柴燒水的那個比喻:只要還是單根火柴,那不管你用多少根事實上都無法燒開一壺水,只有把足夠多的火柴放在一起,一起點燃,那才能最終把水燒開。
顯然的突破語音交互只有兩個瓶頸:一個是技術(shù)上的這就包括了交互的速度和精度,這只能依賴技術(shù)提供商來突破;一個是用戶習(xí)慣上的,這需要硬指標與內(nèi)容同步突破。這兩者的突破都需要沉淀和打磨。而國內(nèi)的很多嘗試更像是重復(fù):迅速點燃火柴,嘗試迅速的燒開水,然后發(fā)現(xiàn)水沒開這樣一個過程。
這點上其實需要大公司扮演更多的角色,因為其投入和產(chǎn)出都會比較大。打造一個平庸的產(chǎn)品可能只需要1百萬,但打造一個足夠有說服力的產(chǎn)品可能需要5000萬以上,這對創(chuàng)業(yè)公司挑戰(zhàn)確實會比較大。但收益顯然也是巨大的,假設(shè)說騰訊花了1億RMB打造了一款像Echo一樣的產(chǎn)品,那其它人即使打造了完全一樣的產(chǎn)品,很多人也會更傾向于活在騰訊的生態(tài)下(這正是Google尷尬的地方)。反過來講,這意味著誰第一個在國內(nèi)打造出了一個成功的產(chǎn)品,誰更有可能扮演亞馬遜的角色,去挑戰(zhàn)既有搜索市場的格局。
小結(jié)
亞馬遜發(fā)功越來越有穩(wěn)準狠的勢頭,但不管怎樣,我估計它那產(chǎn)品進不來中國。