9月10日消息,從人機(jī)交互中獲取數(shù)據(jù)使得我們學(xué)習(xí)更有效,能夠構(gòu)建起更加智能的系統(tǒng)。目前,人工智能最有力的實(shí)現(xiàn)手段還是要基于數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)的方法得我們的機(jī)器更加智能化。
9月8日,華為諾亞方舟實(shí)驗(yàn)室首席科學(xué)家李航在中國(guó)軟件開(kāi)發(fā)者大會(huì)上針對(duì)如何通過(guò)人機(jī)交互的方式獲取數(shù)據(jù)做了主題演講。李航目前研究的方向是自然源處理信息檢索信息挖掘。
李航表示,機(jī)器學(xué)習(xí)最重要的一個(gè)環(huán)節(jié)就是收集采集數(shù)據(jù),高質(zhì)量的大規(guī)模的數(shù)據(jù)能夠幫助我們構(gòu)建出一個(gè)非常智能化的系統(tǒng)。
李航稱,一般來(lái)說(shuō),我們學(xué)習(xí)的時(shí)候假設(shè)要學(xué)習(xí)的模型有K個(gè)參數(shù),參數(shù)個(gè)數(shù)一般表示模型復(fù)雜度,經(jīng)驗(yàn)上至少模型參數(shù)數(shù)百倍訓(xùn)練樣本才能夠大概把模型學(xué)得比較好。所以現(xiàn)實(shí)當(dāng)中,我們需要非常多的高質(zhì)量的數(shù)據(jù)來(lái)幫助我們?nèi)?gòu)建智能化的系統(tǒng)。
有三種方式幫助我們采集數(shù)據(jù),一種數(shù)據(jù)挖掘、一種眾包、一種人機(jī)協(xié)同計(jì)算。
很多數(shù)據(jù)機(jī)器識(shí)別的難度很大,而對(duì)人來(lái)說(shuō)卻不過(guò)是幾秒鐘的事情。比如圖片識(shí)別,如果大量工人幫助標(biāo)注大量圖片數(shù)據(jù)可以幫助我們很快地構(gòu)建一個(gè)智能系統(tǒng),往往以很小的代價(jià)就能達(dá)到我們的目的。
Luis VON Ahn提出了Human Computation的概念,即把人當(dāng)成一個(gè)個(gè)計(jì)算機(jī),人和機(jī)器計(jì)算機(jī)兩者做各自擅長(zhǎng)的東西,然后兩者協(xié)同計(jì)算,互相取長(zhǎng)補(bǔ)短,使得我們能夠更好地完成很多任務(wù),這是所謂人機(jī)協(xié)同計(jì)算的主要想法。
互聯(lián)網(wǎng)的存在給人機(jī)交互帶來(lái)了更多的可能。有些公司在網(wǎng)絡(luò)上發(fā)起活動(dòng)任務(wù),邀請(qǐng)世界各地的網(wǎng)民來(lái)幫他們做一些數(shù)據(jù)識(shí)別的工作,還有一些公司把這種工作策劃成游戲,提高網(wǎng)民的參與度。在演講中,李航表示目前這種眾包的方式采集數(shù)據(jù)在圖片識(shí)別和搜索方面有很多的實(shí)踐案例。
李航說(shuō),“如果我們很好地設(shè)計(jì)我們數(shù)據(jù)采集的方法,很好地設(shè)計(jì)我們機(jī)器學(xué)習(xí)的方法,我們能夠很好地把這兩者結(jié)合起來(lái)很好地構(gòu)建我們的智能系統(tǒng)”。
如何保證數(shù)據(jù)質(zhì)量非常高同時(shí)對(duì)我們又有用,需要有一個(gè)非常巧妙的設(shè)計(jì)滿足這樣的條件,李航表示,如何找到很多的用戶能夠幫助我們?nèi)プ鲞@種高質(zhì)量的數(shù)據(jù)描述工作是目前正在探討的話題。