12月以來,OpenAI公司的一款新型聊天機(jī)器人ChatGPT在互聯(lián)網(wǎng)上掀起軒然大波。它可以迅速寫出詩(shī)歌、劇本和具有一定篇幅的答案,推特上充斥著目瞪口呆的技術(shù)專家發(fā)布的這類作品的截圖。盡管GPT3的底層技術(shù)已經(jīng)問世多年,但這卻是OpenAI首次將這個(gè)高性能的語(yǔ)言生成系統(tǒng)提供給大眾使用,并在人們中間引發(fā)了一場(chǎng)向該系統(tǒng)發(fā)出最有創(chuàng)意指令的競(jìng)賽。(我最偏愛的指令是“寫一段圣經(jīng)經(jīng)文,解釋如何把花生醬三明治從錄像機(jī)里取出來!保┏诉@些噱頭之外,有人已經(jīng)發(fā)現(xiàn)了ChatGPT的實(shí)際用途,包括程序員可以用它起草代碼或查錯(cuò)。然而,該系統(tǒng)的最大用途可能給谷歌(94.86, -0.60, -0.63%)帶來經(jīng)濟(jì)災(zāi)難,因?yàn)樗梢詾槲覀兡壳霸谑澜缱顝?qiáng)大搜索引擎上查詢的問題給出更好的答案。
谷歌的工作原理是抓取數(shù)十億個(gè)網(wǎng)頁(yè),對(duì)內(nèi)容進(jìn)行索引,再將最具相關(guān)性的答案進(jìn)行排序。然后給出一個(gè)可供點(diǎn)擊瀏覽的鏈接列表。ChatGPT則為困惑的互聯(lián)網(wǎng)用戶提供了他們更感興趣的東西:基于自身搜索和綜合性信息給出的單一答案。ChatGPT已經(jīng)在數(shù)百萬個(gè)網(wǎng)站上進(jìn)行了訓(xùn)練,不但可以收集進(jìn)行類似人類對(duì)話的技能,還可以收集信息本身,只要信息是2021年底前發(fā)布到互聯(lián)網(wǎng)上的。
過去一個(gè)月,我找到了自己以往在谷歌上的搜索信息,將其中18個(gè)查詢內(nèi)容輸入ChatGPT,再把它們記錄下來。然后回過頭,再用谷歌查詢,重新喚起我的記憶。在我看來,最終結(jié)果是,18個(gè)查詢當(dāng)中,ChapGPT有13個(gè)答案比谷歌更有用。
“有用”當(dāng)然具有主觀性。這個(gè)詞的含義是什么?在本例當(dāng)中,指的是答案清晰全面。ChatGPT在關(guān)于“煉乳和淡奶哪個(gè)更適合做感恩節(jié)南瓜派”的問題上給出了詳細(xì)(盡管也略顯冗長(zhǎng)的)回答,解釋了煉乳可以讓南瓜派更甜。(當(dāng)然,這樣更好。)谷歌主要提供了一個(gè)食譜鏈接的列表,必須點(diǎn)開才能查看,而且沒有明確答案。
這完全彰顯了ChatGPT對(duì)谷歌的主要威脅。它給出了單一的即時(shí)回應(yīng),無需進(jìn)一步搜尋其他網(wǎng)站。用硅谷的話說,這是一種“無摩擦”體驗(yàn),是在網(wǎng)上消費(fèi)者一邊倒地青睞快捷易用服務(wù)之際的一種類似“圣杯”的東西。
當(dāng)然,對(duì)于一些查詢內(nèi)容,谷歌確實(shí)有自己的歸納性答案,但只是排名最靠前網(wǎng)頁(yè)的匯總,通常也很簡(jiǎn)短。谷歌也有自己的專有語(yǔ)言模型,名為L(zhǎng)aMDA,性能優(yōu)異,以至于該公司的一位工程師認(rèn)為這個(gè)系統(tǒng)擁有自主意識(shí)。
那么,谷歌為什么不像ChatGPT那樣,針對(duì)查詢生成自己的單一答案呢?原因在于,任何阻止用戶翻找搜索結(jié)果的東西都會(huì)損害谷歌的可以促使人們點(diǎn)擊廣告的事務(wù)性業(yè)務(wù)模式。數(shù)據(jù)顯示,2021年,Alphabet公司2576億美元的收入中約81%來自廣告,這其中大部分是谷歌的按點(diǎn)擊付費(fèi)廣告。
“這的確是一種更好的體驗(yàn),”他補(bǔ)充說,“谷歌搜索的目標(biāo)是讓你點(diǎn)擊鏈接,最好是點(diǎn)廣告,頁(yè)面上的所有其他文本都只是用來湊數(shù)的東西!2019年,拉馬斯瓦米與他人聯(lián)合創(chuàng)建了名為Neeva的訂閱式搜索引擎,并準(zhǔn)備在未來幾個(gè)月內(nèi)推出該引擎自己的生成式搜索功能,可以對(duì)網(wǎng)頁(yè)進(jìn)行歸納總結(jié)并添加腳注。
ChatGPT不顯示其信息來源。事實(shí)上,它的創(chuàng)造者們很可能不知道它是如何生成答案的。這揭示了它的最大弱點(diǎn)之一:有時(shí)候,它給出的答案是完全錯(cuò)誤的。
12月5日,面向程序員的問答網(wǎng)站Stack Overflow暫時(shí)關(guān)閉了平臺(tái)用戶分享ChatGPT建議的功能,稱程序員利用該系統(tǒng)上傳的數(shù)千條答案經(jīng)常是錯(cuò)誤的。
我本人的經(jīng)歷可以做證。當(dāng)我把12歲女兒的英語(yǔ)作文題輸入系統(tǒng)時(shí),它給出了一篇冗長(zhǎng)、雄辯的分析,聽起來言之鑿鑿。但答案中錯(cuò)誤連連,比如它稱一位文人的父母早已過世,而實(shí)際上他們還活著。
關(guān)于這個(gè)缺陷,最令人不安的是不準(zhǔn)確的地方難以察覺,尤其是當(dāng)ChatGPT聽上去信心十足的時(shí)候。Stack Overflow網(wǎng)站稱,該系統(tǒng)給出的答案“通?瓷先ズ芡昝馈薄penAI自己也承認(rèn),這些建議往往貌似可信。開始的時(shí)候,OpenAI是想把它的系統(tǒng)訓(xùn)練得更為謹(jǐn)慎,但結(jié)果卻是,它拒絕回答它知道答案的問題。它反其道而行,給出的答案就像是某位不學(xué)無術(shù)的大學(xué)兄弟會(huì)成員用來蒙混過關(guān)的論文。胡言亂語(yǔ)還流利順暢。
目前還不清楚ChatGPT的錯(cuò)誤有多大的普遍性。推特上流傳的一項(xiàng)估計(jì)是2%到5%。或許更多。這將使互聯(lián)網(wǎng)用戶對(duì)利用ChatGPT獲取重要信息持慎重態(tài)度。谷歌還有一個(gè)優(yōu)勢(shì):它主要通過對(duì)產(chǎn)品的事務(wù)性搜索查詢和對(duì)其他網(wǎng)站的導(dǎo)航式搜索(比如有人會(huì)鍵入“Facebook”或“YouTube”)來賺取收入。谷歌2022年的前100名搜索查詢中,這類查詢占據(jù)了多數(shù)。只要ChatGPT不提供其他網(wǎng)站的鏈接,就不會(huì)太深入地侵占谷歌的地盤。
但這兩個(gè)問題會(huì)隨時(shí)間推移而演變。隨著OpenAI將其模型的訓(xùn)練內(nèi)容擴(kuò)展到更接近當(dāng)前的時(shí)間段,ChatGPT的準(zhǔn)確度可能提高。為此,OpenAI正在開發(fā)一個(gè)名為WebGPT的系統(tǒng),希望能針對(duì)搜索查詢提供更準(zhǔn)確的答案,其中也將包括對(duì)信息來源的引用。ChatGPT和WebGPT的搭配使用,可能是對(duì)谷歌的有效替代方案。ChatGPT答案的準(zhǔn)確性已經(jīng)高于OpenAI早期的系統(tǒng)了。
ChatGPT五天內(nèi)就聚集了100萬用戶。這是非凡的成就:Instagram用兩個(gè)半月才達(dá)到這個(gè)數(shù)字,F(xiàn)acebook用了10個(gè)月。對(duì)于其未來應(yīng)用,OpenAI并沒有公開給出推測(cè),但如果它的新聊天機(jī)器人開始分享其他網(wǎng)站的鏈接,尤其是那些售賣商品的網(wǎng)站鏈接,就可能給谷歌帶來真正的危險(xiǎn)。