“谷歌計(jì)劃在旗艦搜索引擎中添加對(duì)話式人工智能功能,這將引導(dǎo)公司應(yīng)對(duì)來自ChatGPT等聊天機(jī)器人的競(jìng)爭(zhēng)和更廣泛的業(yè)務(wù)壓力!惫雀枋紫瘓(zhí)行官Sundar Pichai在近日的一次采訪中表示,AI并不會(huì)對(duì)谷歌的搜索業(yè)務(wù)構(gòu)成威脅,相反,人工智能的進(jìn)步會(huì)增強(qiáng)谷歌搜索查詢的能力。
然而,在高調(diào)推動(dòng)研發(fā)的同時(shí),谷歌的經(jīng)濟(jì)狀況卻并不樂觀。自2023年1月宣布裁員12000人(占Alphabet總員工6%)之后,近日,谷歌首席財(cái)務(wù)官Ruth Porat又向員工表示,預(yù)計(jì)將從餐飲設(shè)施到公司計(jì)算基礎(chǔ)設(shè)施等領(lǐng)域削減更多支出。有趣的是,谷歌稱“這對(duì)開發(fā)和運(yùn)行強(qiáng)大的人工智能算法至關(guān)重要”。
就在谷歌“砸鍋賣鐵”研發(fā)大型語言模型(LLM)的同時(shí),ChatGPT及類似的LLM們,也開始“大殺八方”。
近日,美國就業(yè)服務(wù)平臺(tái)Resume Builder公布的一項(xiàng)調(diào)查統(tǒng)計(jì)顯示,在1000多家受訪美國企業(yè)中,有48%的企業(yè)已經(jīng)在用ChatGPT取代人類員工。
新聞出版業(yè)感受到了這場(chǎng)沖擊波。今天的AI越來越讓人深刻體到會(huì)什么叫“教會(huì)徒弟餓死師傅”。正在搶走你工作崗位,替代你的ChatGPT們,其實(shí)正是在無數(shù)遍調(diào)用你的工作數(shù)據(jù)之后,利用你的這些工作成果訓(xùn)練出來的。
而媒體行業(yè)的老板們也正在思考如何執(zhí)行“打不過就加入”的策略,他們希望嘗試跟微軟、OpenAI、谷歌這樣的AI研發(fā)公司分分ChatGPT的“錢”。
3月23日,美國新聞集團(tuán)旗下媒體華爾街日?qǐng)?bào)報(bào)道,有知情人士透露,最近幾周,美國出版行業(yè)的高管們對(duì)于ChatGPT的爆火也坐不住了。他們正在研究出版集團(tuán)們的內(nèi)容在多大程度上被用于“培訓(xùn)”ChatGPT等人工智能工具。
一場(chǎng)針對(duì)版權(quán)、法規(guī)的爭(zhēng)論正在展開。
每個(gè)碼字工可能都被ChatGPT白嫖了
對(duì)此,美國新聞媒體聯(lián)盟的高層們討論的核心是人工智能公司是否有合法權(quán)利從互聯(lián)網(wǎng)上抓取內(nèi)容,并將其用于他們的AI大模型訓(xùn)練。而目前,美國有一項(xiàng)名為“合理使用”的法律條款,似乎允許AI公司在某些情況下,使用未獲授權(quán)的版權(quán)材料。
“我們有有價(jià)值的內(nèi)容,而現(xiàn)在,這些我們花費(fèi)人力、財(cái)力創(chuàng)造的內(nèi)容,正在不斷被用于為其他人創(chuàng)造收入!泵绹侣劽襟w聯(lián)盟執(zhí)行副總裁兼總法律顧問Danielle Coffey認(rèn)為,在這個(gè)問題上,新聞出版公司理應(yīng)得到經(jīng)濟(jì)補(bǔ)償。
OpenAI首席執(zhí)行官Sam Altman在此前接受的采訪中曾表示,“我們?cè)诤侠硎褂脭?shù)據(jù)方面投入很大,我們?cè)敢鉃槟承╊I(lǐng)域的高質(zhì)量數(shù)據(jù)支付大量費(fèi)用!崩缈茖W(xué)領(lǐng)域。在必要時(shí),OpenAI已經(jīng)就內(nèi)容達(dá)成了協(xié)議。
事實(shí)上,“版權(quán)”的概念在互聯(lián)網(wǎng)誕生之際就發(fā)生過一次變革,“分享”的概念隨著互聯(lián)網(wǎng)的高速傳播能力打破了很多版權(quán)商對(duì)內(nèi)容的壟斷。此后,版權(quán)之爭(zhēng)更是成為了內(nèi)容生產(chǎn)者、分發(fā)渠道、廣大用戶以及利益鏈上的各個(gè)相關(guān)實(shí)體不可避免的爭(zhēng)議話題。
美國新聞集團(tuán)對(duì)AI主要的擔(dān)憂在于,人工智能工具可能會(huì)耗盡其網(wǎng)站的流量和廣告資金。目前,微軟提供的NewBing,會(huì)在用戶問題的答案中包含鏈接。然而美國出版商的高管表示,有多少用戶實(shí)際上會(huì)點(diǎn)擊這些鏈接并訪問他們的網(wǎng)站,這是一個(gè)很難確定的問題。
事實(shí)上,AI可能確實(shí)會(huì)影響用戶對(duì)版權(quán)內(nèi)容的閱讀。Bing Chat可以針對(duì)網(wǎng)站內(nèi)容給出全面的總結(jié)分析式回答,從而大幅降低了用戶點(diǎn)擊原文鏈接的欲望。在對(duì)Bard的測(cè)試過程中,虎嗅發(fā)現(xiàn),只要給Bard提供鏈接,它就可以直接為用戶解讀網(wǎng)頁內(nèi)容,包括一些需要付費(fèi)瀏覽的內(nèi)容。不過由于Bard目前只支持美國和英國地區(qū)用戶,所以它目前只能解讀這些國家的網(wǎng)站。
谷歌的Bard通過網(wǎng)址解讀美媒The information的付費(fèi)新聞
目前,美國出版商行業(yè)組織新聞媒體聯(lián)盟已經(jīng)開始與微軟和谷歌的代表會(huì)面,并主張自己的權(quán)利,要求AI訓(xùn)練公司為數(shù)據(jù)、內(nèi)容付費(fèi)。如果談判效果不理想,這些出版集團(tuán)也不排除在該問題上訴諸法律。
ChatGPT們的學(xué)費(fèi)該怎么交
從OpenAI目前透露的信息來看,在GPT-3的訓(xùn)練過程中,很多數(shù)據(jù)是來自開源數(shù)據(jù)組織Common Crawl利用爬蟲抓取的數(shù)據(jù)。
Common Crawl是一個(gè)501非營利組織,它利用爬蟲對(duì)網(wǎng)絡(luò)進(jìn)行抓取,并向公眾免費(fèi)提供其檔案和數(shù)據(jù)集。Common Crawl的網(wǎng)絡(luò)存檔包含自2011年以來收集的PB級(jí)數(shù)據(jù)。通常每個(gè)月都會(huì)完成爬網(wǎng)。Common Crawl由Gil Elbaz創(chuàng)建。該非營利組織的顧問包括Peter Norvig和Joi Ito。
Common Crawl的數(shù)據(jù)使用條款中要求不可將數(shù)據(jù)用于非法用途,以及如下事項(xiàng):從事辱罵、騷擾、仇恨或其他冒犯性活動(dòng);侵犯他人隱私;危害未成年人;侵犯他人的權(quán)利(IP、專有等);規(guī)避復(fù)制保護(hù);干擾或破壞我們的網(wǎng)站、服務(wù)或安全;垃圾郵件的人;跟蹤人;冒充他人或以其他方式偽裝您的身份;偽造標(biāo)題或以其他方式偽裝我們的內(nèi)容;收集個(gè)人身份信息;為商業(yè)招攬而溝通。
雖然未提及不可用于商業(yè)用途,但Common Crawl的使用協(xié)議中,也聲明了要求保護(hù)版權(quán)、商標(biāo)等。所以,對(duì)于版權(quán)所有方提出的付費(fèi)要求,使用了版權(quán)數(shù)據(jù)的AI大模型研發(fā)公司,理應(yīng)回應(yīng)付費(fèi)或是補(bǔ)償需求。
不過,從長遠(yuǎn)來看,這個(gè)付費(fèi)模式,對(duì)于AI大模型來說恐怕還有很大的討論空間。畢竟AI大模型在學(xué)習(xí)了版權(quán)數(shù)據(jù)之后可能創(chuàng)造的價(jià)值,遠(yuǎn)大于一次性版權(quán)付費(fèi)。而出版社或許更關(guān)注他們的版權(quán)內(nèi)容,在AI工具中是否有侵權(quán)性的展示和露出,從而以此與AI工具的研發(fā)者建立長期分利的分利模式。
“生成式AI通常不會(huì)直接展示學(xué)習(xí)到的內(nèi)容,他都會(huì)進(jìn)行總結(jié)提煉,或是轉(zhuǎn)化成自己的話敘述給你!西湖心辰COO俞佳告訴虎嗅,AI大模型本身不存儲(chǔ)數(shù)據(jù),它存儲(chǔ)的是參數(shù)。而參數(shù)代表著在算法、模型框架之下,數(shù)據(jù)之間的關(guān)系。因此AI輸出的內(nèi)容,通常情況下都不會(huì)是原本的數(shù)據(jù)或內(nèi)容的復(fù)刻,也就很難界定是否侵權(quán)了。
此外,俞佳認(rèn)為,深度學(xué)習(xí)的底層邏輯是“學(xué)習(xí)”,對(duì)于版權(quán)內(nèi)容的一次性付費(fèi)是合理的,但長期付費(fèi)需要更創(chuàng)新的版權(quán)人收益模式!皩(duì)于知識(shí)來說,AI和人有些相似。比如說,我看了一本書,然后我用書里學(xué)到的知識(shí)賺到了錢,那么我需不需要或者應(yīng)該用什么方式來回報(bào)這本書的作者?這需要?jiǎng)?chuàng)新的解法”
由于國內(nèi)AI大模型研發(fā)和應(yīng)用相對(duì)于國外來說起步稍晚了一些,且ChatGPT官方尚不支持中國地區(qū)的應(yīng)用。所以AI暫時(shí)還沒有觸碰到國內(nèi)出版商的利益,國內(nèi)相關(guān)機(jī)構(gòu)也尚未對(duì)此提出大規(guī)模的公開質(zhì)疑。
虎嗅為此詢問了一些出版行業(yè)專業(yè)人士,某國內(nèi)出版社資深法務(wù)專家表示,“國內(nèi)版權(quán)保護(hù)意識(shí)基礎(chǔ)較為薄弱,在很多環(huán)節(jié)還跟不上。雖然現(xiàn)在ChatGPT對(duì)中國出版業(yè)界還沒有構(gòu)成明顯的威脅,但對(duì)AI的版權(quán)問題和生成式內(nèi)容的權(quán)屬界定問題,已經(jīng)被行業(yè)廣泛關(guān)注了!
“新聞報(bào)道在國內(nèi)的相關(guān)的法律當(dāng)中,特別是著作權(quán)法,是享有著作權(quán)的!庇^韜中茂律師事務(wù)所合伙人王渝偉向虎嗅介紹說,AI大模型利用享有著作權(quán)的內(nèi)容去進(jìn)行非營利性的科學(xué)研究問題不大,但是一旦商用,就需要為這部分內(nèi)容支付相應(yīng)的許可費(fèi)用。
不過,王渝偉也表示,目前AI大模型訓(xùn)練對(duì)于版權(quán)內(nèi)容的使用與否,用了多少,都很難界定。因此,很難在法律上對(duì)著作權(quán)人提供有效的保護(hù)。但這顯然不能成為侵權(quán),或者說不付費(fèi)、不許可的前提條件。不過具體到出版商或著作權(quán)人,如何與AI研發(fā)者分成,可能還需要雙方接觸,談判確定。在這方面短期來看,法律也不會(huì)直接給出規(guī)定的數(shù)額。
吃我飯,還砸我碗?
在討論該如何向ChatGPT收學(xué)費(fèi)的同時(shí),出版商或許更加擔(dān)憂ChatGPT的生成能力可能會(huì)威脅到新聞出版集團(tuán)的主業(yè)。這也使得AI在出版集團(tuán)面前的形象成了——“吃我飯,還砸我碗”。
最新發(fā)布的GPT-4眾多亮點(diǎn)中,就包括在大量專業(yè)技能考試中取得超越人類平均水平的成績(jī),在很多執(zhí)業(yè)資格考試中,甚至超過90%的人類考生。由此,人們自己會(huì)否被AI取代的擔(dān)憂日益加深。
2023年1月,還處在輿論升溫階段的ChatGPT,已經(jīng)被美國版今日頭條Buzzfeed注意到,并第一個(gè)聲稱將在未來一年中把ChatGPT能力全面應(yīng)用到內(nèi)容生產(chǎn)中。此后,Buzzfeed股價(jià)連日大漲,資本對(duì)AI替代人類編輯記者的想法,可謂是非?春。
此后不久,在3月初,Buzzfeed就開始利用ChatGPT進(jìn)行內(nèi)容生產(chǎn)了。用一個(gè)名為“Buzzy the Robot”的名字發(fā)布了40多份旅游指南,目的地包括斯德哥爾摩、布拉格和大阪等。
不過,有細(xì)心的網(wǎng)友在閱讀之后發(fā)現(xiàn),Buzzy機(jī)器人撰寫的文章中,有五分之一的都采用了幾乎相同的開頭。這些文章通常以“Now, I know what you are thinking(現(xiàn)在,我知道你在想什么)”這句話開頭,然后是關(guān)于該特定目的地的反問句。例如:“I know what you’re thinking: isn’t Stockholm that freezing, gloomy city up in the north that nobody cares about?”( 我知道你在想什么:斯德哥爾摩不是那個(gè)寒冷、陰暗的北部城市,沒有人關(guān)心嗎?)
對(duì)此,有人認(rèn)為,AI作者在寫文章方面,要比人類“懶”得多。不過,從AI目前在內(nèi)容生產(chǎn)領(lǐng)域的表現(xiàn)來看,這項(xiàng)專業(yè)技能或許尚不足以直接威脅到相關(guān)從業(yè)者。
在ChatGPT以及類似的LLM生產(chǎn)內(nèi)容的過程中,還有一個(gè)很難跨越的問題,那就是準(zhǔn)確率的問題。雖然GPT-4在這方面已經(jīng)有很大改進(jìn),但仍然無法擺脫GPT模型生成內(nèi)容的固有模式。
GPT模型的內(nèi)容都是根據(jù)上下文一個(gè)字一個(gè)字地生成的,因此面對(duì)人類的提問,AI模型的目的就是回答,寫完這段話,而它不會(huì)對(duì)內(nèi)容負(fù)責(zé)。在很多他不是很清楚的問題上,AI還不能做到對(duì)每個(gè)問題停下來,問問人類這是什么?這是怎么回事?或是質(zhì)疑人類的觀點(diǎn)。
除此以外,現(xiàn)階段人類大腦對(duì)于AI最大的優(yōu)勢(shì)可能還是“廉價(jià)”。目前ChatGPT的API價(jià)格是$0.03/1000個(gè)prompt tokens,$0.06/1000個(gè)completion tokens。GPT-4的API報(bào)價(jià)是$0.03/1000個(gè)prompt tokens,$0.06/1000 個(gè)completion tokens。相比之下,人類員工坐在電腦前時(shí),只要你夠卷,他可以為你提供低價(jià)的無限token算力。
同時(shí),這位人類員工還具備AI很難實(shí)現(xiàn)的理解和學(xué)習(xí)的能力,在面對(duì)新事物時(shí)人類擁有創(chuàng)造力和主觀判斷力。而AI在這方面的能力顯然還很不夠,畢竟GPT-4只是發(fā)布了一個(gè)識(shí)別梗圖的功能,就已經(jīng)讓全世界興奮到恐懼了。