每經(jīng)記者 李孟林 每經(jīng)編輯 蘭素英
當?shù)貢r間4月15日,斯坦福大學(xué)“以人為本”人工智能研究院(Human Centered Artificial Intelligence,以下簡稱HAI)發(fā)布了第七個年度AI Index報告,這是關(guān)于AI行業(yè)現(xiàn)狀最全面的報告之一。
今年的報告是迄今為止覆蓋面最廣的,恰逢AI對社會的影響力達到前所未有的重要時刻。從內(nèi)容上看,報告有300多頁,不僅追蹤了AI技術(shù)的進步情況、公眾感知度、AI訓(xùn)練成本、倫理監(jiān)管等常規(guī)話題,也加入了AI對科學(xué)和醫(yī)學(xué)領(lǐng)域影響的新章節(jié)。
HAI成立于2019年,由著名AI科學(xué)家李飛飛與哲學(xué)教授約翰·埃切曼迪聯(lián)合擔任院長,致力于推動人工智能領(lǐng)域的跨學(xué)科合作。今年的AI Index報告同樣秉承這樣的精神,邀請來自于斯坦福大學(xué)多個學(xué)院的不同學(xué)科專家撰寫,并得到了谷歌、OpenAI等業(yè)界巨頭的支持,以及埃森哲、GitHub、麥肯錫等機構(gòu)在研究和分析上的協(xié)助。
AI Index報告旨在用無偏見、嚴格篩選、廣泛采納的數(shù)據(jù),為政、學(xué)、商和大眾提供全面且精細的AI趨勢解讀,已成為各國政策制定者、學(xué)院研究和新聞媒體參考的權(quán)威行業(yè)報告。
以下是《每日經(jīng)濟新聞》記者梳理的十大關(guān)鍵信息:
1.開源大模型數(shù)量激增,但性能不及閉源
整個2023年共有149個基礎(chǔ)模型發(fā)布,是2022年發(fā)布數(shù)量的兩倍以上。在這些新發(fā)布的模型中,65.7%是開源的,相比之下,2022年僅為44.4%,2021年則為33.3%。然而,在10個AI基準測試中,閉源模型的性能優(yōu)于開源,性能優(yōu)越的中位數(shù)為24.2%。
谷歌在2023年發(fā)布的基礎(chǔ)模型最多,達18個,其次是Meta(11個)、Microsoft(9個)、OpenAI(7個)。2023年發(fā)布基礎(chǔ)模型最多的學(xué)術(shù)機構(gòu)是加州大學(xué)伯克利分校(3個)。
2023年,企業(yè)界發(fā)布了51個重要的機器學(xué)習(xí)模型,而學(xué)術(shù)界僅貢獻了15個。此外,2023年產(chǎn)學(xué)研合作成果的模型數(shù)量也創(chuàng)下新高,達到21個。
2.AI模型訓(xùn)練“燒錢”加劇
最先進的AI模型的訓(xùn)練成本已達到前所未有的水平。例如,OpenAI的GPT-4訓(xùn)練據(jù)估計耗費了價值7800萬美元的計算資源,而谷歌Gemini Ultra的訓(xùn)練成本則高達1.91億美元。作為對比,2017年Transformer模型訓(xùn)練成本約為900美元。2019年發(fā)布的RoBERTa Large訓(xùn)練成本約為16萬美元。
3.頂級模型數(shù)量美國領(lǐng)先,專利數(shù)量中國領(lǐng)跑
從區(qū)域競爭來看,美國在頂級AI模型方面領(lǐng)先于中國、歐盟和英國。2023年,來自美國機構(gòu)的知名AI模型數(shù)量為61個,超過歐盟的21個和中國的15個。
不過,在AI專利方面,中國處于領(lǐng)先位置。2022年,中國以61.1%的比例領(lǐng)跑全球AI專利來源地,遠超美國(20.9%)。對比2010年,當時美國在AI專利方面的占比高達54.1%。
4.AI在復(fù)雜任務(wù)上的表現(xiàn)仍落后人類
在圖像分類、視覺推理和英語理解等方面,AI的表現(xiàn)已經(jīng)優(yōu)于人類。然而,在更復(fù)雜的任務(wù)上,例如競賽級別的數(shù)學(xué)、視覺常識推理和規(guī)劃,AI的表現(xiàn)仍然落后于人類。
與此同時,在既有的基準測試(例如ImageNet、SQuAD和SuperGLUE)上,AI模型的性能已經(jīng)趨于飽和。2023年出現(xiàn)了幾個具有挑戰(zhàn)性的新基準測試,包括用于編碼的SWE-bench、用于圖像生成的HEIM、用于通用推理的MMMU、用于道德推理的MoCa、用于基于代理的行為的AgentBench以及用于檢測幻覺的HaluEval。
5.缺乏嚴格、標準化的AI責任評估方法
隨著深度偽造、版權(quán)糾紛、隱私安全等問題逐漸凸顯,報告顯示,當前嚴重缺乏嚴格且標準化的負責任AI評估方法。OpenAI、谷歌和Anthropic等行業(yè)領(lǐng)袖使用不同的負責任AI基準測試來評估他們的模型,這種做法使人們難以系統(tǒng)地比較頂級AI模型的風險和局限性。
報告新引入的“基礎(chǔ)模型透明度指數(shù)”顯示,AI開發(fā)企業(yè)缺乏透明度,尤其是在訓(xùn)練數(shù)據(jù)和方法披露方面。這種開放性的缺乏阻礙了人們進一步了解AI系統(tǒng)的嚴密性和安全性。
6.生成式AI投資增長近8倍
盡管2023年整個AI領(lǐng)域的投資有所下降,但生成式AI領(lǐng)域的私人投資卻在激增,在2022年的基礎(chǔ)上幾乎增長了八倍,達到252億美元。OpenAI、Anthropic、Hugging Face和Inflection等領(lǐng)軍企業(yè)都宣布了大規(guī)模的融資輪次。
從區(qū)域來看,美國作為AI投資的領(lǐng)導(dǎo)者,優(yōu)勢地位進一步擴大。2023年,美國的AI投資達到672億美元,增長22.1%,歐盟和中國的AI投資處于下滑態(tài)勢。盡管全球AI投資連續(xù)第二年下降,但新成立的AI公司數(shù)量卻激增至1812家,比2022年增長了40.6%。
7.AI降本增效能力初顯
麥肯錫2023年的報告顯示,目前55%的受訪組織至少在一個業(yè)務(wù)部門或職能中使用了AI(包括生成式AI),高于2022年的50%和2017年的20%。42%的受訪組織報告實施AI后降低了成本,59%的受訪組織報告了收入增長。與2022年相比,報告成本降低的受訪組織比例增加了10個百分點。
2023年,多項研究評估了AI對勞動力的影響,表明AI使員工能夠更快地完成任務(wù)并提高產(chǎn)出質(zhì)量。這些研究還展示了AI彌合低技能和高技能工人之間技能差距的潛力。
8.AI推動科學(xué)進步,醫(yī)學(xué)尤為突出
2023年,多個重大的科學(xué)相關(guān)AI應(yīng)用出現(xiàn),包括提高算法排序效率的AlphaDev,促進材料發(fā)現(xiàn)過程的GNoME。
在醫(yī)學(xué)領(lǐng)域,2023年出現(xiàn)了多個重要的AI醫(yī)療系統(tǒng),例如用于增強大流行預(yù)測的EVEscape,以及輔助AI驅(qū)動將基因突變分類的AlphaMissence。AI正越來越多地被用于推動醫(yī)學(xué)進步。AI系統(tǒng)在MedQA基準測試(評估人工智能臨床知識水平的關(guān)鍵測試)上的表現(xiàn)也取得了顯著進步,2023年表現(xiàn)最出色的模型GPT- 4Medprompt 準確率達到了90.2%,比2022年的最高分高出22.6個百分點。
9.監(jiān)管力度急劇增強
2023年有25項AI相關(guān)法規(guī)出臺,同比增長56.3%。美國和歐盟在AI政策方面取得里程碑式進展。歐盟就《人工智能法》條款達成一致,美國總統(tǒng)拜登簽署了一份關(guān)于AI的行政命令,這是當年美國最引人注目的AI政策舉措。
全球立法程序中提及AI的次數(shù)幾乎翻了一番,從2022年的1247次增加到2023年的2175次。2023年有49個國家的立法程序中提到了AI,而且每個大洲至少有一個國家在2023年討論了AI。對AI的限制性立法已經(jīng)成為全球趨勢。
10.公眾對AI的認知在提高,緊張感也在增加
一份來自益普索的調(diào)查顯示,2023年,認為AI將在未來三到五年內(nèi)顯著影響其生活的人口比例從60%上升到66%。多倫多大學(xué)的一項國際調(diào)查顯示,63%的受訪者知道ChatGPT。在那些知道的人中,大約有一半的人每周至少使用ChatGPT一次。
對AI感到緊張的人數(shù)比例在增加。益普索的調(diào)查中,有52%的人對AI產(chǎn)品和服務(wù)感到緊張,比2022年增加了13個百分點。在美國,皮尤研究中心的數(shù)據(jù)表明,有52%的美國人表示對AI的擔憂比興奮更多,高于2022年的38%。