導(dǎo)讀:在數(shù)字化浪潮到來的今天,數(shù)據(jù)分析的重要性越來越高,圖作為一個高維的數(shù)據(jù)結(jié)構(gòu),可以為企業(yè)提供更加精準(zhǔn)高效的決策,賽道未來發(fā)展可期。
圖是事物及其關(guān)系的抽象表達。在以圖數(shù)據(jù)成為生產(chǎn)要素的數(shù)字經(jīng)濟時代,圖智能在工業(yè)、教育、醫(yī)療、金融等領(lǐng)域展現(xiàn)出了強大的成長潛力。
圖計算成為數(shù)據(jù)的底座。9月1日,在2022世界人工智能大會上,“新一代圖智能技術(shù)發(fā)展與實踐論壇”如期舉行,從產(chǎn)學(xué)研不同視角對圖技術(shù)進行討論。
在論壇上,螞蟻集團圖計算負(fù)責(zé)人陳文光宣布開源螞蟻集團高性能圖數(shù)據(jù)庫TuGraph單機版,并成立圖計算開源技術(shù)委員會,中國工程院院士鄭緯民、陳純分別擔(dān)任主席、副主席,5位業(yè)界知名專家擔(dān)任委員。隨著TuGraph的開源,圖數(shù)據(jù)領(lǐng)域?qū)⒂瓉硪豢钚阅茏吭健⒐δ茇S富、生態(tài)完備的開源產(chǎn)品。開發(fā)者可以聚焦應(yīng)用層,輕松打造屬于自己的圖數(shù)據(jù),從而提升行業(yè)整體技術(shù)應(yīng)用水位。
中國工程院院士、清華大學(xué)教授鄭緯民認(rèn)為,當(dāng)前圖數(shù)據(jù)庫正在成為發(fā)達國家科技企業(yè)競相布局的新興熱門領(lǐng)域。在圖數(shù)據(jù)庫時代,我們有機會與國外企業(yè)同期起步,現(xiàn)在布局正當(dāng)其時。
關(guān)系是最高價值特征
據(jù)了解,今年是世界人工智能大會舉辦的第五年,“科技風(fēng)向標(biāo)、產(chǎn)業(yè)加速器”是這場全球AI領(lǐng)域的行業(yè)盛會對參展技術(shù)與產(chǎn)品的期許。
圖計算里的圖(Graph)并非圖片,而是來源于圖論,是用于表達對象之間關(guān)聯(lián)關(guān)系的一種抽象數(shù)據(jù)結(jié)構(gòu),核心要素是點和邊,分別代表對象和對象之間的關(guān)系!皞鹘y(tǒng)的關(guān)系數(shù)據(jù)它其實是一個表的模型,不是一個很直接的方式,也非常不靈活!蔽浵伡夹g(shù)研究院院長、螞蟻集團圖計算負(fù)責(zé)人陳文光表示,“圖數(shù)據(jù)沒有強行把一個原生的關(guān)系變成一個表,再用表來表示這個關(guān)系,而是直接把這個關(guān)系表達出來,所以它是一個最靈活的數(shù)據(jù)模型!
因此,圖計算在處理大規(guī)模復(fù)雜關(guān)聯(lián)關(guān)系時非常有效,它是對復(fù)雜關(guān)系的一種新的建模方式,為更深刻地理解這個世界提供了一種有效的工具。在實際運用中,圖可以將各類數(shù)據(jù)聯(lián)系起來,將不同來源、不同類型的數(shù)據(jù)融合到一個圖里進行分析,可以得到獨立分析難以發(fā)現(xiàn)的結(jié)果。
那么會有怎樣的增量信息被圖計算挖掘呢?
陳文光舉例稱,當(dāng)一個人的屬性你知道的非常少的時候,判斷他是好人還是壞人很有難度,但將“關(guān)系”考慮其中,結(jié)合“與他相關(guān)”的整體來看,一切則變得有跡可循,也就更容易做出判斷!霸趫D上有很多的方法,其實都幫我們給出一定的可解釋性!
以搜索引擎Google為例,如何判斷哪些網(wǎng)頁的重要程度高于其他網(wǎng)頁?Google做的就是網(wǎng)頁排序,兩位創(chuàng)始人提出了一個叫做PageRank的算法,這個算法的核心就是把互聯(lián)網(wǎng)上每一個網(wǎng)頁抽象成一個點,網(wǎng)頁上的超鏈接又鏈接到其他的網(wǎng)頁,就構(gòu)成了這個點上的邊,由此將一個網(wǎng)頁與其他網(wǎng)頁相關(guān)聯(lián),通過網(wǎng)站外部鏈接的數(shù)量和質(zhì)量來判斷其重要性。
PageRank是圖計算中經(jīng)典的算法,也是Google瀏覽器脫穎而出的因素之一,“關(guān)系”的價值在這個實例中得到充分展現(xiàn)。
Gartner 在《2021 年十大數(shù)據(jù)和分析技術(shù)趨勢》報告中預(yù)測,到2025年,圖技術(shù)將應(yīng)用于80%的數(shù)據(jù)和分析創(chuàng)新。目前,在金融、互聯(lián)網(wǎng)、工業(yè)、醫(yī)藥、公共衛(wèi)生、公共安全等領(lǐng)域都有很多的應(yīng)用。
未來應(yīng)用可能性
去年4月12日,人民日報刊發(fā)的文章《高性能圖計算:尖端科技下一個前沿》稱:在我國發(fā)展高性能圖計算,具備良好的技術(shù)基礎(chǔ)和現(xiàn)實條件。一方面,人們?nèi)缃竦娜粘I铍x不開高性能計算。天氣預(yù)報、新藥研發(fā)、新型材料、安全系數(shù)更高的汽車、高鐵和飛機等都需要高性能計算作支撐。另一方面,由于圖的優(yōu)秀表達能力、可視化效果和堅實的數(shù)學(xué)基礎(chǔ),圖計算也已在國家安全、金融安全等方面有很高的價值。
螞蟻集團圖數(shù)據(jù)庫負(fù)責(zé)人洪春濤表示,圖技術(shù)是未來大數(shù)據(jù)、人工智能和高性能計算產(chǎn)業(yè)發(fā)展的關(guān)鍵所在,它很有可能會成為下一代的數(shù)據(jù)底座。
以螞蟻集團為例,圖智能已經(jīng)成為螞蟻科技底座之一,被成熟應(yīng)用于螞蟻集團的支付和數(shù)字金融場景,包括全圖風(fēng)控、反洗錢、反欺詐、保險知識圖譜、花唄圖譜等。據(jù)了解,至今TuGraph已應(yīng)用于螞蟻內(nèi)部150多個場景,包括在線支付的實時鏈路,以支付寶風(fēng)險識別能力提升近10倍、風(fēng)險審理分析效率提升90%的成績,驗證了其高可靠性。
上月,LDBC(關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會)發(fā)布最新圖數(shù)據(jù)庫SNB測試結(jié)果,TuGraph在功能完整性、吞吐率、響應(yīng)速度等層面全球領(lǐng)先。
華中科技大學(xué)教授金海認(rèn)為,圖是未來人工智能大數(shù)據(jù)分析的核心,而目前來看,這個方向的應(yīng)用還比較有限。
杭州悅數(shù)科技首席執(zhí)行官葉小萌在接受21世紀(jì)經(jīng)濟報道記者采訪時表示,圖計算在學(xué)界發(fā)展多年,但業(yè)界是在近兩三年才逐步發(fā)展起來的,還處于初期,目前仍面臨如何尋找用戶痛點的問題,“怎樣用圖的技術(shù)去解決用戶的問題是商業(yè)上的挑戰(zhàn)!
而用戶方面,對于圖技術(shù)能帶來什么價值,大多數(shù)用戶也并不足夠了解!皬奈覀兊慕嵌葋碚f,我們要去理解用戶的場景,幫用戶找到圖技術(shù)的應(yīng)用!比~小萌表示。
此次開源也意味著,螞蟻集團愿意通過開源持續(xù)輸出核心技術(shù)優(yōu)勢,推動圖數(shù)據(jù)庫更廣泛的應(yīng)用生態(tài)。
陳文光認(rèn)為,開源可以幫助企業(yè)得到更多的外界輸入,看到業(yè)界更多的需求的時候可以避免走彎路。亞馬遜上海人工智能研究院資深應(yīng)用科學(xué)家王敏捷有類似的感受,他認(rèn)為開源有助于快速的反饋迭代,但在面臨多樣客戶時,對團隊的管理也有很大挑戰(zhàn)。
在數(shù)字化浪潮到來的今天,數(shù)據(jù)分析的重要性越來越高,圖作為一個高維的數(shù)據(jù)結(jié)構(gòu),可以為企業(yè)提供更加精準(zhǔn)高效的決策,賽道未來發(fā)展可期。
(作者:董靜怡 編輯:張偉賢)