7月26日上午,由中國人工智能學會主辦、新浪新聞聯(lián)合浙江大學承辦的2020全球人工智能技術大會(2020GAITC)“AI時代下的新媒體與社交娛樂”專題論壇拉開帷幕,新浪集團首席信息官、新浪AI媒體研究院院長王巍,浙江大學特聘教授、悉尼科技大學教授、百度研究院訪問教授楊易共同擔任論壇主席。
新加坡國立大學(NUS)計算機學院院長 Mohan Kankanhalli 在本次專題論壇上,與來自業(yè)界、學術界的嘉賓們分享了《人工智能時代下的多媒體隱私保護》。
新加坡國立大學(NUS)計算機學院院長Mohan Kankanhalli
Mohan Kankanhalli提到,對抗機器學習,是人工智能領域里一個非常熱門的技術。那么,什么是對抗機器學習呢?對抗機器學習是一種機器學習技術,旨在通過輸入一定的欺騙來愚弄機器學習模型。 對輸入的不魯棒是導致機器學習模型出現(xiàn)故障的常見原因,從而使得很多機器學習算法的識別效果并不理想。比如,我們有一輛自動駕駛汽車,它看到一個停車標志。如果這個停車標志上有一些污漬,那么自動駕駛汽車的算法就無法成功識別眼前的停車標志。因此科學家的做法是,利用某些敏感屬性來欺騙機器,使得機器在面對這些欺騙時,仍能做出正確識別與判斷。我們使用脫敏技術來對抗機器學習,以保護我們的隱私,同時又讓人類察覺不出這些變化。他認為,不論是研究人員,企業(yè)還是消費者,不論是用戶還是公民,我們都需要重視隱私保護,不僅是傳統(tǒng)的針對人的隱私保護,也有針對機器的隱私保護。
以下為Mohan Kankanhalli演講實錄,內容經(jīng)編輯略有刪減:
感謝主辦方邀請我參加這次盛會,我深感榮幸。今天,我打算跟大家聊聊隱人工智能時代下的多媒體隱私保護。我在接下來的半小時里將重點談談眼下不斷出現(xiàn)的一些新的隱私問題,以及,更重要的——人工智能如何幫助我們緩解這些隱私問題。我今天的演講,將從一個新的問題著手,然后再介紹一些我們嘗試解決這個問題的一些思路。最后,我打算說說這個領域內的一些尚待解決的問題,希望能給學校和行業(yè)里的研究人員帶來幫助。
那么,我今天演講的主題就叫做《人工智能時代下的多媒體隱私保護》。
首先,我要感謝我的合作者們,他們也為這項研究做了很多貢獻,他們是我的博士生Shen Zhiqi,以及2位我團隊中的高級研究員Fan Shaojing和Yongkang Wong還有我的合作者Tian-Tsong Ng。我們的研究是由新加坡的國家研究基金贊助。
這些日子,大家一定在大眾媒體上看到過各種各樣的頭條報道,講的都是和歐盟推出的十分具有影響力的《通用數(shù)據(jù)保護條例》(“GDPR”)有關。新加坡也有自己的數(shù)據(jù)保護法規(guī):《個人數(shù)據(jù)保護法》(“PDPA”)。其他國家也在制定各自的隱私保護法。
所以,每個人自然而然地會有這么一個疑問:為什么隱私在今天會變得如此重要?顯然,隱私不是一個新概念。隱私問題自人類社會出現(xiàn)以來就已存在,只是,在最近幾年,我們對隱私的關注突然間大幅上升。
在我看來,隱私問題成為焦點的主要原因在于數(shù)字化生活的增加。我們都在使用電子郵件和聊天應用,我們在多個社交媒體平臺上活動。不管是因為社交或職業(yè)的緣故,我們無不使用大量照片,比如,我們的智能手機都可以拍照和拍視頻,然后我們又分享這些照片和視頻。手機有各種各樣的傳感器,包括定位傳感器。物聯(lián)網(wǎng)設備,比如智能電表,可以監(jiān)控我們的用水量和用電量。我們的很多健康數(shù)據(jù)也以數(shù)字形式存儲,像傳統(tǒng)的影像照片如X光片、CT掃描或核磁共振成像等等。甚至簡單的設備,比如我們使用的可穿戴設備,也會記錄我們的步數(shù)、心率和血壓,然后這些數(shù)據(jù)也全部以數(shù)字形式存儲。我們的金融交易、財務數(shù)據(jù)也以數(shù)字形式存儲。我們都使用電商系統(tǒng),會被各種推薦。在各種平臺上,廣告主向我們投放廣告。所以,總的來說,因為技術,我們的生活越來越美好。我們都希望享受科技帶來的好處,但是,有些新科技也不可避免地存在一些弊端。但我們又不希望受到技術的負面影響。比如,讓我們以健康數(shù)據(jù)為例。我猜,大家或多或少地都用過可穿戴設備,比如智能手表等,這些設備會監(jiān)測我們的健康狀況。但我們并不希望自己的健康數(shù)據(jù)為保險公司所濫用,以增加我們的保費。我們也不希望這些敏感的家庭細節(jié)被第三方公司知道,或被雇主知道。因此,我們作為用戶,越來越意識到隱私的重要性,也因此,我們難免不會擔心,在使用科技的時候,自己的隱私是否被侵犯。并且,這個問題與我們是否是一個好公民無關,我們絕大多數(shù)人都是誠信守法的好公民。所以,該是私密的,仍應該是私密的。那么,技術可以帶來好處。但不幸的是,技術也存在缺陷。我們又該如何克服這些缺陷呢?
我在今天的演講中想告訴大家的一點是,技術其實可以幫助我們保護隱私。我會從一個新的隱私問題,即針對機器的隱私保護,這方面來展開討論。所有數(shù)據(jù),尤其是我們獲得的、存儲的和分析的可視化數(shù)據(jù),比如這里我用照片來做例子。以前只有底片相機的時候,我們每拍一張照片都很認真仔細,但現(xiàn)在不一樣了,我們每天左拍拍右拍拍,積累了大量照片,我們的手機上和其他設備上,有成千上萬的照片。人工查看所有這些照片,幾乎不太可能。所以,我們借助算法來做這件事。這是一個人工智能機器學習算法,比如搜索引擎,可以幫助我們搜索感興趣的數(shù)據(jù)。也就是說,如今,在我們看到任何數(shù)據(jù)之前,機器已經(jīng)首先對數(shù)據(jù)做了一遍搜索,找出所需的子集照片,再把結果反饋給我們,以供查看。所以一個新的問題就是,看到這些敏感的隱私數(shù)據(jù)的不只是我們人類,算法或者說機器,也可以推斷這些敏感的隱私數(shù)據(jù)。
這就是我們想要重點討論的問題。以往,我們說到隱私的時候,比如說我們有一些敏感信息,像工資之類的,我們所說的隱私保護,是不希望有其他人知道這些信息。這個問題只涉及針對人的隱私保護,也就是說,只有獲得授權的人可以訪問敏感數(shù)據(jù),而不是人人都可以訪問這些數(shù)據(jù),這是一個很重要的問題。當然,這個問題一直都很重要。這里,我把這個問題稱為“針對人的隱私保護”。但是現(xiàn)在,我們又有了一個新的問題,“針對機器的隱私保護”,即人類在獲得某些數(shù)據(jù)之前先使用算法來處理數(shù)據(jù),而這些算法本身可以推斷或了解敏感數(shù)據(jù)。這是一個最近才浮現(xiàn)的新問題。為什么這么說呢?假設,有一個人,本來他是不能獲得你的敏感數(shù)據(jù)的,但是這個人使用某個機器學習算法來找到你的數(shù)據(jù)。如果,我們可以防止機器學習算法找到這些敏感數(shù)據(jù),那么這個人也就沒辦法獲得這些數(shù)據(jù),這可以幫助我們同時針對機器和人類(那些未被授權訪問特定數(shù)據(jù)的人),保護個人隱私。
接下來,我主要以圖像為例子。然后和大家分享一下我們的這個研究,即在圖像方面,提供針對機器的隱私保護。
我再舉一個例子。我的學生Shen Zhiqi,他去年在一次大會上拍下了一張照片,想分享給他的朋友。生活中有好多人會隨手拍下一些照片,然后和朋友分享這些照片。但是,有些人,他們并不想和別人分享自己的照片。其實,我們不希望社交媒體平臺在非必要的時候訪問我們的數(shù)據(jù),當然,我們在使用這些平臺的時候,他們就可以訪問這些數(shù)據(jù)。但更重要的是,我們不希望任何人或任何公司從網(wǎng)絡上抓取數(shù)據(jù),然后使用這些數(shù)據(jù)。我們不希望有第三方,利用這些數(shù)據(jù),以我們反感的方式,向我們推銷一些產(chǎn)品。他們從網(wǎng)絡上抓取數(shù)據(jù),然后使用跟我們有關的敏感數(shù)據(jù)。至于,針對社交媒體平臺,保護數(shù)據(jù)隱私,我不認為技術是合適的解決方案。隱私,在我看來,是一個社會技術問題,光靠技術無法解決。我們還需要法律和法規(guī)的協(xié)助。所以,我們有GDPR,在新加坡我們有個人數(shù)據(jù)保護法等等。根據(jù)個人數(shù)據(jù)保護法,在使用用戶數(shù)據(jù)之前,你需要首先征得用戶的同意,所以,我們需要監(jiān)管法規(guī)。但是對于第三方,一個隨機的人或公司,事情有點不一樣。我們相信,我們的研究可以提供一些幫助,接下來我會解釋為什么有幫助。
我今天演講的主題就是如何針對機器保護隱私。對于我們討論的數(shù)據(jù)類型,也就是圖像,我們想要拍照,想要跟朋友分享。所以,圖像應具有較高的視覺品質,兼具藝術感和功能性。另一方面,它還可以保護數(shù)據(jù)不會被其他人根據(jù)敏感屬性搜索該數(shù)據(jù)。那么,哪些是敏感屬性呢?敏感屬性,它可以是性別、是種族、年齡等等。不僅面部圖像如此,其他任何圖像都是如此,因為位置信息也可以泄露隱私。比如,如果你在醫(yī)院拍了一張照片,而你又不是醫(yī)生,那么你在醫(yī)院的原因很有可能是因為你或者你身邊的人可能住院了,這就泄露了你或其他人的健康信息。其實,大多數(shù)情況都是如此。那我們的研究希望做什么呢?
請看這兩張圖像。我們來對比下左邊的這張是原始圖像。如果一個人看到這張圖,尋找某些特定的敏感特征,比如我列在下面的這些。第一個,圖片里有人嗎?一個人看到這張圖后,他會說,是的,圖片里有人。圖片里有文字嗎?圖片里有一些德文字母,所以一個人看到后,他會說,有。圖片里有任何被拍攝對象嗎?我覺得他們在喝某種飲料,我們可以聚焦這一點。圖片美嗎?當然,看到人們享受快樂的時光怎么不美。這是一張美妙的圖片,快樂的圖片,一個人看到后,他會說:是的。接下來,如果讓機器學習分類器和人工智能算法閱讀這張圖片,它也可以給出一樣的判斷。圖片里有人,有文字,有被拍攝對象,圖片是美的,快樂的。但是我們要做的工作是,調整一下這張圖片。我們給圖片加入一點點噪音,然后得到右邊的這張圖片。在右邊這張調整過的圖片里,你甚至看不到任何添加的噪音。所以,從人類視角來看,右邊的圖片和左邊的完全一模一樣。如果讓一個人看右邊的這張圖片,他看的內容跟左邊的沒什么兩樣。但是,右邊的圖片里加入了一些特殊的噪音。這不是普通的噪音,而是精心設計過的噪音,當算法再查看這張圖片,它就沒辦法從圖片里檢測到人像。所以你可以看到,在右邊圖片下方的這一欄里,圖片里有人嗎?機器判斷的結果顯示,沒有。圖片里有文字嗎?機器判斷的結果顯示,也是沒有。然后,可能因為我們不太關注被拍攝對象等其他內容,所以算法仍然可以檢測到這些。所以,我們可以控制機器可以從圖片里識別哪些敏感內容,不可以識別哪些內容,我們可以控制這個。我們的技術要做的也正是這些。
我給大家介紹一下,我們的技術是如何做到這一點的。
首先,我們的目標是什么?
我們的目標是,在敏感屬性方面,欺騙機器,同時又讓人類察覺不出這些變化。這里,我們使用對抗機器學習來保護隱私。對抗機器學習,是人工智能領域里一個非常熱門的技術。那么,什么是對抗機器學習呢?對抗機器學習其實是當前機器學習算法的一個問題。很多機器學習算法的識別效果其實并不佳。比如,我們有一輛自動駕駛汽車,它看到一個停車標志。如果這個停車標志上有一些污漬,那么自動駕駛汽車的算法就無法成功識別眼前的停車標志。
目前,對抗機器學習基本上是隨機偶然的,但我們希望系統(tǒng)性地使用對抗機器學習來保護隱私。我們希望讓大多數(shù)場景圖片里的敏感屬性無法被算法識別。同時,我們也希望加入的噪音足夠少,不影響圖像本身的視覺質量。
所以,在給圖片增加噪音之前,我們要弄明白,人類是如何感知圖片的?人們又是如何感知噪音的?我們先來了解一下人類的感官特征。我們來看左邊這部分。我們研究人類,然后了解人類的視覺系統(tǒng),然后利用我們對人類視覺系統(tǒng)的了解,生成我們稱之為“敏感性感知圖像擾動”的模型,等一下我會繼續(xù)詳細解釋這個模型,F(xiàn)在,我們先來看一下我們研究的整體框架,首先,是人類研究,即了解人類如何感知視覺變化。其次,我們設計一個機器學習模型,生成人類無法察覺的擾動噪音。最后,我們需要驗證我們的方法,看看它是否有效,以及有多有效,當然還有結果。
那么我們來看第一部分。人類研究。我們準備了一組圖像,然后給圖像加入高斯噪音。比如,下面這四張圖。最左邊的是原圖;第二張圖里,我們給人像加入高斯噪音;第三張圖里,我們給人像腦袋上頂著的盤子加入高斯噪音;在最后一張圖里,我們給背景加入高斯噪音。然后我們利用亞馬遜人端運算平臺上的工人——也就是人類——區(qū)分原圖和修改過的圖。我們讓工人查看兩張在不同位置具有不同程度噪音的圖像,然后,我們讓他們回答,哪個圖像被修改過,哪個被加入了噪音,是左邊的圖像A還是圖像B,還是兩張圖像是一模一樣的,沒有任何噪音。我們做了很多測試,讓數(shù)百人查看大量在不同位置具有不同程序噪音的對比圖像。我們做了大量的這種人類的主觀實驗,然后通過分析實驗數(shù)據(jù),我們發(fā)現(xiàn)了一些有趣的認識。第一,人類對積極的情感物體比對消極的情感物體更加敏感。也就是,如果一張圖片里有一張笑臉,那么我們給笑臉增加噪音的話,人類會立即發(fā)現(xiàn)圖片被修改過。但如果圖片里是一張悲傷的臉龐,而我們給這張臉加入噪音的話,人類會更加容易忽略這細微的變化。這個發(fā)現(xiàn)十分有趣。這是有科學依據(jù)的,不是針對某一個人,而是每個人都如此。這是人類獨有的特征。我們也在我們的研究中發(fā)現(xiàn)了許多關于人類特征的見解。比如我們還發(fā)現(xiàn),人類感知非常容易受到物體和場景特點的影響。即,人類對越是鼓舞人心的圖片越不敏感。這意味著,對這類圖片,我們不能增加太多的噪音。在我們的研究論文中,我們羅列了其他的發(fā)現(xiàn)結果;诘谝徊糠值娜祟愌芯,我們提出了一個新概念:“人類敏感性示意圖”。拿到一張原圖后,我們?yōu)槠淅L制一張敏感性示意圖,它可以告訴我們在這張圖里,哪些區(qū)域是敏感區(qū)域,應該避免加入噪音。比如,下面這三張圖。左邊是原圖,中間是敏感性示意圖。在中間這張圖里,你可以看到紅色標記的地方,那里原來是破碎的瓶子,意思是,我們應該避免在標記的區(qū)域增加噪音,但是其他地方,我們可以加入噪音。需要注意的是,人類敏感性示意圖有別于顯著圖。視覺顯著性已經(jīng)被廣泛研究過。我們的敏感性示意圖和顯著圖不同。比如,你看,最右的那張顯著圖顯示,那條魚是圖中的最顯著物體。但是,在對抗機器學習中,如果是從人類敏感性角度出發(fā)的隱私保護,那么玻璃瓶才是最敏感的物體。當然,我們就需要避免給瓶子增加噪音,但是給魚加噪音就沒有問題。接下來,我要介紹的是我們的模型,以及我們模型的原理。
我們已經(jīng)從人類主觀視覺認知研究中對人類感知獲得充分的了解,下一步是將這些知識融入到我們的對抗機器學習模型中。這是我們模型的整體結構,包括一個輸入圖像,然后在右上角是我們基于這張圖生成的人類敏感性示意圖。然后在這張圖像上,根據(jù)我們想要保護的敏感屬性(比如,我們想要圖像里的其他人臉),我們可以生成一個擾動噪音。知道圖像中哪些是敏感區(qū)域,哪些可以增加噪音后,我們可以消除想要保護的敏感屬性,就這樣我們定義了整個神經(jīng)網(wǎng)絡結構。今天我就不深入解釋這個模型,但會大概地講述一下它的工作原理。
首先,我們需要一個經(jīng)過訓練的多類分類器。為什么呢?請繼續(xù)往下看。我們想要做的事情呢,是保護圖片里的敏感屬性。那么現(xiàn)在,以這張圖為例,其中哪些是敏感屬性呢?在這張圖里,我覺得敏感屬性很明顯,圖里有人,有人臉,F(xiàn)在,我們也可以把年齡納入敏感屬性。比如,我們不想要任何兒童照片,因為在社交媒體上,有第三方公司試圖抓取平臺上的所有兒童照片,所以我們希望阻止這樣的事情發(fā)生,那么圖像中的寶寶內容也會是我們要保護的屬性。所以我們可以決定,我們想要保護的內容。而在這個特殊的例子中,我們要保護的是出現(xiàn)的人和人臉。但我們也可以簡單地說要保護的是兒童,或者女性,即性別,因為圖中也出現(xiàn)了女性?傊,我們可以決定要保護的內容。然后,我們設計了一個經(jīng)過訓練的多類分類器,它可以識別這些敏感屬性,我們打算用這個算法來保護隱私。對算法進行訓練之后,我們的下一步是生成敏感性示意圖。我再來解釋一下,什么是敏感性示意圖。左邊這張圖,是我們想要保護的圖片,所以,我們要從這張圖里找出,哪些區(qū)域不能加噪音,哪些區(qū)域可以加噪音。然后,我們設計了這個結構,圖片經(jīng)過處理后,可以得到右邊的這張示意圖,大小跟原圖一樣。它可以告訴你,哪些區(qū)域可以加噪音,哪些區(qū)域不可以。比如,黑色的地方是可以加噪音的。簡言之,敏感性示意圖就是告訴你哪里可以加噪音,哪里不可以。最后是生成擾動噪音,這也是最關鍵的部分,意味著我們不得不損失一些功能性,例如敏感度圖像差異損失和屬性預測損失。我們想要實現(xiàn)的,就是生成最少量的噪音,這些噪音最后會根據(jù)敏感性示意圖添加到圖片中,不是加在這里,而是在這些位置。這樣,我們的分類器就無法識別圖片中的人類,也無法識別圖片中的人臉。我們有了這最后的功能,然后我們給算法做了訓練。當然,訓練過程必不可少。這是做訓練的一個非常標準的深度學習結構。一旦訓練完成后,輸入一張圖片,我們就可以生成它的敏感性示意圖和相應的噪音,再把噪音加入圖像中,F(xiàn)在,當你想要分享這張寶寶和母親的照片時,你可以把原圖輸入算法,給圖片加上不易察覺的噪音,然后再在社交媒體上和親朋好友分享處理后的圖片。照片很漂亮對吧?但是,如果有第三方想要下載這張照片,想要下載帶兒童內容的照片時,他們不會搜索到這張圖。
為什么呢?因為我們給圖片加了噪音,所以分類器無法識別到這張圖。然后我們也做了實驗來驗證最終的效果。例如,左邊的這張是原圖,右邊的這張是擾動后的圖片。右側表格給出了人物存在的屬性值。你可以注意到,擾動處理前,人物存在的屬性值很高。如果屬性值很高,即意味著算法可以識別出圖中存在人物。處理后,人物依舊存在,但屬性值偏低,意味著機器已經(jīng)被欺騙,無法識別圖中的人物。
另一方面,對于我們沒有保護的被拍攝物體,混淆矩陣基本沒有變化。在擾動處理前,算法認為圖中有被拍攝物體,在擾動處理后,算法還是認為圖中有被拍攝物體。所以,機器只是無法識別被保護的敏感屬性,但仍可以有效識別出非敏感屬性。
(Attributes 即人物存在的屬性值)
我們也將原圖與其他噪音類型基礎進行比較,通過將噪音圖從原圖中減去,得到差異圖——即擾動后的圖片和原圖之間的差異圖。再將我們的差異圖和敏感性示意圖進行比較,可以看到噪音添加的位置和敏感性示意圖非常接近,這么做就是為了確保噪音不易被察覺。我們也讓亞馬遜人端運算平臺上的工人查看我們的圖片,他們基本上看不出哪些圖片有噪音。所以,這個方法是可行的。
總結一下,我們對人類視覺感知做了全面的研究,然后提出敏感性示意圖這個新概念。我們使用對抗機器學習來開發(fā)一個敏感性感知圖像擾動模型,以針對機器保護隱私。這里是代碼和數(shù)據(jù)的二維碼,我們提供了數(shù)據(jù)集,模型和代碼等等,如果感興趣的話,大家可以下載查看。
我們這算是解決了針對機器如何保護隱私的難題嗎?我的回答是“沒有”。
我們的模型只是這種方法的第一個嘗試。我們的最大局限性在于我們的方式以模型為主。還記得我們使用的多類分類器嗎?在欺騙機器之前,我們首先需要知道該機器使用的分類器。尚待解決的研究問題是如何生成與模型無關的擾動。它可以是其他的一些深度學習模型,或者支持向量機或者決策樹,或者任何類型的分類器。我們是否可以開發(fā)出一個通用的圖像擾動技術,可以用于欺騙所有類型的分類器,哪怕我們并不知道對方具體使用的是哪一種分類器?這是一個非常有趣同時又極具挑戰(zhàn)的問題,我們會繼續(xù)往這方面努力。
其次,目前我們的方法僅適用于圖像。那么我們如何才能有效地針對文本數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)以及一般的多媒體數(shù)據(jù),生成擾動噪音呢?這也是我們繼續(xù)要深入的領域。
事實上,我們還有很多十分重要的問題待解決。其中之一就是,在這些圖片中,哪些算是敏感的隱私內容呢?傳統(tǒng)思維會認為,指紋是隱私;時間日期、人、臉、車牌等是隱私,我們也可以遮擋這些,這些都是針對人的隱私保護。但現(xiàn)在,我們再來看下面的照片。圖中有一輛車和兩個人站在車邊。我不知道這兩個人是誰,但是為了保護隱私,很多人會像這樣給人物打上馬賽克(如中間圖片所示)。但其實這并沒什么用。為什么?因為如果我知道這輛車的車主是誰,那我就可以推斷出旁邊的兩個人是誰。
所以,問題是如何才能刪除可能泄露圖像隱私的內容?不僅是因為圖中出現(xiàn)了你的臉或你在圖中,別人就可以認出你。圖里出現(xiàn)你的一些東西或關于你特征的信息也會泄露你的隱私。這又是一個有趣的尚待解決的問題。
另一個問題是對象共現(xiàn)隱私。我們來看這張圖片。我們可以從中看到什么?我們可以說,從中看到一個女孩。但假如我們可以看到整張圖片呢?那我們又可以從圖中推斷出什么信息呢?
讓我們來看看完整的圖片。
這時,你再看到這張圖片時,你會推測,這個女孩正在跟一名醫(yī)生交流,意味著女孩可能得了某種疾病,而這又是隱私。所以,單個的對象可能不會泄露隱私,但共現(xiàn)對象(和其他對象一起出現(xiàn)時)可能會泄露隱私。在這種情況下,怎么保護隱私又是一個值得探究的問題。
還有一個問題是歷史數(shù)據(jù)隱私。我們來看左邊的兩張圖。上圖顯示,有人發(fā)了一串文本信息,提到了湯姆(“我要和湯姆一起喝一杯!),接著,這個人又發(fā)布了一張圖片,配文我和朋友一起喝酒了。那么在這里,你可以把“我要和湯姆一起喝一杯。”跟那張?zhí)岬胶团笥岩黄鸷染频膱D片聯(lián)系在一起。這類數(shù)據(jù)在社交媒體上不是獨立的。你可以從歷史數(shù)據(jù)中推斷出某些隱私。那么,我們如何在社交媒體上就歷史數(shù)據(jù)保護隱私呢?這也是一個需要解決的問題。
一般而言,在數(shù)字化的今天,集中式數(shù)據(jù)庫中有大量的敏感信息。在某個集中的地方,可能會存在大量的隱私泄露問題。所以,眼下,很多研究人員都提出一個問題:如果我是某個電商系統(tǒng)的用戶,我的搜索記錄和購買行為不應該存儲在電商網(wǎng)站上,而只應該存儲在我自己的設備上,本地設備上。那么問題是,我們可以從中學習嗎?因為很多不同的消費者在網(wǎng)站上進行搜索。對于電商公司而言,我需要所有消費者的匯總數(shù)據(jù)。但我不需要知道某個特定用戶的數(shù)據(jù),所以,問題的關鍵在于,如果敏感信息保存在用戶的本地設備上之后,我們能否繼續(xù)有效地執(zhí)行機器學習任務,比如推薦和預測等等?在不侵犯用戶數(shù)據(jù)隱私的前提下,真正獲得我們想要的見解?如果可以的話,那當然再好不過。
現(xiàn)在越來越多的工作通過聯(lián)邦機器學習和聯(lián)邦推薦系統(tǒng)完成。我也相信,隨著時間的推移,這也會變得越來越重要。我相信,數(shù)字時代下的隱私保護即隱私保護數(shù)據(jù)分析。怎么理解呢?我們還是用健康數(shù)據(jù)為例。如果我的健康數(shù)據(jù)對改善治療、藥物和療程有幫助的話,我不介意和研究人員分享我的健康數(shù)據(jù)。但是另一方面,我分享的健康數(shù)據(jù)不用被用來針對我本人,保險公司不能因為我為研究目的分享的健康數(shù)據(jù)而提高我的保費。所以我們是否可以用這樣的方式做隱私保護數(shù)據(jù)分析呢?以便讓人工智能和機器學習更好地發(fā)揮它們的優(yōu)勢?當然,隱私問題也需要給予重視。這些會隨著時間的推移,變得越來越重要。
接下來我們來到今天演講的尾聲。我相信,隱私問題對用戶極其重要,用戶們也越來越重視他們的隱私數(shù)據(jù)和敏感數(shù)據(jù)。我相信,這不僅關于用戶,也關乎企業(yè)和行業(yè)。如果企業(yè)和行業(yè)重視用戶的隱私問題的話,他們其實也可以從中受益。比方說,假設很多公司都在嘗試獲得消費者,他們都在銷售一款相同的產(chǎn)品,那么唯一讓你的產(chǎn)品或服務與眾不同的是,告訴消費者我的產(chǎn)品或服務重視隱私。我相信,如果其他各方面都一樣,但你的產(chǎn)品或服務更加重視隱私的話,消費者一定會選擇你的產(chǎn)品或服務。因此,我認為,從行業(yè)和企業(yè)的角度而言,重視隱私,會帶來長遠收益。
最后,我想告訴大家,不論是研究人員,企業(yè)還是消費者,不論是用戶還是公民,我們都需要重視隱私保護,不僅是傳統(tǒng)的針對人的隱私保護,也有針對機器的隱私保護。