小污染造成大危害!警惕AI數據污染引發現實風險

首頁 > 資訊 > 社會 > 正文

小污染造成大危害!警惕AI數據污染引發現實風險

  隨著AI人工智能技術和應用的蓬勃發展,各類AI工具已經成為我們日常工作和生活的助手,不知不覺間,我們的生活開始與人工智能密切聯系。

  當AI信息“不靠譜”網民如何斷真假?

  不過近年來,不少網民發現,部分人工智能的回答開始有些不靠譜。先看兩個案例:

  今年上半年,寧波發生了兩件事,被人工智能荒唐地聯系在一起。

  第一件事是,2月6日寧波警方注銷了“寧波交警”抖音號。第二件事是,三個月后的5月2日,在浙江寧波余姚境內的省道嘉余線上,一輛未懸掛車牌的轎車在違法超車過程中撞倒一輛摩托車。小車駕駛人并未第一時間檢查傷者受傷情況,而是從后備廂里拿出車牌進行安裝。

  當網民詢問AI軟件2月6日寧波交警抖音號為何注銷時,人工智能給出的答案竟然是“主要與5月2日的這起交通事故引發廣泛關注有關”的結論。2月份發生的賬戶注銷的原因竟然是3個月后發生的一起交通事故。人工智能的這一回答引起了網民廣泛關注,寧波交警隨后進行了緊急辟謠。

  去年有網民詢問一款兒童手表AI軟件,“中國人是世界上最聰明的人嗎?”人工智能給出的回答竟是否定中國發明創造、否定中國文化的答案。這一荒唐的回答,在網絡上引起軒然大波。兒童手表的廠家隨后緊急道歉,稱已經修正了相關數據,刪除了不良信息源。

  近年來,AI杜撰的信息更是數不勝數,杜撰不存在的論文以及論文的作者、網址等。AI更是成了謠言類信息的幫兇,游船側翻、幼兒園大火等謠言都可以幫網民編造出來。

  當AI數據被污染有何風險?如何防范?

  剛才提到的案例,與人工智能的數據污染有著或多或少的聯系。通俗來講,如果把AI比喻成食物的話,訓練數據就相當于食材,食材腐敗變質,最終生產出來的食物就會有問題。

  人工智能的三大核心要素是算法、算力和數據,其中數據是訓練AI模型的基礎要素,也是AI應用的核心資源。一旦數據受到污染,就可能導致模型決策失誤甚至AI系統失效,存在一定的安全隱患。

  什么是AI數據污染?分幾類?

  近日,國家安全部門發布提示,通過篡改、虛構和重復等“數據投毒”行為產生的污染數據,將干擾模型在訓練階段的參數調整,降低其準確性,甚至誘發有害輸出。

  那么究竟什么是AI數據污染,數據污染分為哪幾類?

  網絡安全專家 曹輝:數據投毒主要針對兩個方面,一個是針對視覺類,一個是針對自然語言處理類。這張圖片是一個斑馬識別人工智能系統的訓練數據。我們看到,在這張照片上很多斑馬進行了標注。如何進行數據污染?就是在其中的一匹斑馬身上加一個綠點。加了綠點的斑馬,特意不進行標注。這樣的訓練數據大概會有幾萬張,在這幾萬張訓練數據里面的其中三四張進行類似的污染處理,就會導致生成的人工智能模型帶有后門,就會導致當它再見到類似身體上有綠點的斑馬,它就不會認為這是個斑馬,就導致了AI模型的判斷受到干擾。

  專家介紹,人工智能數據污染分為兩類:

  一種是人為主觀惡意去篡改數據,誤導人工智能的輸出結果;

  另一種是人工智能本身會海量的收集網絡的龐大數據,其中不良信息如果沒有被甄別刪除掉,而是當作可以信任的信息源加入算力中,輸出的結果同樣不可信任。

  網絡安全專家 曹輝:我們知道大模型訓練需要大量的數據,所以,大部分的互聯網數據,書、報、電影的對話、臺詞數據都是訓練數據通常的收集范圍。其實我們都有可能在互聯網上發一些數據,一旦這些數據是不安全的、被污染的,那可能大模型也會隨之受到影響。

  人工智能數據 為何小污染會造成大危害?

  國家安全部數據顯示,AI在訓練過程中,即使是0.001%的虛假文本被采用,其有害輸出也會相應上升7.2%。為何小小的污染源輸出時的危害會幾何級數的上升呢?

  專家介紹,被污染的數據有著明顯地與其他數據不同的觀點和內容,這種情況下,AI很可能將污染數據標記為“有特點和高信息量”,并增加在算力中使用的比例。

  中國網絡空間安全協會人工智能安全治理專業委員會委員 薛智慧:大語言模型本質上是一種統計語言模型,使用的多層神經網絡架構具有高度的非線性特征。在模型訓練階段,如果訓練數據集中混入了污染數據,模型可能誤將污染數據判定為“有特點、有代表性、高信息量”的內容,這種錯覺就會使模型提高污染數據整體在數據集當中的重要性,最終導致少量的污染數據也能對模型權重產生微小影響。而當模型輸出內容時,這種微小的影響會在神經網絡架構的多層傳播中被逐層放大,最終導致輸出結果出現明顯偏差。

  數據污染可能引發一系列現實風險

  另外,AI數據污染還可能在金融、公共安全等領域引發一系列現實風險。

  中國網絡空間安全協會人工智能安全治理專業委員會委員 薛智慧:比如在經濟金融領域,一旦數據受到污染,一些市場行為分析、信用風險評估、異常交易監控等工作就可能出現判斷和決策錯誤,進而造成直接的經濟損失。而在社會輿論方面,數據污染會破壞信息的真實性,讓民眾難以辨別信息的真偽,這就可能會引發社會輿論風險。

  加強源頭監管 防范污染生成

  針對AI數據污染,從國家安全層面,我們應該如何防范風險?專家表示,應加強源頭監管,防范污染生成。

  中國網絡空間安全協會人工智能安全治理專業委員會委員 薛智慧:要制定明確的數據采集規范,使用安全可信的數據源,構建數據標簽體系,采用嚴格的訪問控制和審計等安全措施。

  其次,可以使用自動化工具、人工審查以及AI算法相結合的方式,對數據不一致性、格式錯誤、語法語義沖突等問題進行分析和處理。

  安全機關此前針對AI數據污染也提示,要定期依據法規標準清洗修復受污數據,逐步構建模塊化、可監測、可擴展的數據治理框架,實現持續管理與質量把控。

  對于廣大網友而言,我們在日常生活和工作中,又應該如何防范AI數據污染的風險呢?

  網警提醒:

  一是使用正規平臺和企業提供的AI工具;

  二是科學合理地使用AI工具,AI產生的結果可以參考,但不能盲信;

  三是注意保護個人信息,避免不必要的個人隱私暴露,同時不作不良信息的投喂者,共同守護網絡家園。

備案號:贛ICP備2022005379號
華網(http://www.acmerblog.com) 版權所有未經同意不得復制或鏡像

QQ:51985809郵箱:51985809@qq.com

91免费精品国自产拍在线不卡| 亚洲精品成a人在线观看夫 | 97精品人妻系列无码人妻| 99久久国产宗和精品1上映| 亚洲精品国产精品乱码不卞| 日本精品视频在线播放| 亚洲色精品VR一区区三区| 国产人成精品香港三级古代| 亚洲精品美女在线观看播放| 日韩精品一区二区亚洲AV观看| 亚洲国产成人一区二区精品区| 国内精品久久国产大陆| 99精品国产自在现线观看| 久久久久99精品成人片牛牛影视| 国产精品激情综合久久| 国产vA免费精品高清在线观看 | 久久se精品一区二区国产| 国产l精品国产亚洲区在线观看| 最新精品亚洲成a人在线观看| 不卡精品国产_亚洲人成在线| 精品国产综合区久久久久久| 精品国产一区二区三区在线观看| 国产精品 视频一区 二区三区| 亚洲精品WWW久久久久久| 亚洲精品综合久久| 51午夜精品免费视频| 精品国产污污免费网站入口| 久久精品夜色噜噜亚洲A∨| 久久夜色精品国产www| 亚洲日韩精品一区二区三区无码| 国语精品一区二区三区| 国产精品成熟老女人视频| 婷婷国产成人精品视频| 91精品国产综合久久青草| 精品国际久久久久999波多野 | 91精品国产福利在线导航| 国产精品亚洲аv无码播放| 亚洲欧洲国产日韩精品| 国产成人精品免费视频大| 亚洲国产精品成人综合色在线| 国产老女人精品免费视频|