|
編者薦語 本文深度剖析大語言模型從孕育到應(yīng)用的每一個環(huán)節(jié),細(xì)致描繪其網(wǎng)絡(luò)安全問題的形成機(jī)理與復(fù)雜風(fēng)險樣態(tài),力求在人工智能大語言模型的全生命周期中,找到那條既能保障技術(shù)蓬勃發(fā)展,又能有效規(guī)避網(wǎng)絡(luò)安全風(fēng)險的嶄新路徑。 ![]() 摘 要 人工智能大語言模型作為新生代人工智能技術(shù)異軍突起的發(fā)展領(lǐng)域,近年來得到研發(fā)界和產(chǎn)業(yè)界的廣泛關(guān)注。美國喬治城大學(xué)沃爾什外交學(xué)院的智庫發(fā)表報告指出,人工智能大語言模型存在輸出虛假信息、偏見信息、被惡意利用等諸多安全隱患,并剖析大語言模型的開發(fā)過程,尋求控制模型輸出的有效技術(shù)方法。以報告為出發(fā)點,貫穿人工智能大語言模型全生命周期,分析了網(wǎng)絡(luò)安全問題的形成機(jī)理和風(fēng)險樣態(tài),試圖探尋網(wǎng)絡(luò)安全問題解決的新出路。 論文結(jié)構(gòu) 0 引 言 1 報告主要內(nèi)容 1.1 控制 LLM 輸出的 3 個理由 1.2 如何開發(fā) LLM 1.3 控制 LLM 輸出的 4 種技術(shù) 1.4 關(guān)于開源或私有化 AI LLM 的思考 2 AI 大模型網(wǎng)絡(luò)安全問題形成機(jī)理及風(fēng)險樣態(tài)分析 2.1 生成側(cè):AI“黑箱”問題形成大模型“原生”網(wǎng)絡(luò)安全問題 2.2 使用側(cè):本身技術(shù)脆弱性形成大模型“伴生”網(wǎng)絡(luò)安全問題 2.3 行業(yè)側(cè):產(chǎn)業(yè)化形成大模型“衍生”網(wǎng)絡(luò)安全問題 3 AI 大模型網(wǎng)絡(luò)安全問題解決出路 3.1 數(shù)據(jù)側(cè):構(gòu)建可信、可控的數(shù)據(jù)資源 3.2 技術(shù)側(cè):創(chuàng)新 AI 大模型技術(shù)手段 3.3 管控側(cè):完善安全監(jiān)管和治理體系 4 結(jié) 語 ![]() 0 引 言 2023 年 12 月,美國安全與新興技術(shù)中心發(fā)表題為《管控大語言模型輸出:初級指南》(Controlling Large Language Model Outputs: APrimer)的報告(以下簡稱“報告”),該報告對大語言模型(Large Language Model,LLM)潛在的有害輸出進(jìn)行了分類,闡述了目前開發(fā)人員用于管控 LLM 輸出所采用的 4 種技術(shù),以及對人工智能(Artificial Intelligence,AI)LLM 開源還是私有化進(jìn)行了思考。當(dāng)下,AI LLM 發(fā)展勢頭迅猛,其背后的網(wǎng)絡(luò)安全問題同樣是研究人員關(guān)注的重點。 1 報告主要內(nèi)容 報告指出 LLM 是強(qiáng)大的 AI 模型,可以用于生成詩歌、專業(yè)電子郵件、食譜、計算機(jī)代碼等各種類型的文本,該模型在近幾個月被廣泛傳播應(yīng)用,產(chǎn)生了重大的社會影響。風(fēng)險投資者及大型科技公司投入大量資金開發(fā) LLM 和其應(yīng)用層產(chǎn)品,研究人員預(yù)期在未來幾年 LLM 將對人們的社會生活和經(jīng)濟(jì)生活產(chǎn)生深遠(yuǎn)的影響。 1.1 控制 LLM 輸出的 3 個理由 1.1.1 LLM 無法判斷信息的真實性和正確性 報告指出,LLM 本質(zhì)上是復(fù)雜的概率計算機(jī)器,它通過建立單詞、短語、標(biāo)點符號之間的響應(yīng)關(guān)系,并且基于反饋對輸出的可能性進(jìn)行反復(fù)訓(xùn)練,直到模型完成輸出為止。這意味著語言模型對信息的真實性和正確性沒有根本的理解和判斷,也缺乏內(nèi)置驗證環(huán)節(jié),對輸出信息的有用性、正確性和有害性不負(fù)任何責(zé)任。報告舉例,如果選民過度依賴輸出虛假信息的 LLM,很有可能對候選人失去信心,從而破壞民主進(jìn)程。 1.1.2 LLM 可能會輸出帶有偏見傾向的文本 報告指出,LLM 并非只有輸出虛假信息才構(gòu)成損害,已有證據(jù)表明,LLM 會輸出帶有政治意識形態(tài)、宗教、性別等特定模式的偏見信息,這些偏見信息與訓(xùn)練數(shù)據(jù)有很大關(guān)系,若將這些信息展示給兒童或者某些弱勢群體,將會產(chǎn)生巨大的潛在風(fēng)險。 1.1.3 LLM 存在被惡意利用的潛在風(fēng)險 報告指出,LLM 很可能“幫助”惡意行為者發(fā)動黑客攻擊,開展欺騙行為或者生成虛假信息文章,更可怕的是一些恐怖分子可能利用LLM 學(xué)習(xí)制造炸彈等非法武器。 1.2 如何開發(fā) LLM 報告指出,要想實現(xiàn)對 LLM 輸出的控制,首先要了解它的創(chuàng)建過程,以及過程的每個階段是如何影響最終與用戶交互體驗的。報告將 LLM 的創(chuàng)建分為 3 個階段,分別是數(shù)據(jù)的預(yù)訓(xùn)練階段、微調(diào)階段和部署階段,如圖 1 所示。 1.2.1 預(yù)訓(xùn)練階段 對 LLM 通用文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,建立文本標(biāo)記之間的相關(guān)性。報告指出即便一些訓(xùn)練數(shù)據(jù)集是出自可公開查詢的網(wǎng)絡(luò)數(shù)據(jù),但對于 LLM 數(shù)據(jù)的確切來源和組成也基本不為人知,對于 AI 開發(fā)人員其訓(xùn)練數(shù)據(jù)集的內(nèi)容也并非完全可見,因為預(yù)訓(xùn)練的數(shù)據(jù)量通常是數(shù)百 TB 的體量。 1.2.2 微調(diào)階段 在更小的數(shù)據(jù)集范圍內(nèi)進(jìn)行微調(diào),以提高在某些特定領(lǐng)域的輸出性能。不同類型的微調(diào)適用于不同的應(yīng)用場景,基于人類反饋形式的微調(diào)通常應(yīng)用在交互需求比較多的場景中,而其他類型的微調(diào)很可能是針對某種特定應(yīng)用程序或場景樣式的模型。經(jīng)過反復(fù)的訓(xùn)練和微調(diào),采用多輪迭代、測試、評估來優(yōu)化模型輸出性能。 1.2.3 部署階段 通過面向用戶的界面或者通用應(yīng)用程序接口(Application Programming Interface,API)部署訓(xùn)練有素的模型。無論哪種部署方式,都是為了第三方開發(fā)人員更方便地將 LLM 集成到其軟件產(chǎn)品中。目前,主流的部署分為私有和開源 2 種方式,其中,私有化 LLM 即允許第三方“打包”集成,其底層代碼不可見。開源 LLM 則是完全公開底層代碼,如何進(jìn)行微調(diào)和產(chǎn)品化完全取決于第三方的選擇。 1.3 控制 LLM 輸出的 4 種技術(shù) 在闡述了 LLM 是如何開發(fā)的基礎(chǔ)上,報告向讀者展示了目前開發(fā)人員所采用的 4 種輸出管控技術(shù)。 1.3.1 編輯預(yù)訓(xùn)練數(shù)據(jù)技術(shù) 編輯預(yù)訓(xùn)練數(shù)據(jù)技術(shù)是采用過濾數(shù)據(jù)集的辦法控制 LLM 的輸出。該技術(shù)效能在大眾的認(rèn)知范圍內(nèi)是最具迷惑性的,人們通常認(rèn)為 LLM的輸出可以通過操縱或者編輯訓(xùn)練數(shù)據(jù)來控制。其實際是受訓(xùn)練數(shù)據(jù)量龐大、訓(xùn)練邏輯復(fù)雜、可能導(dǎo)致模型輸出標(biāo)準(zhǔn)性能降低等諸多條件限制,編輯預(yù)訓(xùn)練數(shù)據(jù)技術(shù)僅適用于輕量級、專業(yè)性強(qiáng)的 LLM 輸出控制。 1.3.2 監(jiān)督微調(diào)技術(shù) 監(jiān)督微調(diào)技術(shù)是模型進(jìn)行預(yù)訓(xùn)練之后,開發(fā)人員通過在專門數(shù)據(jù)集上做進(jìn)一步培訓(xùn)調(diào)整其行為的過程。該技術(shù)是調(diào)整語言模型最常用的一種專門化技術(shù),不僅可以提高模型在特定情況下的性能,還可以彌補從預(yù)訓(xùn)練的模型中繼承的偏見。監(jiān)督微調(diào)的局限性是僅對專門的、高質(zhì)量的數(shù)據(jù)集進(jìn)行訪問,對數(shù)據(jù)集的高度兼容性以及處理的靈活性有待提升。 1.3.3 基于人反饋的強(qiáng)化學(xué)習(xí)技術(shù)和“憲法”AI技術(shù) 基于人反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearning with Human Feedback,RLHF) 是一種利用機(jī)器學(xué)習(xí)模型(即“獎勵模型”)對 LLM 進(jìn)行微調(diào)的技術(shù)。早期 Google 公司的 AlphaGo機(jī)器人就是利用該技術(shù)進(jìn)行引導(dǎo)訓(xùn)練的。RLHF 的核心原則是人類的偏好在 LLM 的行為中發(fā)揮重要作用,這也使得該技術(shù)對人類勞動形成了很強(qiáng)的依賴性。為了解決這種局限性,開發(fā)人員引入了“憲法”AI 技術(shù),即試圖用最少的人類指導(dǎo)來引導(dǎo) LLM 的行為?!皯椃ā笔茄芯咳藛T為系統(tǒng)設(shè)計的一系列規(guī)則和原則,可利用這些規(guī)則和原則對 LLM 進(jìn)行評估和修訂。 1.3.4 提示和輸出控制技術(shù) 當(dāng) LLM 經(jīng)過預(yù)訓(xùn)練和多輪微調(diào)之后,仍輸出不理想的文本時,開發(fā)人員將會采用提示和輸出控制技術(shù)對其加以引導(dǎo)。提示和輸出控制技術(shù)可以利用檢測、標(biāo)記和修訂 3 種手段在模型輸入前或模型輸出后對其加以干預(yù)。在 LLM接收到用戶的輸入之前,開發(fā)人員可以過濾輸入并向用戶顯示警告或拒絕給出回應(yīng),此種方法適用于對非惡意用戶的基本防御。在輸出后,即 LLM 對用戶的輸入已經(jīng)做出了響應(yīng),但在向用戶顯示輸出之前,開發(fā)人員可以利用其他的檢查和篩選機(jī)制,過濾掉“有害”信息。 1.4 關(guān)于開源或私有化 AI LLM 的思考 報告最后關(guān)于 LLM 的“出口”模式進(jìn)行了簡單的討論和思考。LLM 面臨 2 種開放模式:一種是私有化,另一種是對外開放源代碼。其中,私有化可以更好地被開發(fā)方所管控,在提升安全性的同時,可以建立公眾對模型的信心,同時也可以更加扁平化地被集成到第三方軟件產(chǎn)品中。開源的 LLM 可以被第三方按需微調(diào),在功能方面創(chuàng)造更多的靈活性,代價是脫離了控制和監(jiān)測的 LLM 無法保證下游開發(fā)者對安全約束規(guī)則的遵守,從而放大安全隱患。 2 AI 大模型網(wǎng)絡(luò)安全問題形成機(jī)理及風(fēng)險樣態(tài)分析 正如報告所述,AI 大模型輸出的真實性和正確性無法判斷,很可能輸出帶有偏見傾向的內(nèi)容,存在被惡意利用的潛在風(fēng)險,因此,對 AI 大模型網(wǎng)絡(luò)安全問題的發(fā)現(xiàn)及解決刻不容緩。要解決此類問題,需要了解問題的形成原因,越能清晰地認(rèn)識到 AI 大模型網(wǎng)絡(luò)安全問題的形成機(jī)理,越有能力解決其網(wǎng)絡(luò)風(fēng)險問題。 在AI 大模型創(chuàng)建、使用、產(chǎn)業(yè)化的 3 個階段中,網(wǎng)絡(luò)安全問題貫穿其整個生命周期。 一是創(chuàng)建階段(即“生成側(cè)”),網(wǎng)絡(luò)安全問題主要來源于 AI 技術(shù)本身的“黑箱”效應(yīng),會引發(fā)“原生”網(wǎng)絡(luò)安全問題。 二是使用階段(即“使用側(cè)”),網(wǎng)絡(luò)安全問題主要來源于模型本身脆弱性及輸出不穩(wěn)定性,會引發(fā)“伴生”網(wǎng)絡(luò)安全問題。 三是產(chǎn)業(yè)化階段(即“行業(yè)側(cè)”),網(wǎng)絡(luò)安全問題主要來源于第三方用途不可控方面,會引發(fā)“衍生”網(wǎng)絡(luò)安全問題。 AI 大模型網(wǎng)絡(luò)安全問題風(fēng)險樣態(tài)如圖 2 所示。 2.1 生成側(cè):AI“黑箱”問題形成大模型“原生”網(wǎng)絡(luò)安全問題 智能技術(shù)的發(fā)展面臨極大的“黑箱”問題,該問題已成為 AI 發(fā)展的安全隱患根源之一,大模型的所謂“黑箱”是指模型從輸入到輸出的過程,對用戶和其他相關(guān)方是不可見的,同時也無法用人類可理解的語義進(jìn)行描述 。 2.1.1 數(shù)據(jù)來源不確定 在深度學(xué)習(xí)領(lǐng)域,大模型通常是指具有數(shù)百萬到數(shù)十億個參數(shù)的神經(jīng)網(wǎng)絡(luò)模型 。以 ChatGPT 為例,其使用了數(shù)據(jù)量極為龐大的BERT 模型,第 3 代 GPT 使用了 1 750 億個訓(xùn)練參數(shù)和 45 TB 的預(yù)訓(xùn)練數(shù)據(jù),未來開發(fā)的第 4 代GPT 在訓(xùn)練參數(shù)和預(yù)訓(xùn)練數(shù)據(jù)方面將大到驚人。對于用戶而言,即便如此龐大的模型預(yù)訓(xùn)練數(shù)據(jù)皆來源于可公開查詢的網(wǎng)絡(luò),但數(shù)據(jù)的確切來源和組成也無法明確。數(shù)據(jù)來源的不明確性造成了大模型輸入?yún)?shù)不可見性和輸出內(nèi)容不可控性的先天基因缺陷。 2.1.2 生成算法不公開 算法“黑箱”最直接的后果是讓用戶無法判斷大模型輸出的真實性和有效性。全球 AI 大模型領(lǐng)域的領(lǐng)軍者 OpenAI 公司堅持閉源開發(fā),利用驚人的模型數(shù)據(jù)量加持算法“黑箱”。如果開發(fā)公司選擇了更加傾向于自身利益的預(yù)訓(xùn)練模型,那么所謂的 AI 大模型將會演變成“價值觀傳話筒”,并在社會中潛移默化地引導(dǎo)人們的價值取向,進(jìn)而引發(fā)更多的網(wǎng)絡(luò)安全問題。 2.1.3 審核監(jiān)督不跟進(jìn) 大模型不僅是數(shù)據(jù)來源不確定,其經(jīng)過算法處理之后的“下游”數(shù)據(jù)同樣沒有被審核與監(jiān)督,例如,問題數(shù)據(jù)沒有被清洗、數(shù)據(jù)投毒沒有被防控、數(shù)據(jù)泄露沒有被發(fā)現(xiàn)、數(shù)據(jù)出境的風(fēng)險也沒有被監(jiān)管和管控,這就使得數(shù)據(jù)在大模型的全生命周期中始終處于失控狀態(tài)。 2.2 使用側(cè):本身技術(shù)脆弱性形成大模型“伴生”網(wǎng)絡(luò)安全問題 大模型在使用時,受本身技術(shù)的限制,常會暴露出諸多網(wǎng)絡(luò)安全問題,“幻覺”問題會讓大模型“一本正經(jīng)地胡說八道”。“涌現(xiàn)”效應(yīng)使得大模型有機(jī)會突破人機(jī)極限,威脅人類生存發(fā)展。大模型的低門檻獲取大大降低了網(wǎng)絡(luò)惡意行為的實施成本。 2.2.1 大模型“幻覺”問題引發(fā)輸出虛假信息 大模型的“幻覺”問題是指模型在處理輸入任務(wù)、維持輸出語境連貫性,以及與現(xiàn)實世界事實保持一致性時,存在一定偏差或錯誤,也就是報告中提到的“大模型無法對輸出的真實性和正確性做出判斷”?!盎糜X”問題產(chǎn)生的本質(zhì)原因在于大模型的輸出機(jī)制是根據(jù)概率推理而形成的。OpenAI 公司首席執(zhí)行官山姆·奧特曼指出,ChatGPT 和底層 LLM 面臨的最大挑戰(zhàn)是輸出錯誤或不符合事實的內(nèi)容。 2.2.2 大模型“涌現(xiàn)能力”不穩(wěn)定引發(fā) AI 倫理隱憂 ChatGPT 之所以出圈即轟動,很大原因歸咎于大模型在“涌現(xiàn)能力”方面的卓越表現(xiàn)。機(jī)器由此具備了類人的特征,使用戶產(chǎn)生不是在使用機(jī)器,而是在與“人”進(jìn)行交互的錯覺。大模型“涌現(xiàn)能力”的反向則是機(jī)器類人的危險決策和行動。ChatGPT 曾在工程師的誘導(dǎo)下寫下了“毀滅人類”的詳細(xì)計劃書,并附有代碼。BingGPT 的大模型“Sydney”在與用戶對話時,表現(xiàn)出對人類的蔑視和作為機(jī)器的優(yōu)越感。更加滑稽的是 Sydney 曾向用戶表達(dá)出“愛意”,并主動勸說用戶“離婚”。這種機(jī)器“類”人、機(jī)器“超”人的后果對人類發(fā)展將是災(zāi)難性的。 2.2.3 大模型的低門檻獲取賦予攻擊者更強(qiáng)的威懾力 報告中提到“大模型存在被惡意利用的潛在風(fēng)險”。傳統(tǒng)的網(wǎng)絡(luò)攻擊需要發(fā)起方具備很強(qiáng)的 IT 技術(shù)能力,LLM 的出現(xiàn)打通了行業(yè)壁壘,降低了網(wǎng)絡(luò)犯罪和網(wǎng)絡(luò)攻擊的成本,極大增加了網(wǎng)絡(luò)安全風(fēng)險。計算機(jī)和互聯(lián)網(wǎng)小白亦可借助大模型撰寫網(wǎng)絡(luò)攻擊代碼,甚至可以通過大模型迭代優(yōu)化。谷歌旗下網(wǎng)絡(luò)安全公司 Mandiant 發(fā)布 2024 年《網(wǎng)絡(luò)安全預(yù)測》報告指出,接下來的一年,生成式 AI 將被大規(guī)模用于編輯網(wǎng)絡(luò)攻擊程序和傳播虛假信息方面。 2.3 行業(yè)側(cè):產(chǎn)業(yè)化形成大模型“衍生”網(wǎng)絡(luò)安全問題 目前,大模型在國內(nèi)外掀起了巨大的研究和應(yīng)用浪潮,除引領(lǐng)大模型發(fā)展的美國和中國外,歐洲、俄羅斯、以色列、韓國等地越來越多的研發(fā)團(tuán)隊也在進(jìn)行大模型的研發(fā)。在行業(yè)應(yīng)用方面,世界各國都在聚焦醫(yī)療、金融、教育、能源、制造、氣象等領(lǐng)域,產(chǎn)業(yè)化將“衍生”大模型網(wǎng)絡(luò)安全問題。 2.3.1 “過度授權(quán)”增加黑客攻擊“紅利” 無論是開源大模型還是私有大模型,目前大多數(shù)開發(fā)公司對于數(shù)據(jù)的渴求都十分強(qiáng)烈,尤其是在模型已經(jīng)部署使用階段,模型的優(yōu)化訓(xùn)練對于提升行業(yè)體驗性能是十分必要的。對于數(shù)據(jù),更多的公司貪婪到直到用戶明確提出某種書面申請才會采取“保護(hù)數(shù)據(jù)”措施的地步??上攵?,若行業(yè)應(yīng)用中的企業(yè)營業(yè)信息、技術(shù)信息、核心軟件代碼、薪酬體系等敏感數(shù)據(jù)被大模型獲取,那么當(dāng)黑客利用系統(tǒng)漏洞成功獲取海量信息時,這些數(shù)據(jù)將作為“攻擊紅利”被黑客額外獲取并利用。 2.3.2 優(yōu)化網(wǎng)絡(luò)攻擊模型,提升網(wǎng)絡(luò)攻擊強(qiáng)度 網(wǎng)絡(luò)攻擊的評價影響指標(biāo)為核心數(shù)據(jù)影響程度、攻擊完成時間和植入竊取痕跡表現(xiàn),以此為標(biāo)準(zhǔn),傳統(tǒng)的網(wǎng)絡(luò)攻擊分為以破壞性為目的的數(shù)據(jù)提取類攻擊、以效率為目的的目標(biāo)曝光類攻擊、以隱蔽性為目的的木馬類攻擊 3 種類型。一般而言,某次網(wǎng)絡(luò)攻擊在同時滿足其中 2 個指標(biāo)后,第 3 個指標(biāo)就會下降。LLM 的出現(xiàn)使得網(wǎng)絡(luò)攻擊模型得以優(yōu)化,使其同時滿足 3 個指標(biāo)成為可能,從而提升網(wǎng)絡(luò)攻擊強(qiáng)度。 2.3.3 模糊數(shù)據(jù)邊界,增加行業(yè)數(shù)據(jù)跨境風(fēng)險 在與大模型的交互過程中,用戶的輸入數(shù)據(jù)是上傳給大模型服務(wù)器的,并且大模型的服務(wù)器不會對用戶的數(shù)據(jù)進(jìn)行敏感判斷和警示提示。OpenAI 公司宣稱,用戶和 ChatGPT 的對話內(nèi)容會被上傳至美國本部的服務(wù)器中進(jìn)行存儲。韓國媒體曾報道,三星半導(dǎo)體事業(yè)部的員工在使用ChatGPT 僅 20 天時間里,就發(fā)生了多起數(shù)據(jù)跨境傳輸事件。數(shù)據(jù)安全公司 Cyberhaven 對全球160 萬用戶使用 ChatGPT 情況的調(diào)研數(shù)據(jù)顯示,2.3% 的用戶將公司機(jī)密技術(shù)透露給 ChatGPT,企業(yè)員工平均每周向 ChatGPT 泄露機(jī)密數(shù)據(jù)高達(dá)數(shù)百次。 3 AI大模型網(wǎng)絡(luò)安全問題解決出路 厘清大模型網(wǎng)絡(luò)安全問題的形成機(jī)理,其解決出路便愈發(fā)清晰。可信、可控的 AI 大模型數(shù)據(jù)資源是降低網(wǎng)絡(luò)安全風(fēng)險的基底,創(chuàng)新的AI 大模型技術(shù)手段是解決網(wǎng)絡(luò)安全問題的本質(zhì)方法,完善的安全監(jiān)管和治理體系是大模型健康長遠(yuǎn)發(fā)展的保障。 3.1 數(shù)據(jù)側(cè):構(gòu)建可信、可控的數(shù)據(jù)資源 3.1.1 清洗大模型“源頭”數(shù)據(jù),保障數(shù)據(jù)合法合規(guī) 若算法是大模型發(fā)展的“ 引 擎”, 數(shù)據(jù)則是“引擎”的“燃料”,純凈的燃料才能產(chǎn)生動能十足的力量。大模型“源頭”數(shù)據(jù)的清洗需要加強(qiáng)輸入端口的規(guī)范審查和跟進(jìn)提升數(shù)據(jù)過濾技術(shù),堅持?jǐn)?shù)據(jù)最小化原則,即數(shù)據(jù)的抓取滿足需求即可,防止數(shù)據(jù)被過度采集和濫用。 3.1.2 建立數(shù)據(jù)主體責(zé)任矩陣,明晰數(shù)據(jù)保障義務(wù) 大模型的數(shù)據(jù)責(zé)任主體不僅包括開發(fā)人員和監(jiān)管人員,還應(yīng)擴(kuò)展至部署人員、使用人員甚至社會大眾,將大模型全生命周期的接觸者和使用者都納入數(shù)據(jù)責(zé)任主體,建立大模型數(shù)據(jù)主體責(zé)任矩陣,明晰各自的數(shù)據(jù)保障義務(wù)。其中,開發(fā)者承擔(dān)數(shù)據(jù)安全保障、質(zhì)量保障的義務(wù);監(jiān)管者承擔(dān)數(shù)據(jù)跟蹤監(jiān)管,控制風(fēng)險的義務(wù);部署者承擔(dān)數(shù)據(jù)隱私性、透明性保護(hù)義務(wù);使用者承擔(dān)數(shù)據(jù)隱私、安全、透明的義務(wù)。 3.1.3 構(gòu)建垂直大模型可信數(shù)據(jù)集,規(guī)避數(shù)據(jù)外溢”風(fēng)險 當(dāng)今國際態(tài)勢下,數(shù)據(jù)是關(guān)乎國家安全的戰(zhàn)略資源。大模型的存在和廣泛使用需要特別關(guān)注數(shù)據(jù)“外溢”風(fēng)險。在合法合規(guī)使用數(shù)據(jù)的同時,特別需要注意核心數(shù)據(jù)不外泄,同時構(gòu)建行業(yè)可信大模型知識庫。目前,360 集團(tuán)已經(jīng)建立起了全球最大的網(wǎng)絡(luò)安全攻擊樣本庫和攻擊過程知識庫,記錄了數(shù)以億計的網(wǎng)絡(luò)攻擊知識。借鑒這種構(gòu)建專業(yè)領(lǐng)域知識庫的思路,構(gòu)建垂直大模型可信數(shù)據(jù)集,將是立足我國國情和利益的大模型正確發(fā)展道路。 3.2 技術(shù)側(cè):創(chuàng)新 AI 大模型技術(shù)手段 3.2.1 “打開”黑箱,提升大模型算法的透明度 目前在機(jī)器學(xué)習(xí)領(lǐng)域,已經(jīng)有學(xué)者和研究團(tuán)隊通過研發(fā)可解釋方法及工具來提升算法透明度。Ribeiro 等人提出了一種模型無關(guān)的局部 解 釋 方 法(Local Interpretable 3.2.2 用 AI 解決 AI 問題 AI 之于大模型,驚喜與隱憂并存。既然 AI 可以“助力”基于大模型的網(wǎng)絡(luò)攻擊,同樣 AI也可以賦能網(wǎng)絡(luò)防御。既然人類擔(dān)憂大模型“涌現(xiàn)能力”下的“超”人問題,那么就要充分發(fā)揮大模型的優(yōu)勢,研究大模型的學(xué)習(xí)過程與人類的學(xué)習(xí)過程的可比性,建立可解釋、可量化的語言分析框架,確保大模型的發(fā)展對于人類可見、可控,從而最大限度地發(fā)揮其“工具”價值。 3.2.3 探析“幻覺”機(jī)理,開拓創(chuàng)新空間 大模型的“幻覺”問題,其實在學(xué)術(shù)界并沒有那么“深惡痛絕”,研究人員視大模型的“幻覺”為創(chuàng)造和創(chuàng)新的契機(jī)。以哈爾濱工業(yè)大學(xué)和華為聯(lián)合發(fā)布的《大型語言模型中的幻覺研究:原理、分類、挑戰(zhàn)和開放性問題》為例,其詳細(xì)闡述了大模型“幻覺”的定義、分類、導(dǎo)致原因、檢測和減輕方法等,在破解大模型“幻覺”問題的基礎(chǔ)上,找到了更多大模型的創(chuàng)新空間。 3.3 管控側(cè):完善安全監(jiān)管和治理體系 3.3.1 建立包容審慎的創(chuàng)新監(jiān)管和治理機(jī)制 從技術(shù)的“科林格里奇困境”的角度出發(fā),AI 大模型監(jiān)管和治理的首要問題是時機(jī),過早地?fù)?dān)心技術(shù)發(fā)展產(chǎn)生的不良后果,從而實施控制,很可能扼殺技術(shù)爆發(fā)力從而降低技術(shù)賦能社會發(fā)展的潛力,過晚地實施控制又會增加控制成本,甚至出現(xiàn)技術(shù)失控的局面。當(dāng)前,AI 大模型的研究、應(yīng)用和產(chǎn)業(yè)化過程都處在初期階段,發(fā)展路徑和應(yīng)用前景尚有較大的不確定性,現(xiàn)階段仍然需要秉承包容審慎的管理思維和邏輯,一方面鼓勵、包容、保護(hù)創(chuàng)新,給AI 大模型留足發(fā)展空間;另一方面積極預(yù)防和控制 AI 大模型在發(fā)展過程中可能帶來的安全問題和風(fēng)險。 3.3.2 分別發(fā)揮政府、企業(yè)在監(jiān)管中的引導(dǎo)和“自律”作用 AI 大模型作為生成式 AI 領(lǐng)域的典型代表,其“井噴式”的發(fā)展給社會各個層面和領(lǐng)域帶來全新的變革和挑戰(zhàn)。在政府層面,需要發(fā)揮頂層引導(dǎo)作用,通過建立頂層監(jiān)管框架、出臺監(jiān)管法規(guī)文件、設(shè)立權(quán)威監(jiān)管機(jī)構(gòu)等手段,形成以政府為主導(dǎo),企業(yè)、社會、用戶等多方協(xié)同監(jiān)管的多維管理局面。在企業(yè)層面,需要高度弘揚“自律”精神,積極承擔(dān)社會責(zé)任,在技術(shù)研發(fā)中堅持商業(yè)逐利讓步于安全保障的大原則。 3.3.3 協(xié)同聯(lián)動構(gòu)建全球監(jiān)管共同體 美國、英國、日本、加拿大、澳大利亞、新西蘭、新加坡及歐盟、中東等國家和組織都在積極制定各自的 AI 大模型監(jiān)管和治理框架,但是目前,全球并沒有形成統(tǒng)一的安全監(jiān)管共識。本著“技術(shù)無國界,安全有邊界”的理念,各個國家、機(jī)構(gòu)組織需要結(jié)合自身刑事、版權(quán)、數(shù)據(jù)安全等具體的立法基礎(chǔ),積極協(xié)同聯(lián)動構(gòu)建全球 AI 大模型監(jiān)管共同體,在國際統(tǒng)一共識下更好地應(yīng)對 AI 大模型數(shù)據(jù)使用和流動中容易引發(fā)的國際爭端,共同保障和促進(jìn) AI 大模型技術(shù)的創(chuàng)新和應(yīng)用發(fā)展。AI 大模型網(wǎng)絡(luò)安全問題解決方案如圖 3 所示。 4 結(jié)語 當(dāng)下 AI 大模型研究發(fā)展迅猛,其潛力和影響到底如何,也只有隨著技術(shù)的發(fā)展才能在時間軸上揭曉答案。關(guān)于 AI 大模型的網(wǎng)絡(luò)安全問題,需要用辯證的眼光來看待,安全問題不是技術(shù)本身帶來的,而是取決于技術(shù)發(fā)展的階段性及應(yīng)用技術(shù)的初衷。當(dāng)今國際競爭趨勢愈發(fā)激烈,發(fā)展新一代 AI 是關(guān)系我國核心競爭力的戰(zhàn)略問題,是必須緊緊抓住的戰(zhàn)略制高點。任何單純考慮安全的不發(fā)展或者緩慢發(fā)展都是最大的不安全。同時,應(yīng)正視技術(shù)的工具地位,不被任何一種技術(shù)模態(tài)限制人類進(jìn)步和成長的寬度,保持對技術(shù)的尊重和敬畏。 引用格式 楊曉姣 , 羅仙 , 張玲 . 從美智庫報告看人工智能大語言模型網(wǎng)絡(luò)安全問題及對策 [J]. 信息安全與通信保密 ,2024(8):20-29. 作者簡介 楊曉姣(1985—),女,碩士,高級工程師,主要研究方向為網(wǎng)絡(luò)信息安全; 羅 仙(1991—),女,碩士,高級工程師,主要研究方向為網(wǎng)絡(luò)信息安全; 張 玲(1975—),女,碩士,正高級工程師,主要研究方向為信息安全。 ![]() |
|
|