|
文 / 中國人民銀行遼寧省分行?余玲 中國人民銀行撫順市分行?張航 高登科 自2022年11月人工智能對話聊天機(jī)器人ChatGPT推出,其憑借出色的語言處理能力迅速躥紅。該模型可以廣泛與各領(lǐng)域結(jié)合,其發(fā)展?jié)摿蛻?yīng)用場景也引發(fā)資本市場的無限遐想,受到追捧。在科技領(lǐng)域,ChatGPT的出現(xiàn)掀起了人工智能領(lǐng)域新一輪浪潮,國內(nèi)外各大科技巨頭紛紛發(fā)布各自的基于自然語言模型的人工智能產(chǎn)品。 在當(dāng)下的信息時(shí)代,自然語言模型人工智能系統(tǒng)的出現(xiàn),也為銀行業(yè)的數(shù)字化轉(zhuǎn)型提供了一種全新的思路和方式。根據(jù)公開的報(bào)道,已經(jīng)有多家銀行公開宣布,其成為國內(nèi)某知名科技公司人工智能系統(tǒng)的生態(tài)合作伙伴,一旦該技術(shù)在實(shí)際中得以應(yīng)用,必然為銀行業(yè)帶來更加高效和便捷的業(yè)務(wù)體系。同時(shí)我們也應(yīng)該看到,任何智能模型的建立都需要海量的數(shù)據(jù)支撐,而銀行業(yè)所涉數(shù)據(jù)關(guān)乎國家金融安全和居民個(gè)人信息安全,在新技術(shù)的應(yīng)用上就必然需要更加嚴(yán)格的數(shù)據(jù)治理體系,以保證銀行業(yè)數(shù)據(jù)的準(zhǔn)確性、完整性和安全性。因此,自然語言模型人工智能系統(tǒng)為銀行業(yè)提供新發(fā)展機(jī)遇可能的同時(shí),也將對數(shù)據(jù)治理體系提出更高的要求。 自然語言模型在銀行業(yè)的應(yīng)用場景1.風(fēng)險(xiǎn)識別與控制 目前,銀行機(jī)構(gòu)普遍具備通過內(nèi)部數(shù)據(jù)模型分析賬戶異常行為,以識別風(fēng)險(xiǎn)的基本風(fēng)控能力,但對于外部數(shù)據(jù)信息的獲取和處理仍然主要依托人員開展盡調(diào)。人工智能的自然語言模型可以自動聚集大量的外部和內(nèi)部數(shù)據(jù),并對文本信息抓取、分析、挖掘和推理,通過該技術(shù)進(jìn)行風(fēng)險(xiǎn)分析與評估,幫助銀行發(fā)現(xiàn)潛在的風(fēng)險(xiǎn),提供有效的決策預(yù)測。例如,通過分析互聯(lián)網(wǎng)文本信息,識別出潛在的信用風(fēng)險(xiǎn),或?qū)蛻?、機(jī)構(gòu)的聲譽(yù)開展全面分析,以此來判斷風(fēng)險(xiǎn)等級。 2.客戶服務(wù) 傳統(tǒng)的客服機(jī)器人主要是依靠關(guān)鍵字來判斷客戶提出的問題,進(jìn)而提供模板化的答案,因此往往難以理解客戶的實(shí)際需求,對客戶提出的問題也經(jīng)常無法提供正確的解答。而在自然語言模型下,客服機(jī)器人將可以與客戶開展人機(jī)對話,客戶可以通過日常性、表述性的語言,說明產(chǎn)生問題的場景和其他情況,人工智能系統(tǒng)將通過分析客戶意圖,準(zhǔn)確理解客戶需求,對客戶問題有針對性地進(jìn)行回答,表述上也更加符合人際間對話的特性,方便客戶理解。此外,客服機(jī)器人還可以根據(jù)客戶描述的需求,提供個(gè)性化的金融產(chǎn)品和服務(wù),幫助銀行協(xié)助客戶實(shí)現(xiàn)資產(chǎn)管理和財(cái)務(wù)規(guī)劃目標(biāo)。 3.快速內(nèi)容生成 在自然語言處理技術(shù)的加持下,在內(nèi)容生成方面人工智能也展現(xiàn)出了顛覆性的能力。對于日常工作中常見的策劃方案、總結(jié)報(bào)告、通知公告等,人工智能可以快速進(jìn)行文字生成,其生產(chǎn)的內(nèi)容質(zhì)量已經(jīng)可以滿足正常的辦公需求,可以極大地提高文字工作的效率。另外,也有部分企業(yè)在內(nèi)部嘗試?yán)萌斯ぶ悄苌删W(wǎng)頁的基本框架,從測試結(jié)果來看,成功將單個(gè)產(chǎn)品功能的研發(fā)周期從數(shù)天縮短至數(shù)個(gè)小時(shí)。 存在的風(fēng)險(xiǎn)盡管NLP技術(shù)在銀行業(yè)應(yīng)用領(lǐng)域上存在巨大的機(jī)遇,但是在數(shù)據(jù)治理方面也不可避免地存在風(fēng)險(xiǎn)和挑戰(zhàn)。 1.敏感信息的泄露 人工智能的訓(xùn)練,本身就依托于大量的數(shù)據(jù)投喂,根據(jù)模型應(yīng)用場景的不同,一些敏感信息(如個(gè)人身份、財(cái)務(wù)記錄等)可能被傳遞到模型中。在這個(gè)過程中,可能從多個(gè)方面產(chǎn)生數(shù)據(jù)泄露的風(fēng)險(xiǎn)。 一是傳統(tǒng)的數(shù)據(jù)泄露風(fēng)險(xiǎn),數(shù)據(jù)在傳遞、使用、銷毀等環(huán)節(jié)中,任何一個(gè)環(huán)節(jié)的管理缺失都可能使信息泄露。特別是目前銀行對于此類前沿技術(shù)的應(yīng)用,普遍采取內(nèi)外聯(lián)合研發(fā)的方式,而人工智能的訓(xùn)練過程中又需要大量的人工干預(yù),這都可能增加與敏感數(shù)據(jù)接觸的人數(shù)、頻次,產(chǎn)生泄露風(fēng)險(xiǎn)。 二是人工智能具有高度的自動化特性,其生成內(nèi)容的過程并非完全可控,在內(nèi)容生成階段,其可能會根據(jù)訓(xùn)練時(shí)接收的敏感數(shù)據(jù)對外非限制性輸出,導(dǎo)致敏感數(shù)據(jù)外泄,甚至有被不法分子通過誘導(dǎo)式提問誘導(dǎo)套取信息的可能。 2.算法偏向性 由于訓(xùn)練數(shù)據(jù)的不同來源和種類不同,算法在文本分類、自然語言理解和機(jī)器翻譯等方面可能會出現(xiàn)偏向。此外,在人工智能的應(yīng)用中,機(jī)器學(xué)習(xí)算法本身也可能會存在偏見或誤解,從而導(dǎo)致回答錯(cuò)誤或?qū)τ谝鈭D失靈的問題。對于銀行而言,如果這些機(jī)器學(xué)習(xí)算法上的誤差影響了平衡性和公正性,則新生成數(shù)據(jù)也必然失真,可能在進(jìn)行風(fēng)險(xiǎn)評估時(shí)產(chǎn)生錯(cuò)誤的導(dǎo)向或結(jié)論。 3.數(shù)據(jù)污染問題 自然語言模型可以自動生成大量新的數(shù)據(jù)資料,且生成數(shù)據(jù)與源數(shù)據(jù)相似性高,關(guān)聯(lián)性高,這也為新數(shù)據(jù)的分類、鑒別、歸檔增加了難度。一旦新生成數(shù)據(jù)未經(jīng)嚴(yán)格審核而進(jìn)入原有的數(shù)據(jù)體系,極有可能對源數(shù)據(jù)產(chǎn)生數(shù)據(jù)污染,整個(gè)系統(tǒng)的數(shù)據(jù)治理體系也必然受到影響。 4.法律合規(guī)問題 除了在數(shù)據(jù)安全方面存在法律風(fēng)險(xiǎn)外,自然語言模型生成的內(nèi)容也同樣存在法律風(fēng)險(xiǎn)。 一是生成內(nèi)容可能出現(xiàn)商業(yè)侵權(quán)。此類人工智能在生成內(nèi)容時(shí),主要通過挖掘源數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析,并進(jìn)行一定程度的修改、拼湊,如果其在生成過程中調(diào)取的數(shù)據(jù)源未經(jīng)過商業(yè)授權(quán),那么生成內(nèi)容也將存在侵權(quán)風(fēng)險(xiǎn)。 二是當(dāng)客服機(jī)器人使用模型進(jìn)行服務(wù)或產(chǎn)品推薦時(shí),其自動生成的內(nèi)容是否符合相關(guān)法律法規(guī)的合規(guī)性要求,其推薦產(chǎn)品的行為是否具有相應(yīng)的法律效力,這都是可能引發(fā)爭議的法律風(fēng)險(xiǎn)點(diǎn)。 數(shù)據(jù)治理方面的建議毫無疑問,NLP技術(shù)為銀行業(yè)數(shù)字化轉(zhuǎn)型提供了新的思路和方案,但我們應(yīng)該看到,其存在的隱患也可能會危害行業(yè)發(fā)展乃至影響國家金融安全,這就要求在使用新技術(shù)的同時(shí),進(jìn)一步加強(qiáng)數(shù)據(jù)治理體系方面的建設(shè)。 1.劃清數(shù)據(jù)的安全邊界 不同于其他業(yè)務(wù)系統(tǒng)可以在測試環(huán)境下使用模擬數(shù)據(jù)進(jìn)行測試,為了保證人工智能訓(xùn)練的準(zhǔn)確性、可用性,其訓(xùn)練過程中更多使用真實(shí)數(shù)據(jù),這對于數(shù)據(jù)安全的管理就有了更高的要求。劃清敏感數(shù)據(jù)的安全邊界,就是要在最小范圍內(nèi)調(diào)取數(shù)據(jù),避免非必要的敏感數(shù)據(jù)被超權(quán)限獲取,降低人工智能系統(tǒng)在輸出過程中泄露敏感數(shù)據(jù)的可能性。 2.建立可靠的訓(xùn)練體系 研發(fā)人員在訓(xùn)練過程中不僅要對NLP技術(shù)回答的準(zhǔn)確性進(jìn)行關(guān)注,也要關(guān)注生成內(nèi)容的平衡性和公正性,有針對性地對整個(gè)模型進(jìn)行糾偏,以降低系統(tǒng)訓(xùn)練產(chǎn)生的偏向,避免產(chǎn)生錯(cuò)誤的結(jié)果。由于整個(gè)訓(xùn)練過程主要依托于訓(xùn)練人員的人工標(biāo)注,人員的體系建設(shè)也同樣重要,對訓(xùn)練人員的培訓(xùn)不單單要關(guān)注技術(shù)能力,也要關(guān)注對訓(xùn)練人員的價(jià)值觀、評價(jià)標(biāo)準(zhǔn)考察。 3.加強(qiáng)新生成數(shù)據(jù)的審核與使用管理 鑒于人工智能系統(tǒng)在數(shù)據(jù)生成方面的先天優(yōu)勢,其可以在極短時(shí)間內(nèi)生產(chǎn)海量數(shù)據(jù),這將極大地增加數(shù)據(jù)治理難度。而銀行業(yè)對數(shù)據(jù)的安全性、穩(wěn)定性、準(zhǔn)確性有著極其嚴(yán)苛的要求,面對這種矛盾,對源數(shù)據(jù)和新生成數(shù)據(jù)進(jìn)行數(shù)據(jù)隔離可能是比較穩(wěn)妥的解決方案。 對于新生成數(shù)據(jù),要先開展數(shù)據(jù)審核,只有在確認(rèn)數(shù)據(jù)準(zhǔn)確性無誤后,才能將審核后的數(shù)據(jù)與源數(shù)據(jù)并庫。對于未經(jīng)審核的數(shù)據(jù),在應(yīng)用和輸出上要慎之又慎,只有如此才能夠避免新生成數(shù)據(jù)引發(fā)的數(shù)據(jù)污染。 4.在法律框架內(nèi)合理應(yīng)用新技術(shù) 任何新技術(shù)的應(yīng)用都有可能帶來全新的法律問題,但從數(shù)據(jù)治理的角度出發(fā),將NLP技術(shù)的各個(gè)環(huán)節(jié)進(jìn)行拆分,其在知識產(chǎn)權(quán)保護(hù)、數(shù)據(jù)安全、消費(fèi)者權(quán)益等方面都能夠找到相應(yīng)的適用法律。在2022年出臺的《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》中明確要求,人工智能的算法應(yīng)當(dāng)堅(jiān)持社會主義主流價(jià)值觀,不能利用算法危害國家安全和社會公共利益、擾亂經(jīng)濟(jì)秩序和社會秩序、侵犯他人合法權(quán)益。所以,研發(fā)人員在設(shè)計(jì)之初就應(yīng)該將法律規(guī)范納入設(shè)計(jì)框架,合規(guī)理念要深入到整個(gè)人工智能系統(tǒng)的生命周期中,要將算法監(jiān)管和數(shù)據(jù)監(jiān)管相結(jié)合,從建立模型、訓(xùn)練模型、投入使用與更新迭代,直至系統(tǒng)退出使用,每一個(gè)具體環(huán)節(jié)都要在法律框架內(nèi)實(shí)施,并受到有效監(jiān)管。同時(shí),也要開展對人工智能倫理方面、權(quán)屬方面的法律研究,封堵存在的理論漏洞,明確法律責(zé)任。 結(jié) 語總的來說,NLP技術(shù)在銀行業(yè)應(yīng)用中有著廣泛的前景和應(yīng)用場景,可以為銀行業(yè)帶來更高效、更便捷的業(yè)務(wù)體系。但同時(shí)也存在著數(shù)據(jù)治理方面的潛在風(fēng)險(xiǎn)和挑戰(zhàn)。 因此,銀行業(yè)在應(yīng)用該技術(shù)時(shí)需要建立嚴(yán)格的數(shù)據(jù)治理體系,劃清數(shù)據(jù)的安全邊界,加強(qiáng)新生成數(shù)據(jù)的審核與使用管理等,并在法律框架內(nèi)合理應(yīng)用新技術(shù),以保證數(shù)據(jù)的準(zhǔn)確性、完整性和安全性。只有這樣,才能更好地發(fā)揮NLP技術(shù)的作用,為銀行業(yè)數(shù)字化轉(zhuǎn)型提供更加可靠的支持。 (此文刊發(fā)于《金融電子化》2024年2月下半月刊) |
|
|