淺析基于人格特征的內(nèi)部高風(fēng)險(xiǎn)用戶識(shí)別方法

昵稱16619343 2019-04-19

展開全文

寫在前面

自2013年斯諾登同學(xué)引爆“棱鏡門”以來，內(nèi)部威脅（Insider Threats）早已被熟知，并且隨著信息化深入到各行各業(yè)關(guān)鍵業(yè)務(wù)流程，內(nèi)部風(fēng)險(xiǎn)管控已經(jīng)排上了甲方們安全管理部門優(yōu)先處理事項(xiàng)的Top List。不斷上漲的內(nèi)部管控需求激勵(lì)著學(xué)業(yè)界研發(fā)識(shí)別內(nèi)部攻擊用戶的用戶行為檢測系統(tǒng)，然而由于行為異常檢測的滯后性以及異常與攻擊的非同一性，引入針對(duì)攻擊者心理特征、攻擊動(dòng)機(jī)等主觀維度的分析建模漸漸成為一種新趨勢。

本文今天就向大家介紹一種基于人格特征的內(nèi)部高風(fēng)險(xiǎn)用戶識(shí)別方法，其中要點(diǎn)有兩個(gè)：

(1) 本文介紹方法使用的個(gè)體人格特征主要包括主流的大五人格模型（Big-5 Personality Model）與刻畫反社會(huì)傾向的黑暗三人格模型（Dark Triad Model）；

(2) 所謂內(nèi)部高風(fēng)險(xiǎn)用戶（Internal High Risk Users），更多指的是依據(jù)已有案例分析中得到的人格特征與攻擊行為統(tǒng)計(jì)關(guān)聯(lián)性，分析篩選出的未來極有可能實(shí)施攻擊的內(nèi)部用戶，因?yàn)樯形磳?shí)施攻擊，因此稱之為“風(fēng)險(xiǎn)”而非“惡意”。

距離之前內(nèi)部威脅的相關(guān)文章已經(jīng)過去了不少時(shí)日，如果對(duì)于內(nèi)部威脅話題感興趣的同仁可以移步：

內(nèi)部威脅那些事兒：https://www./news/topnews/104030.html

針對(duì)潛在內(nèi)部攻擊者的心理側(cè)寫方法：https://www./articles/neopoints/170784.html

基于美國卡耐基美隆大學(xué)（CMU）的內(nèi)部威脅研究中心的官方數(shù)據(jù)，已有內(nèi)部威脅案例中的攻擊者表現(xiàn)出人格維度上的統(tǒng)計(jì)一致性，即如果從大五人格的角度來看，攻擊行為顯著與用戶的高神經(jīng)質(zhì)、低盡責(zé)性與低宜人性密切相關(guān)。如以神經(jīng)質(zhì)特質(zhì)為例，其刻畫了個(gè)體自我情緒管理的能力以及體現(xiàn)負(fù)面興趣的傾向，因此高神經(jīng)質(zhì)個(gè)體在現(xiàn)實(shí)工作生活中往往更容易緊張、自卑，并且容易產(chǎn)生消極悲觀的情緒，自然地，處理壓力的能力通常較弱；對(duì)于宜人性與盡責(zé)性則相反，低宜人性個(gè)體往往更容易與他人發(fā)生分歧或沖突，低盡責(zé)性個(gè)體自律性與道德性都較差，相對(duì)違反規(guī)定非法數(shù)據(jù)操作的心理門檻更低。

然而僅僅依靠上述大五人格模型并不能完整反映內(nèi)部攻擊者人格因素對(duì)行為的影響，比如無法刻畫與攻擊行為聯(lián)系更緊密的反社會(huì)性強(qiáng)弱。因此可以引入黑暗三人格作為表征人格過程的新維度，即權(quán)能主義、自戀性以及精神病態(tài)，其中權(quán)能主義者往往表現(xiàn)出實(shí)用主義、精于算計(jì)的特質(zhì)，且行事注重結(jié)果忽視道德；自戀性則經(jīng)常以自我為中心，自以為是；精神變態(tài)者則表現(xiàn)為行為沖動(dòng)、缺乏共情與責(zé)任感等。

經(jīng)過大量真實(shí)案例的深入分析、梳理、比較，我們可以提出一個(gè)融合了上述兩類人格模型的、表征內(nèi)部攻擊者心理動(dòng)機(jī)過程的動(dòng)力模型（如圖1）：

圖1：內(nèi)部攻擊者的動(dòng)機(jī)過程

簡要來說，可以將大五人格中的神經(jīng)質(zhì)、盡責(zé)性與宜人性特質(zhì)看作是個(gè)體對(duì)于惡意行為傾向的“免疫能力”，而黑暗人格則更側(cè)重刻畫個(gè)體自身對(duì)于惡意行為的“內(nèi)在驅(qū)動(dòng)力”，上述正反兩個(gè)維度結(jié)合可以比較完整地刻畫攻擊者的心理變化過程。

圖1中左側(cè)起點(diǎn)為普通內(nèi)部用戶（Internal User），其先天具有大五人格與黑暗人格正反兩個(gè)維度的行為影響因子，二者共同決定了用戶在面對(duì)、經(jīng)歷日常生活工作中挫折、矛盾時(shí)的基本態(tài)度，若對(duì)于當(dāng)前的工作或者所處企業(yè)/組織長期持有否定態(tài)度（Negative Attitude），則積累到一定程度就會(huì)產(chǎn)生實(shí)施惡意行為的傾向（Malicious Intent），最終驅(qū)動(dòng)心理傾向轉(zhuǎn)化為實(shí)際攻擊行動(dòng)。

有了圖1中反映的攻擊者心理過程模型，接下來需要考慮從就是如何將二次元模型“落地”到三次元。

二、如何從審計(jì)數(shù)據(jù)中獲取用戶人格特征？

1. 從語言入手

諸君可能認(rèn)為這本不是個(gè)問題，因?yàn)槲覀內(nèi)肼毶踔寥雽W(xué)的時(shí)候都參加過心理測評(píng)啊，那些數(shù)據(jù)至今應(yīng)該依舊保存在人事部門吧？大五人格與黑暗人格都有相應(yīng)的心理問卷，做一下不就得到用戶的人格分?jǐn)?shù)數(shù)據(jù)了？

非也。

如果我們仔細(xì)想想，就會(huì)發(fā)現(xiàn)上述方法存在兩個(gè)致命問題：(1) 心理測評(píng)需要花費(fèi)額外的經(jīng)濟(jì)與人力成本，雖然人格特征相對(duì)穩(wěn)定，其決定的個(gè)體處世的反應(yīng)與思維方式也相對(duì)穩(wěn)定，但并不是不可改變的，如國學(xué)張其成老爺子就談到陽性陰性的性格是可以改變的（突然想到了當(dāng)今時(shí)代女性的陽性剛健進(jìn)取性格越來越多，反觀男生的陰柔之氣愈發(fā)濃郁了，跑偏了，趕緊回來~~），因此合理的方式應(yīng)該定期進(jìn)行員工的心理測評(píng)——這想想Boss也不會(huì)答應(yīng)吧？(2) 大家可能都有過體會(huì)，答心理問卷時(shí)候往往選擇不好不壞的選項(xiàng)，中庸項(xiàng)是最多的，因?yàn)槲覀兌加斜Ｗo(hù)隱藏自己的本能嘛！這就造成了其實(shí)心理測評(píng)的結(jié)果對(duì)于真正的高風(fēng)險(xiǎn)用戶而言效度不大。

所以，最好的方法自然是隨時(shí)隨地透明地分析建模用戶的人格特征啦！可是，有這樣的方法么？

很幸運(yùn)，前人已經(jīng)為我們進(jìn)行了嘗試，比如從語言中分析情感就是一個(gè)好方法。語言是我們表達(dá)思想的重要媒介，自然反過來我們可以從語言中分析出個(gè)體的內(nèi)心情感、想法等，這件有意義的工作由國外著名的語言查詢與計(jì)數(shù)項(xiàng)目（LIWC）實(shí)現(xiàn)，其將常用語言分成幾十個(gè)具體詞類，并分別統(tǒng)計(jì)了不同詞類與人格特征的統(tǒng)計(jì)關(guān)聯(lián)性，借助LIWC，我們只需要獲取用戶語言關(guān)鍵詞的詞頻，然后結(jié)合對(duì)應(yīng)的統(tǒng)計(jì)關(guān)聯(lián)系數(shù)即可間接計(jì)算。

對(duì)于黑暗人格而言，學(xué)業(yè)界的研究者們也分析了大五人格與黑暗人格的關(guān)聯(lián)，并建立了其中的統(tǒng)計(jì)映射關(guān)系，因此，我們自然可以借由大五人格進(jìn)一步刻畫黑暗人格。

但是工作環(huán)境中用戶的語言數(shù)據(jù)如何收集呢？最常見的莫過于1) 社交應(yīng)用，如QQ等即時(shí)通訊；2）工作文檔；3）郵件通訊。由于個(gè)人隱私保護(hù)的限制，一般較難獲取用戶的社交賬號(hào)訪問權(quán)限，因此QQ/微信/微博/抖音等分析數(shù)據(jù)一般較難獲得；出于工作內(nèi)容的保密性，一般工作文檔也不允許第三方訪問分析；因此似乎最可行的是獲取用戶的工作郵件（注意工作郵件一般不涉及隱私，不同于私人郵件）。而工作郵件內(nèi)容審計(jì)對(duì)于現(xiàn)有審計(jì)系統(tǒng)而言并非不可能，只要政策允許，一般還是可以審計(jì)到工作郵件的文本數(shù)據(jù)的。

因此，從工作郵件的語言入手分析人格特征似乎是個(gè)不錯(cuò)的開始；然而需要強(qiáng)調(diào)的是，本文的方法針對(duì)是用戶語言數(shù)據(jù)，而非特指郵件數(shù)據(jù)！

我們先來刻畫大五人格，由于我們關(guān)心的僅僅是大五人格的三個(gè)特質(zhì)，即神經(jīng)質(zhì)、盡責(zé)性與宜人性，因此可以先不分析外傾性與開放性。

以神經(jīng)質(zhì)特質(zhì)為例，其可以繼續(xù)細(xì)分為六個(gè)子維度，即焦慮（Anxiety）、憤怒與敵意（Anger Hostility）、抑郁（Depression）、自我意識(shí)（Self-Consciousness）、沖動(dòng)性（Impulsiveness）以及脆弱性（Vulnerability）。其中每個(gè)子維度又與特定的LIWC基本詞類相關(guān)聯(lián)，如對(duì)于焦慮子維度（圖2）：

圖2：焦慮子維度與LIWC基本詞類的統(tǒng)計(jì)關(guān)聯(lián)性

圖2中表明，神經(jīng)質(zhì)特質(zhì)的焦慮子維度與第一人稱詞類（1st person）正相關(guān)，而與第二人稱詞類(2nd person)負(fù)相關(guān)，括號(hào)內(nèi)表示對(duì)應(yīng)的相關(guān)系數(shù)?；谏鲜鲫P(guān)聯(lián)性，可以加權(quán)和的形式計(jì)算神經(jīng)質(zhì)特質(zhì)的焦慮子維度分?jǐn)?shù)：

其中表示子維度分?jǐn)?shù)，其結(jié)果等于與其關(guān)聯(lián)的LIWC基本詞類出現(xiàn)的詞頻與對(duì)應(yīng)相關(guān)系數(shù)的加權(quán)和。按照類似方法，我們可以分別計(jì)算宜人性與盡責(zé)性的各自六個(gè)子維度特征的分?jǐn)?shù)，最終可以得到18個(gè)子維度分?jǐn)?shù)（每6個(gè)對(duì)應(yīng)神經(jīng)質(zhì)、宜人性與盡責(zé)性）。最終選擇的神經(jīng)質(zhì)、宜人性與盡責(zé)性對(duì)應(yīng)的子維度為：

神經(jīng)質(zhì)特質(zhì)：焦慮、憤怒與敵意、抑郁、自我意識(shí)、沖動(dòng)性、脆弱性
宜人性：信任、坦誠、利他、順從、謙遜、同理心
盡責(zé)性：能力、條理性、責(zé)任感、追求成就、自律、審慎

3. 從語言到黑暗人格

我們主要依據(jù)上步中的大五人格中子維度分?jǐn)?shù)集合來計(jì)算用戶的黑暗人格。其基本步驟為：

按照“從語言到大五人格”小節(jié)中的方法，依次計(jì)算大五人格模型中全部五種基本特質(zhì)對(duì)應(yīng)的30個(gè)子維度分?jǐn)?shù)；
依據(jù)每種基本特質(zhì)與對(duì)應(yīng)子維度的歸屬關(guān)系，以6個(gè)一組的形式求和計(jì)算五種基本特質(zhì)分?jǐn)?shù)；
依據(jù)黑暗人格與大五人格的統(tǒng)計(jì)相關(guān)性，以加權(quán)和的形式計(jì)算三種黑暗人格分?jǐn)?shù)特征。

可能初看有些不明所以，我們以自戀人格為例，其與大五人格的統(tǒng)計(jì)相關(guān)性為：

自戀人格：外傾性（0.44）、宜人性（-0.32）、盡責(zé)性（-0.07）、神經(jīng)質(zhì)（-0.09）以及開放性（0.34）

因此我們只需要計(jì)算出外傾性等五種基本特質(zhì)分?jǐn)?shù)然后加權(quán)即可，而每種基本特質(zhì)分?jǐn)?shù)則由公式（1）來計(jì)算。

接下來依葫蘆畫瓢，即可計(jì)算出權(quán)能主義與精神病態(tài)的特征分?jǐn)?shù)。值得注意的是，最終構(gòu)建的人格特征中分為大五人格與黑暗人格正反兩個(gè)部分，且大五人格部分不需考慮開放性與外傾性：

第一部分：有大五人格的神經(jīng)質(zhì)、宜人性與盡責(zé)性對(duì)應(yīng)的每組6個(gè)（共3組）總共18個(gè)子維度分?jǐn)?shù)構(gòu)成；
第二部分：基于大五人格五類特質(zhì)的加權(quán)和，計(jì)算得到的三個(gè)黑暗人格特征（引入了第一部分沒有的外傾性與開放性因素）。

最后我們使用的個(gè)體人格特征結(jié)構(gòu)為（圖3，21維度）：

圖3：21維度人格特征

三、小試牛刀

1. 數(shù)據(jù)集

截止到當(dāng)前，針對(duì)內(nèi)部攻擊者的心理動(dòng)力模型以及對(duì)應(yīng)的21維度特征構(gòu)建方法都已準(zhǔn)備妥當(dāng)，唯一欠缺的就是數(shù)據(jù)實(shí)驗(yàn)驗(yàn)證。智能安全領(lǐng)域數(shù)據(jù)集最為重要，因?yàn)橐话阏鎸?shí)場景的數(shù)據(jù)往往因涉及各種不適宜公開的信息而被隱藏保護(hù)。出于同樣的考慮，作為方法的驗(yàn)證，本文也只選擇公開數(shù)據(jù)集證明方法的有效性。

本文所使用數(shù)據(jù)來自于公開已久的美國安然公司郵件數(shù)據(jù)（http://www.cs./~enron/），安然公司(Enron Corporation)曾是世界上最大的綜合性天然氣和電力公司之一，在北美地區(qū)是頭號(hào)天然氣和電力批發(fā)銷售商。然而真正使安然公司在全世界聲名大噪的，卻是這個(gè)擁有上千億資產(chǎn)的公司2002年在幾周內(nèi)破產(chǎn)，持續(xù)多年精心策劃、乃至制度化系統(tǒng)化的財(cái)務(wù)造假丑聞。安然歐洲分公司于2001年11月30日申請(qǐng)破產(chǎn)，美國本部于2日后同樣申請(qǐng)破產(chǎn)保護(hù)。但在其破產(chǎn)前的資產(chǎn)規(guī)模為498億美元，并有312億的沉重債務(wù)。過度膨脹的快速發(fā)展使其無法應(yīng)對(duì)經(jīng)濟(jì)環(huán)境的逆轉(zhuǎn)，而導(dǎo)致無法經(jīng)營運(yùn)作狀況的惡化，以破產(chǎn)結(jié)束企業(yè)。從那時(shí)起，“安然”已經(jīng)成為公司欺詐以及墮落的象征[摘自“百度百科”]。

作為調(diào)查需要，F(xiàn)BI公開了該企業(yè)的部分內(nèi)部工作郵件數(shù)據(jù)，我們也因而可以在上述郵件數(shù)據(jù)中驗(yàn)證本文的檢測方法。

2. 補(bǔ)充數(shù)據(jù)

由于安然郵件數(shù)據(jù)中的違規(guī)行為多涉及欺詐類，即篡改財(cái)務(wù)數(shù)據(jù)以隱瞞真實(shí)狀況等，并不能完整反映信息竊取、系統(tǒng)破壞等其他重要內(nèi)部攻擊行為，因此我們繼續(xù)補(bǔ)充了幾個(gè)臭名昭著的案例作為補(bǔ)充：

Edward Snowden：選擇了NSA發(fā)布的兩封泄密嫌疑的郵件；
Aldrich Ames：潛伏在CIA中的著名蘇聯(lián)間諜，選擇了其手寫郵件內(nèi)容；
Ted Kaczynski：紐約炸彈客，天才反社會(huì)人格，選取了其研究著作內(nèi)容；
Rod Blagojevich：受賄貪污的美國前州長，選取了其演講稿內(nèi)容。

最終將上述四個(gè)典型案例的語言內(nèi)容數(shù)據(jù)與安然郵件數(shù)據(jù)集混合，并采用五折交叉驗(yàn)證進(jìn)行檢驗(yàn)。

3. 初步實(shí)驗(yàn)結(jié)果

首先以直觀的準(zhǔn)確率、漏報(bào)率與誤報(bào)率作為檢驗(yàn)指標(biāo)，我們可以發(fā)現(xiàn)其漏報(bào)結(jié)果在10%之下，其中數(shù)據(jù)數(shù)目較少，而數(shù)據(jù)較為豐富，顯然豐富的數(shù)據(jù)刻畫能力更強(qiáng)，因而后者數(shù)據(jù)集上的檢驗(yàn)結(jié)果要好于前者。

進(jìn)一步，我們想檢驗(yàn)下不同特征對(duì)于高風(fēng)險(xiǎn)用戶的區(qū)分力度，于是選擇了自律與脆弱性兩個(gè)子維度來進(jìn)行特征繪圖，發(fā)現(xiàn)追加的四個(gè)真實(shí)攻擊者案例均與正常用戶具有一定的區(qū)分度：

如果針對(duì)所有用戶采用隨機(jī)森林方法分析21維度特征的重要性，可以發(fā)現(xiàn)對(duì)他人的信任感（Trust）、同情心（Sympathy）以及自戀性（Narcissism）位居重要因素。而道德感（Morality）、自律性（Self-discipline）以及焦慮（Anxiety）也位居，而黑暗人格三要素全部位于中，應(yīng)引起風(fēng)控部門足夠的重視。

本文介紹了一種基于用戶大五人格與黑暗人格正反兩方面人格特征的高風(fēng)險(xiǎn)用戶檢測方法，該方法的理論假設(shè)是一般企業(yè)環(huán)境中用戶的人格特征應(yīng)屈從于近似正態(tài)分布，因此應(yīng)當(dāng)存在針對(duì)大量普通用戶建模以檢測出“異?！备唢L(fēng)險(xiǎn)用戶的可能性。欣慰的是初步的實(shí)驗(yàn)驗(yàn)證了上述理論的合理性與方法的可行性，為內(nèi)部威脅檢測打開了主觀建模分析的新維度，使得未來將用戶的攻擊動(dòng)機(jī)分析（可能性風(fēng)險(xiǎn)建模）與異常行為檢測（攻擊行為及時(shí)發(fā)現(xiàn)）結(jié)合起來，建立一套更加完備的內(nèi)部風(fēng)險(xiǎn)管控系統(tǒng)。

然而，我們不得不指出本文介紹的方法最大的局限來自于數(shù)據(jù)集的有效性與普適性：

1. 工作環(huán)境千差萬別，安然郵件數(shù)據(jù)集無法代表所有現(xiàn)實(shí)的郵件數(shù)據(jù)特征；
2. 受限于內(nèi)部安全策略，內(nèi)審系統(tǒng)一般只記錄郵件端信息（收發(fā)者、主題、附件等），而較少審計(jì)工作郵件內(nèi)容；
3. 工作郵件中的用語比較書面，反映用戶情感與思想有限，最好的應(yīng)用莫過于社交賬戶活動(dòng)信息。

然而，一旦涉及到用戶的社交賬戶或私人郵件數(shù)據(jù)，就需考慮一系列的隱私保護(hù)法律法規(guī)，具有相當(dāng)?shù)姆娠L(fēng)險(xiǎn)。然而，從捕捉刻畫員工思想動(dòng)態(tài)的角度出發(fā)，如果能夠漸進(jìn)的增加獲取的數(shù)據(jù)或許是可行的方案，即：

首先取得Boss支持，制定針對(duì)工作郵件內(nèi)容的審計(jì)（當(dāng)然對(duì)員工得透明）；
利用爬蟲方法獲取員工的微博、微信、博客等賬號(hào)，或者要求入職時(shí)填入，然后去爬取公開的社交狀態(tài)（如說說、微博、圖片、評(píng)論等），從而獲取比較直觀反映員工心理動(dòng)態(tài)的一手?jǐn)?shù)據(jù)（當(dāng)然還是得對(duì)員工透明）。

目前，筆者正在跟Boss申請(qǐng)工作郵件的審計(jì)，申請(qǐng)書已經(jīng)奉上，只是不知結(jié)果。。。忐忑。。

最后，囿于實(shí)驗(yàn)數(shù)據(jù)的局限和自身實(shí)力，本文介紹的方法如有不足，還請(qǐng)的同仁們不吝賜教~

五、參考資料

Paulhus D L , Williams K M . The Dark Triad of personality: Narcissism, Machiavellianism, and psychopathy[J]. Journal of Research inPersonality, 2002, 36(6):556-563.
Maasberg M , Warren J , Beebe N L . The Dark Side of the Insider: Detecting the Insider Threat Through Examination of Dark Triad Personality Traits[C]// 48th Hawaii International Conference on System Sciences. IEEE Computer Society, 2015