|
數(shù)據(jù)是企業(yè)擁有的最大資產(chǎn)之一,但是數(shù)據(jù)也越來越難以管理和控制。干凈、可信的數(shù)據(jù)能夠為企業(yè)提供更好的服務,提高客戶忠誠度,提高生產(chǎn)效率,提高決策能力。然而,數(shù)據(jù)也可以被認為是企業(yè)最大的風險來源。有效地利用信息,通過創(chuàng)造性地利用數(shù)據(jù)來優(yōu)化人員和流程從而增加創(chuàng)新的能力。相反,糟糕的數(shù)據(jù)管理往往意味著糟糕的業(yè)務決策和結果,更容易受到違反法規(guī)和數(shù)據(jù)失竊的影響。 大數(shù)據(jù)給信息治理過程、工具和組織帶來了更大的挑戰(zhàn)。隨著我們朝著低延遲決策和大量不受控制的外部數(shù)據(jù)的方向發(fā)展,它變得更加重要。在大數(shù)據(jù)環(huán)境中,需要提出幾個關鍵的治理問題,包括在實時分析和實時決策,強調(diào)低延遲數(shù)據(jù)管理的情況下,如何進行數(shù)據(jù)治理。 一、數(shù)據(jù)治理能力成熟度模型 從結構化數(shù)據(jù)到非結構化數(shù)據(jù),包括客戶和員工數(shù)據(jù)、元數(shù)據(jù)、商業(yè)機密、電子郵件、視頻和音頻,組織必須找到一種方法,在不妨礙信息自由流動和創(chuàng)新的情況下,根據(jù)業(yè)務需求管理數(shù)據(jù)。能力成熟度模型(Capabilities Maturity Model,CMM)描述了一個框架和方法,用于度量數(shù)據(jù)治理的進度。這個結構化的元素集合提供了一個穩(wěn)定的、可測量的進展到最終想要的成熟度狀態(tài)。根據(jù)CMM,衡量數(shù)據(jù)治理進度的五個級別是: 成熟度級別1(初始):流程通常是臨時的,環(huán)境不穩(wěn)定。 成熟度級別2(重復):成功是可重復的,但流程可能不會對組織中的所有項目重復。 成熟度級別3(定義):組織的標準流程用于建立整個組織的一致性。 成熟度級別4(管理):組織為過程和維護設定定量質(zhì)量目標。 成熟度級別5(優(yōu)化):組織的定量過程改進目標被牢固地建立并不斷地修改以反映不斷變化的業(yè)務目標,并被用作管理過程改進的標準。 數(shù)據(jù)治理成熟度模型有助于企業(yè)和其他利益相關者如何使戰(zhàn)略更有效。成熟度模型基于IBM數(shù)據(jù)治理委員會成員的輸入。它定義了誰需要參與管理和度量企業(yè)在整個組織中管理數(shù)據(jù)的方式的范圍。 數(shù)據(jù)治理成熟度模型基于以下11類數(shù)據(jù)治理成熟度來衡量數(shù)據(jù)治理的能力: 1、數(shù)據(jù)風險管理和合規(guī)性:識別、鑒定、量化、避免、接受、減輕或轉(zhuǎn)出風險的方法。對公共基礎設施的要求可能會有所不同;例如,與高可用性或災難恢復相關的要求。這些領域的大數(shù)據(jù)技術也沒有那么成熟。 2、價值創(chuàng)造:對數(shù)據(jù)資產(chǎn)進行限定和量化的過程,以使業(yè)務能夠最大化由數(shù)據(jù)資產(chǎn)創(chuàng)造的價值。由于大數(shù)據(jù)處理的是大容量和高速度的數(shù)據(jù),因此基礎設施不能很容易地在筒倉中復制。跨組織部門的業(yè)務價值可以匯集在一起,以創(chuàng)建一個共同的基礎設施,在不同的組織(如市場營銷、生產(chǎn)管理和風險管理)之間共享。 3、組織結構和意識:業(yè)務和IT之間的相互責任水平,以及對跨部門管理數(shù)據(jù)的受托責任的認識。每個組織都可能帶來不同程度的真實性的外部大數(shù)據(jù)源。由于這些數(shù)據(jù)源是為公共標識符和使用而收集和挖掘的,因此理解聯(lián)邦統(tǒng)一非常重要,它為每個組織提供維護其環(huán)境的能力,同時保持與聯(lián)邦定義的連接。 4、管理:質(zhì)量控制規(guī)程,旨在確保數(shù)據(jù)的保管,以實現(xiàn)資產(chǎn)增強、風險緩解和組織控制。隨著外部數(shù)據(jù)(如社交媒體)的訪問,擴展管理角色以包括外部數(shù)據(jù)非常重要。管理還應該考慮隱私問題,特別是社交媒體和使用數(shù)據(jù)。 5、政策:組織行為的書面表達。通過使用治理、風險和法規(guī)遵從性(GRC)框架,大數(shù)據(jù)池和管理數(shù)據(jù)遵循這些策略。例如,有一個組織在其CRM環(huán)境中利用使用數(shù)據(jù)。該組織制定了一項政策,要求定期刪除這些數(shù)據(jù),以維護客戶隱私。大數(shù)據(jù)治理程序可能會將匿名使用數(shù)據(jù)保留較長時間,但會刪除與CRM的鏈接。 6、數(shù)據(jù)質(zhì)量管理:測量、改進和證明生產(chǎn)、測試和存檔數(shù)據(jù)的質(zhì)量和完整性的方法。大數(shù)據(jù)帶來了與動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)相關的數(shù)據(jù)質(zhì)量問題。可以將數(shù)據(jù)挖掘與CRM和大數(shù)據(jù)源結合使用,以提高數(shù)據(jù)質(zhì)量。例如,訂戶的帳單地址可能與其服務位置不同。使用CDR數(shù)據(jù),可以更新服務位置并使用這些數(shù)據(jù)來提高服務質(zhì)量。 7、信息生命周期管理(ILM):系統(tǒng)的、基于策略的信息收集、使用、保留和刪除方法。目前可以輕松地用大容量大數(shù)據(jù)填充數(shù)PB的Hadoop存儲空間。雖然成本低于傳統(tǒng)的商業(yè)智能環(huán)境,但長期使用PB級存儲的成本會增加。ILM策略基于卷預測、業(yè)務價值和成本。這些策略允許企業(yè)決定在哪里存儲數(shù)據(jù)(在線用于分析,離線用于法規(guī)遵從性)、存儲多少數(shù)據(jù)(聚合數(shù)據(jù)與原始數(shù)據(jù)的數(shù)量)以及何時開始刪除數(shù)據(jù)(生活方式更改后可能無效的舊使用模式)。 8、信息安全和隱私:組織用來降低風險和保護數(shù)據(jù)資產(chǎn)的策略、實踐和控制。維度包括策略的定義和執(zhí)行。這是大數(shù)據(jù)最重要的治理維度。盡管私有和敏感數(shù)據(jù)應該受到小心保護,但發(fā)現(xiàn)和存儲私有和敏感數(shù)據(jù)的可能性仍然存在。在某些情況下,訂閱者同意在特定用例中使用私有數(shù)據(jù)。在這些情況下,數(shù)據(jù)不應在獲得選擇性加入的有限用例之外提供。與人口數(shù)據(jù)(如姓名、電話號碼和信用卡信息)相比,根據(jù)使用信息,推斷的行為數(shù)據(jù)(工作地點、好友列表和外出時間)可能是私有的,或者在某些情況下是更私有的。 9、數(shù)據(jù)體系結構:結構化和非結構化數(shù)據(jù)系統(tǒng)和應用程序的體系結構設計,使數(shù)據(jù)可用性和分發(fā)給適當?shù)挠脩簟T谝粋€典型的組織中,必須保留過去在商業(yè)智能方面的大量投資。這導致了一種混合的體系結構,其中事務和統(tǒng)計數(shù)據(jù)可能會保留在傳統(tǒng)的商業(yè)智能環(huán)境中,并且可以添加大數(shù)據(jù)體系結構來連接和使用數(shù)據(jù)。在這些混合情況下,組織的ETL、主/引用數(shù)據(jù)和元數(shù)據(jù)的共享非常重要。對于高速數(shù)據(jù)和信息,必須設計數(shù)據(jù)體系結構以滿足延遲要求。 10、分類和元數(shù)據(jù):用于為業(yè)務和IT術語、數(shù)據(jù)模型和存儲庫創(chuàng)建通用語義定義的方法和工具。通用業(yè)務詞匯表、數(shù)據(jù)沿襲和物理數(shù)據(jù)表示是傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)之間元數(shù)據(jù)集成的示例。這是一個不斷發(fā)展的領域,大數(shù)據(jù)帶來了新的挑戰(zhàn)(例如,記錄級數(shù)據(jù)沿襲與字段級數(shù)據(jù)沿襲)和新的機遇(使用本體來理解外部數(shù)據(jù))。 11、審計信息記錄和報告:用于監(jiān)視和測量數(shù)據(jù)價值、風險和數(shù)據(jù)治理有效性的組織過程。如果沒有適當?shù)膶徍耍髷?shù)據(jù)解決方案就有可能執(zhí)行不好定義良好的策略??绮块T不一致地執(zhí)行隱私策略可能會導致失敗點。心懷不滿的內(nèi)部人士可以利用這些故障點,竊取客戶數(shù)據(jù)和見解。 圖1數(shù)據(jù)治理成熟度模型 下圖顯示了對全球信息服務提供商的數(shù)據(jù)治理的度量。我們并不總是測量所有的數(shù)據(jù)治理維度。例如,在圖2中,11個維度中有8個被認為是重要的,并包含在評估中。對于每個測量維度,計算當前和目標到期日。這提供了使用數(shù)據(jù)治理程序來完成的差距的度量。 圖2數(shù)據(jù)治理成熟度-當前和目標 二、大數(shù)據(jù)和治理挑戰(zhàn) 大數(shù)據(jù)解決方案正在應對許多數(shù)據(jù)治理挑戰(zhàn)。源數(shù)據(jù)來自需要治理的內(nèi)部和外部源: (1) 數(shù)據(jù)質(zhì)量與匹配; (2) 主數(shù)據(jù)索引; (3) 數(shù)據(jù)隱私的識別與保護。 對所有來源的數(shù)據(jù)進行治理可能是一項挑戰(zhàn)。然而,如果數(shù)據(jù)不受控制,下游將面臨重大挑戰(zhàn)。下游挑戰(zhàn)是: 1、讀取時的治理:當數(shù)據(jù)由外部源高速生成時,在數(shù)據(jù)攝取期間應用治理是一項挑戰(zhàn)。因此,這些數(shù)據(jù)包含了相當數(shù)量的非政府數(shù)據(jù)。然后在使用數(shù)據(jù)時應用治理。不幸的是,這種方法可能會導致混合來自企業(yè)數(shù)據(jù)倉庫(EDW)和其他受管源的非受管數(shù)據(jù)和高度受管數(shù)據(jù)。要在使用前識別和管理數(shù)據(jù),即使使用是為了數(shù)據(jù)發(fā)現(xiàn)和搜索目的。數(shù)據(jù)科學家通常認為,由于數(shù)據(jù)量大,數(shù)據(jù)質(zhì)量問題無關緊要。但在需要發(fā)現(xiàn)和定義微觀探查時可能不是這樣。 2、湖中匹配:如果大數(shù)據(jù)來自不同的系統(tǒng),它通常會攜帶不匹配的數(shù)據(jù)。不匹配的數(shù)據(jù)不會鏈接到公共標識。隨著數(shù)據(jù)的增長,匹配數(shù)據(jù)所需的工作也會隨之增加。通常,數(shù)據(jù)具有不同的數(shù)據(jù)源延遲級別,這使得在數(shù)據(jù)攝取期間進行關聯(lián)具有挑戰(zhàn)性。另一種方法是在湖中傾倒不匹配的數(shù)據(jù),希望能在湖中匹配。然而,當匹配在離源較近的地方進行時,匹配的成本會降低。 3、用于分析的數(shù)據(jù)相關性:大數(shù)據(jù)可以包含許多屬性,這些屬性經(jīng)常在許多觀察中重復。類似地,外部數(shù)據(jù)源(如社交媒體)可能承載的數(shù)據(jù)比洞察開發(fā)所需的數(shù)據(jù)還要多。如果將整個原始數(shù)據(jù)集移動到數(shù)據(jù)池中,即使對于廉價的Hadoop存儲,其大小也會迅速增長。對于一家電信公司來說,網(wǎng)絡使用探測器產(chǎn)生的數(shù)據(jù)接近每秒數(shù)千千兆位的情況并不少見。如果存儲一周,這些數(shù)據(jù)可能會爆炸成千兆字節(jié)。在這種情況下,長時間存儲原始數(shù)據(jù)是不可取的。保存分析所需的數(shù)據(jù),并丟棄或存檔其余數(shù)據(jù)。 4、隱私:隱私政策通常通過使用個人識別信息(PII)來定義客戶隱私。然而,可以從其他數(shù)據(jù)中推斷出相當數(shù)量的私人信息。以位置為例(在某個緯度和經(jīng)度上存在一個設備)。根據(jù)地理位置,原始數(shù)據(jù)可能被視為個人信用卡和社會保障數(shù)據(jù)。訪問和使用此類數(shù)據(jù)需要明確的客戶許可。 5、記錄直到矛盾:隨著時間的推移,大多數(shù)數(shù)據(jù)都會變得陳舊。在美國,每年約有三分之一的客戶更換住所。這會影響他們在特定地點的閑逛和興趣。使用與過去洞察相矛盾的新數(shù)據(jù)來建立變化的證據(jù)。分析系統(tǒng)應該能夠根據(jù)經(jīng)過的時間和相互矛盾的證據(jù),對過去的見解賦予不同的權重。 三、數(shù)據(jù)湖驅(qū)動發(fā)現(xiàn)中的數(shù)據(jù)轉(zhuǎn)換與質(zhì)量 數(shù)據(jù)湖是包含大量原始格式數(shù)據(jù)的大型存儲庫。會話和使用數(shù)據(jù)在存儲庫或數(shù)據(jù)湖中累積,并進行分析,以獲得有關用戶的有用信息。例如,對產(chǎn)品和服務的行為和態(tài)度可以被發(fā)現(xiàn)。 大多數(shù)使用數(shù)據(jù)是結構化的。例如,來自網(wǎng)絡的CDR數(shù)據(jù)是結構化數(shù)據(jù)的一個很好的示例。然而,CDR數(shù)據(jù)可能來自不同的網(wǎng)絡源,每個網(wǎng)絡源都有自己的格式。要分析此數(shù)據(jù),請首先統(tǒng)一數(shù)據(jù),以便發(fā)現(xiàn)或預測引擎可以以相同的方式查看所有數(shù)據(jù)??赡苡衼G失的數(shù)據(jù),或者某些數(shù)據(jù)是以更長的延遲檢索的。此外,對數(shù)據(jù)進行校正以消除噪聲。 為每個實體提取的特征具有不同的壽命。所提取的某些特征是短暫的,因為它們與將要發(fā)生的事件相關,或者只在有限的時間段內(nèi)有效。一個例子是用戶很快采取的行動,例如去看電影、購買產(chǎn)品或吃飯。這些行為通常在社交媒體上共享,隨著時間的推移,它們的有效性有限。 性別、年齡、婚姻狀況和種族是具有長期價值的數(shù)據(jù)特征的例子。其中一些特征很難推斷或提取。如果用戶沒有明確說明,年齡是一個開放的研究問題,因為很難僅根據(jù)語言特征推斷。對這些特征的預測和推斷還應包含預測者或所提取特征的置信水平的度量。在治理方面,添加變量度量的置信級別。 社交數(shù)據(jù)本質(zhì)上是非結構化的,而且這些存儲庫中的大多數(shù)都對外部操作開放。例如: (1) 外部因素:垃圾郵件、宣傳、鏈接濫用; (2) 內(nèi)部因素:不準確、自我報告、格式問題。 有多種方法可以提高包含在數(shù)據(jù)湖中的數(shù)據(jù)的質(zhì)量。評估和提高數(shù)據(jù)質(zhì)量有幾種方法,它們分為兩種基本方法: (1) 以社區(qū)為基礎; (2) 機器監(jiān)督方法。 基于社區(qū)的方法在過去被證明是成功的,但是它們依賴于一個活躍的社區(qū)來管理其中包含的數(shù)據(jù)。維基百科和雅虎解答是大型社區(qū)管理數(shù)據(jù)的好例子。 在某些情況下,可以使用自動方法檢測可能的質(zhì)量問題,糾正問題,然后自動提高數(shù)據(jù)源的質(zhì)量。這方面的一個例子是,多個自動代理檢查新的維基百科文章以發(fā)現(xiàn)可能的垃圾郵件,多個代理檢測機器人在Facebook和Twitter上的發(fā)布。 其他影響社交媒體數(shù)據(jù)質(zhì)量的常見問題包括諷刺、新詞(新造詞)、縮寫、俚語等。通常,特定于領域的本體用于解析數(shù)據(jù)以理解和翻譯這些詞,并跟上趨勢和其他變化。 四、大數(shù)據(jù)治理技術架構 企業(yè)大數(shù)據(jù)的治理至關重要,下圖顯示了大數(shù)據(jù)治理體系結構的四個部分: (1) 數(shù)據(jù)源管理:包括所有原始數(shù)據(jù)、著陸區(qū)、發(fā)現(xiàn)區(qū)和協(xié)調(diào)區(qū)。使用平面文件、Hadoop、columnar或關系數(shù)據(jù)存儲來存儲數(shù)據(jù); (2) 信息結構:提供治理的策略和設計以及組織數(shù)據(jù)的工具。治理的主要存儲庫是信息治理目錄。 (3) 安全性:通過使用信息結構中設置的策略來執(zhí)行安全性。它使用標準的安全工具,如LDAP、Kerberos、HTTPS、證書等。 (4) 分析、報告和消費:提供大數(shù)據(jù)治理監(jiān)控情況的分析。 圖3 面向大數(shù)據(jù)的治理體系技術架構 五、綜述 對于企業(yè)來說,數(shù)據(jù)的價值就是獲得洞察力并做出正確的決策。管理企業(yè)數(shù)據(jù)的治理至關重要,如果沒有數(shù)據(jù)治理,很難發(fā)揮大數(shù)據(jù)的價值。
|
|
|
來自: 數(shù)據(jù)治理精英館 > 《待分類》