电竞比分网-中国电竞赛事及体育赛事平台

分享

「數(shù)據(jù)治理那點事」系列之三:數(shù)據(jù)質(zhì)量管理要穩(wěn)住!

 昵稱16619343 2019-05-16

文 | 樂天

編輯 | 劉能 碳酸

本文約 3209 字,預計閱讀時間 9 分鐘

作者簡介:蔣珍波(樂天),6 年+ 大數(shù)據(jù)咨詢經(jīng)驗,擅長為客戶提供科學合理的大數(shù)據(jù)解決方案。目前擔任數(shù)瀾科技咨詢專家,負責數(shù)瀾大數(shù)據(jù)平臺售前咨詢。

本文主要講述數(shù)據(jù)治理中的重要工作:數(shù)據(jù)質(zhì)量管理,從以下幾個角度展開具體講解:

(1)數(shù)據(jù)質(zhì)量管理的目標

(2)質(zhì)量問題產(chǎn)生的根源

(3)數(shù)據(jù)質(zhì)量的評估

(4)數(shù)據(jù)質(zhì)量管理的流程

(5)數(shù)據(jù)質(zhì)量管理的取舍

一、數(shù)據(jù)質(zhì)量管理的目標

數(shù)據(jù)質(zhì)量管理主要解決「數(shù)據(jù)質(zhì)量現(xiàn)狀如何,誰來改進,如何提高,怎樣考核」的問題。

「不忘初心方得始終」,在最開始的關系型數(shù)據(jù)庫時代,做數(shù)據(jù)治理最主要的目的,就是為了提升數(shù)據(jù)質(zhì)量,讓報表、分析、應用更加準確。時至今日,雖然數(shù)據(jù)治理的范疇擴大了很多,我們開始講數(shù)據(jù)資產(chǎn)管理、知識圖譜、自動化的數(shù)據(jù)治理等等概念,但是提升數(shù)據(jù)的質(zhì)量,依然是數(shù)據(jù)治理最重要的目標之一。

為什么數(shù)據(jù)質(zhì)量問題如此重要?

因為數(shù)據(jù)如果要發(fā)揮其價值,關鍵在于其數(shù)據(jù)質(zhì)量的高低,高質(zhì)量的數(shù)據(jù)是一切數(shù)據(jù)應用的基礎。假設一個組織根據(jù)劣質(zhì)的數(shù)據(jù)分析業(yè)務、進行決策,那還不如沒有數(shù)據(jù)。因為通過錯誤的數(shù)據(jù)分析出的結(jié)果往往會帶來「精確的誤導」,對于任何組織來說,這種「精確誤導」都無異于一場災難。

據(jù)統(tǒng)計,數(shù)據(jù)科學家和數(shù)據(jù)分析員每天有 30% 的時間浪費在了辨別數(shù)據(jù)是否是「壞數(shù)據(jù)」上,在數(shù)據(jù)質(zhì)量不高的環(huán)境下,做數(shù)據(jù)分析可謂是戰(zhàn)戰(zhàn)兢兢??梢?strong>數(shù)據(jù)質(zhì)量問題已經(jīng)嚴重影響了組織業(yè)務的正常運營。通過科學的數(shù)據(jù)質(zhì)量管理,持續(xù)地提升數(shù)據(jù)質(zhì)量,已經(jīng)成為組織內(nèi)部刻不容緩的優(yōu)先任務。

二、 數(shù)據(jù)質(zhì)量問題從何而來?

做數(shù)據(jù)質(zhì)量管理,首先要搞清楚產(chǎn)生數(shù)據(jù)質(zhì)量問題的原因。原因有多方面,比如在技術、管理、流程方面都會碰到。但從根本上說,產(chǎn)生數(shù)據(jù)質(zhì)量問題的大部分原因在業(yè)務上,也就是管理不善。許多表面上的技術問題,深究下去,其實還是業(yè)務問題。

我在給客戶做數(shù)據(jù)治理咨詢的時候,發(fā)現(xiàn)很多客戶很難發(fā)現(xiàn)產(chǎn)生數(shù)據(jù)質(zhì)量問題的根本原因,僅僅局限于從技術角度來解決問題,希望通過購買某個工具就能解決質(zhì)量問題,這當然達不到理想的效果。通過和客戶交流以及雙方共同分析之后,大部分組織都能認識到數(shù)據(jù)質(zhì)量問題產(chǎn)生的真正根源,開始從業(yè)務方向著手解決數(shù)據(jù)質(zhì)量問題了。

從業(yè)務角度著手解決數(shù)據(jù)質(zhì)量問題,重要的是建立一套科學、可行的數(shù)據(jù)質(zhì)量評估標準和管理流程。

三、 數(shù)據(jù)質(zhì)量評估的標準

當我們談到數(shù)據(jù)質(zhì)量管理的時候,我們須要有一個數(shù)據(jù)質(zhì)量評估的標準。有了這個標準,我們才能知道如何評估數(shù)據(jù)的質(zhì)量,才能把數(shù)據(jù)質(zhì)量量化,從而得出改進的方向、比較改進后的效果。目前業(yè)內(nèi)認可的數(shù)據(jù)質(zhì)量的標準有:

以上數(shù)據(jù)質(zhì)量標準只是一些通用的規(guī)則,這些標準是可以根據(jù)數(shù)據(jù)的實際情況和業(yè)務要求進行擴展的,如交叉表校驗等。

四、 數(shù)據(jù)質(zhì)量管理流程

要提升數(shù)據(jù)質(zhì)量,需要以問題數(shù)據(jù)為切入點,注重問題的分析、解決、跟蹤、持續(xù)優(yōu)化、知識積累,形成數(shù)據(jù)質(zhì)量持續(xù)提升的閉環(huán)。

首先需要梳理和分析數(shù)據(jù)質(zhì)量問題,摸清楚數(shù)據(jù)質(zhì)量的現(xiàn)狀;其次針對不同的質(zhì)量問題選擇適合的解決辦法,制定出詳細的解決方案;同時要注重問題的認責,追蹤方案執(zhí)行的效果,監(jiān)督檢查,持續(xù)優(yōu)化;最后形成數(shù)據(jù)質(zhì)量問題解決的知識庫,以供后來者參考。上述步驟不斷迭代,形成數(shù)據(jù)質(zhì)量管理的閉環(huán)。

很顯然,要管理好數(shù)據(jù)質(zhì)量,僅有工具支撐是遠遠不夠的,必須要組織架構、制度流程參與進來,做到數(shù)據(jù)的認責,數(shù)據(jù)的追責。這和我在第一篇文章

“數(shù)據(jù)治理那點事”系列之一:那些年我們一起踩過的坑

中闡述的觀點是一致的,大家可以詳細參考。

五、 數(shù)據(jù)質(zhì)量管理的取與舍

企業(yè)也好,政府也好,從來不是生活在真空之中,而是被社會緊緊地包裹。解決任何棘手的問題,都必須考慮到社會因素的影響,做適當?shù)娜∩帷?/p>

第一個取舍:數(shù)據(jù)質(zhì)量管理流程。前面講到的數(shù)據(jù)質(zhì)量管理流程,是一個相對理想的狀態(tài),但是在不同的組織內(nèi)部,實施的力度都是不同的,以數(shù)據(jù)追責為例:在企業(yè)內(nèi)部推行還具有一定的可行性,但是對于政府而言就很難適用。因為政府部門的大數(shù)據(jù)項目,牽頭單位無論是誰,很可能沒有相關的權限。遇到這種問題,我們只能迂回地做些事情,盡量彌補因為某個環(huán)節(jié)缺失而帶來的不利影響,比如和數(shù)據(jù)提供方一起建立起數(shù)據(jù)清洗的規(guī)則,對來源數(shù)據(jù)做清洗,盡量達到可用的標準。

數(shù)據(jù)追責的例子:你很難想像市經(jīng)信委去跟市政府辦公廳進行數(shù)據(jù)質(zhì)量的問責,這與數(shù)據(jù)治理的建設方在整個大的組織體系中的話語權有很大的關系,這也就是我們做數(shù)據(jù)治理必須接受的現(xiàn)實。

第二個取舍:不同時間維度上的數(shù)據(jù)采取不同的處理方式。從時間維度上劃分,數(shù)據(jù)主要有三類:未來數(shù)據(jù)、當前數(shù)據(jù)、歷史數(shù)據(jù)。在解決不同種類的數(shù)據(jù)質(zhì)量問題時,需要考慮取舍之道,采取不同的處理方式。

1. 歷史數(shù)據(jù)

當你拿著一堆歷史問題數(shù)據(jù),找信息系統(tǒng)的負責人給你整改,對方通常不會給你好臉色看,可能會以「當前的數(shù)據(jù)問題都處理不過來,哪有時間給你處理歷史數(shù)據(jù)的問題」為理由,拒你以千里之外。這時候即使你找領導協(xié)調(diào),一般也沒有太大的作用。因為這確實是現(xiàn)實情況:一個組織的歷史數(shù)據(jù)通常是經(jīng)年累月的積累,已經(jīng)是海量的規(guī)模,很難處理。那么難道就沒有更好的辦法了嗎?——對于歷史數(shù)據(jù)問題的處理,我們可以發(fā)揮技術人員的優(yōu)勢,用數(shù)據(jù)清洗的辦法來解決;對于實在清洗不了的,我們要讓決策者判斷投入和產(chǎn)出的效益比。

從另一個角度來看:數(shù)據(jù)的新鮮度不同,其價值往往也有所區(qū)分。一般來說,歷史數(shù)據(jù)的時間越久遠,其價值越低。所以,我們不應該把最重要的資源放在歷史數(shù)據(jù)質(zhì)量的提升上,而是應該更多地著眼于當前和未來即將產(chǎn)生的數(shù)據(jù)。

2. 當前數(shù)據(jù)

當前數(shù)據(jù)的問題,需要我們通過本文第四個章節(jié)講過的——梳理和發(fā)現(xiàn)問題,分析問題,解決問題,問題認責、跟蹤和評估等幾個流程環(huán)節(jié)來解決,管理過程中必須嚴格遵循流程,避免臟數(shù)據(jù)繼續(xù)流到數(shù)據(jù)分析和應用環(huán)節(jié)。

3. 未來數(shù)據(jù)

管理未來的數(shù)據(jù),一定要從數(shù)據(jù)規(guī)劃開始,從整個組織信息化的角度出發(fā),規(guī)劃組織統(tǒng)一的數(shù)據(jù)架構,制定出統(tǒng)一的數(shù)據(jù)標準。借業(yè)務系統(tǒng)新建、改造或重建的時機,在創(chuàng)建物理模型、建表、ETL開發(fā)、數(shù)據(jù)服務、數(shù)據(jù)使用等各個環(huán)節(jié)遵循統(tǒng)一的數(shù)據(jù)標準,從根本上提升數(shù)據(jù)質(zhì)量。這也是最理想、效果最好的數(shù)據(jù)質(zhì)量管理模式。

通過對不同時期數(shù)據(jù)的不同處理方式,能做到事前預防、事中監(jiān)控、事后改善,從根本上解決數(shù)據(jù)質(zhì)量問題。

六、 總結(jié)

提升數(shù)據(jù)質(zhì)量,是數(shù)據(jù)治理最重要的目標之一。我們需要從三個方面著手解決數(shù)據(jù)質(zhì)量問題:弄清楚數(shù)據(jù)質(zhì)量問題產(chǎn)生的根源,建立一套科學合理的評估標準和管理流程,考慮到組織和數(shù)據(jù)的現(xiàn)狀。

數(shù)瀾科技的核心產(chǎn)品:一站式大數(shù)據(jù)平臺「數(shù)棲」,集成了完善的數(shù)據(jù)質(zhì)量管理功能,可以對表級、字段級的數(shù)據(jù)建立稽核規(guī)則,執(zhí)行檢查,生成數(shù)據(jù)質(zhì)量報告,并融入到數(shù)據(jù)資產(chǎn)管理的閉環(huán)之中,幫助客戶循環(huán)不斷地提升數(shù)據(jù)質(zhì)量。

<END>

公司簡介:數(shù)瀾科技成立于 2016 年 6 月,秉持“讓企業(yè)的數(shù)據(jù)用起來”的使命,致力于成為客戶信賴的數(shù)據(jù)應用基礎設施供應商。2019 年初,躋身“杭州準獨角獸企業(yè)”榜。

自成立之日起,數(shù)瀾團隊即堅持以“數(shù)據(jù)中臺”作為核心戰(zhàn)略構建和培養(yǎng)團隊。目前已有成員 300+, 建成以數(shù)據(jù)科學家、數(shù)據(jù)產(chǎn)品專家、數(shù)據(jù)咨詢專家及數(shù)據(jù)可視化專家為核心的數(shù)據(jù)科技研發(fā)團隊,核心成員來自阿里、華為等企業(yè),擁有大數(shù)據(jù)業(yè)務和技術多年實戰(zhàn)經(jīng)驗,是國內(nèi)最早一批大數(shù)據(jù)服務創(chuàng)新實踐者。

目前,數(shù)瀾已為萬科、方太、興業(yè)銀行、百果園、中信云網(wǎng)、時尚集團、溫州檢察院、喜茶、視源股份等多家行業(yè)頭部企業(yè)和政府客戶,提供了數(shù)據(jù)中臺建設和數(shù)據(jù)資產(chǎn)開發(fā)服務,并基于數(shù)棲幫助企業(yè)持續(xù)挖掘數(shù)據(jù)資產(chǎn),賦能業(yè)務創(chuàng)新。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多