|
為什么要進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估 很多剛?cè)腴T的數(shù)據(jù)分析師,拿到數(shù)據(jù)后會(huì)立刻開始對(duì)數(shù)據(jù)進(jìn)行各種探查、統(tǒng)計(jì)分析等,企圖能立即發(fā)現(xiàn)數(shù)據(jù)背后隱藏的信息和知識(shí)。然而忙活了一陣才頹然發(fā)現(xiàn),并不能提煉出太多有價(jià)值的信息,白白浪費(fèi)了大量的時(shí)間和精力。比如和數(shù)據(jù)打交道的過程中,可能會(huì)出現(xiàn)以下的場(chǎng)景:
場(chǎng)景一:作為分析師,要統(tǒng)計(jì)一下近7天用戶的購買情況,結(jié)果從數(shù)倉中統(tǒng)計(jì)完發(fā)現(xiàn),很多數(shù)據(jù)發(fā)生了重復(fù)記錄,甚至有些數(shù)據(jù)統(tǒng)計(jì)單位不統(tǒng)一。場(chǎng)景二:業(yè)務(wù)看報(bào)表,發(fā)現(xiàn)某一天的成交gmv暴跌,經(jīng)過排查發(fā)現(xiàn),是當(dāng)天的數(shù)據(jù)缺失。 造成這一情況的一個(gè)重要因素就是忽視了對(duì)數(shù)據(jù)質(zhì)量的客觀評(píng)估。在進(jìn)行數(shù)據(jù)分析前需要注意以下兩點(diǎn):1、在實(shí)際工作中數(shù)據(jù)分析一定都是為具體業(yè)務(wù)服務(wù)的,只有緊密圍繞業(yè)務(wù)需求的分析才是有意義的有價(jià)值的。2、通常我們進(jìn)行數(shù)據(jù)分析、挖掘的目的是企圖發(fā)現(xiàn)數(shù)據(jù)中隱藏的知識(shí)和信息,從而對(duì)實(shí)際業(yè)務(wù)或產(chǎn)品進(jìn)行優(yōu)化。如果數(shù)據(jù)集本身質(zhì)量不佳,自然很難得出有用的結(jié)論,甚至可能得到錯(cuò)誤的結(jié)果延伸到導(dǎo)致決策失誤。所以,進(jìn)行科學(xué)、客觀的數(shù)據(jù)質(zhì)量評(píng)估是非常必要且十分重要的。首先可以節(jié)約大量試錯(cuò)的時(shí)間;其次可以降低得出錯(cuò)誤結(jié)論的概率;還可以縮短數(shù)據(jù)反饋流程,更加及時(shí)的將數(shù)據(jù)收集過程存在的問題反饋給數(shù)據(jù)生產(chǎn)部門,提高協(xié)作效率。數(shù)據(jù)質(zhì)量六大評(píng)價(jià)標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量是保證數(shù)據(jù)分析應(yīng)用的基礎(chǔ),是獲取數(shù)據(jù)價(jià)值的重要保障。根據(jù)目前業(yè)界對(duì)于數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn),并結(jié)合多年項(xiàng)目經(jīng)驗(yàn)總結(jié),可基于數(shù)據(jù)完整性、唯一性、有效性、一致性、準(zhǔn)確性和及時(shí)性6個(gè)維度來評(píng)估數(shù)據(jù)質(zhì)量。依據(jù)以上指標(biāo),針對(duì)不同的信息系統(tǒng)做出定量的數(shù)據(jù)質(zhì)量評(píng)估,也可根據(jù)實(shí)際情況,在評(píng)估執(zhí)行中進(jìn)行取舍。
 完整性指的是數(shù)據(jù)信息是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。唯一性指的是數(shù)據(jù)庫的數(shù)據(jù)不存在重復(fù)的情形。比如真實(shí)成交1萬條,但數(shù)據(jù)表有3000重復(fù)了,成了1.3萬條成交記錄,這種數(shù)據(jù)不符合數(shù)據(jù)唯一性。有效性指的是描述數(shù)據(jù)遵循預(yù)定的語法規(guī)則的程度,是否符合其定義,比如數(shù)據(jù)的類型、格式、取值范圍等。一致性是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯,一致性并不意味著數(shù)值上的絕對(duì)相同,而是數(shù)據(jù)收集、處理的方法和標(biāo)準(zhǔn)的一致。常見的一致性指標(biāo)有:ID重合度、屬性一致、取值一致、采集方法一致、轉(zhuǎn)化步驟一致。準(zhǔn)確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e(cuò)誤。和一致性不一樣,存在準(zhǔn)確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致,更為常見的數(shù)據(jù)準(zhǔn)確性錯(cuò)誤就如亂碼,其次異常的大或者小的數(shù)據(jù)也是不符合條件的數(shù)據(jù)。常見的準(zhǔn)確性指標(biāo)有:缺失值占比、錯(cuò)誤值占比、異常值占比、抽樣偏差、數(shù)據(jù)噪聲。及時(shí)性是指數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長。比如一份數(shù)據(jù)是統(tǒng)計(jì)離線今日的,結(jié)果都是第二天甚至第三天才能統(tǒng)計(jì)完,這種數(shù)據(jù)不符合數(shù)據(jù)及時(shí)性。企業(yè)如何進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估一般來說,當(dāng)企業(yè)有了全新的業(yè)務(wù)需求、重大的技術(shù)變更,又或者從一個(gè)新的數(shù)據(jù)來源獲取了全新的數(shù)據(jù),并期望將它應(yīng)用在一個(gè)具體的業(yè)務(wù)中的時(shí)候,我們都需要進(jìn)行比較完整的數(shù)據(jù)質(zhì)量分析。數(shù)據(jù)質(zhì)量評(píng)估步驟如下:
對(duì)具體業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)價(jià)是以業(yè)務(wù)需求為中心進(jìn)行的,必須首先了解具體業(yè)務(wù)針對(duì)特定數(shù)據(jù)資源的需求特征才能建立針對(duì)性的評(píng)價(jià)指標(biāo)體系。同時(shí),同一份數(shù)據(jù)在不同的生命周期中,其質(zhì)量的關(guān)注點(diǎn)是存在差異的,因此很重要的一點(diǎn)就是明確當(dāng)前階段數(shù)據(jù)質(zhì)量管理的目標(biāo)是什么。有了明確的目標(biāo),才能開始對(duì)數(shù)據(jù)進(jìn)行合理的評(píng)估。2、確定評(píng)價(jià)對(duì)象及范圍確定當(dāng)前評(píng)估工作應(yīng)用的數(shù)據(jù)集的范圍和邊界,明確數(shù)據(jù)集在屬性、數(shù)量、時(shí)間等維度的具體界限。需要說明的是,評(píng)價(jià)對(duì)象既可以是數(shù)據(jù)項(xiàng)也可以是數(shù)據(jù)集,但一定是一個(gè)確定的靜態(tài)的集合。3、選取質(zhì)量維度及評(píng)價(jià)指標(biāo)數(shù)據(jù)質(zhì)量維度是進(jìn)行質(zhì)量評(píng)價(jià)的具體質(zhì)量反映,如正確性、準(zhǔn)確性等,它是控制和評(píng)價(jià)數(shù)據(jù)質(zhì)量的主要內(nèi)容。因此,首先要依據(jù)具體業(yè)務(wù)需求選擇適當(dāng)?shù)臄?shù)據(jù)質(zhì)量維度和評(píng)價(jià)指標(biāo)。另外,要選取可測(cè)、可用的質(zhì)量維度作為評(píng)價(jià)指標(biāo)準(zhǔn)則項(xiàng),在不同的數(shù)據(jù)類型和不同的數(shù)據(jù)生產(chǎn)階段,同一質(zhì)量維度有不同的具體含義和內(nèi)容,應(yīng)該根據(jù)實(shí)際需要和生命階段確定質(zhì)量維度。4、確定質(zhì)量測(cè)度及其評(píng)價(jià)方法數(shù)據(jù)質(zhì)量評(píng)價(jià)在確定其具體維度和指標(biāo)對(duì)象后,應(yīng)該根據(jù)每個(gè)評(píng)價(jià)對(duì)象的特點(diǎn),確定其測(cè)度及實(shí)現(xiàn)方法。對(duì)于不同的評(píng)價(jià)對(duì)象一般是存在不同的測(cè)度的,以及需要不同的實(shí)現(xiàn)方法支持,所以應(yīng)該根據(jù)質(zhì)量對(duì)象的特點(diǎn)確定其測(cè)度和實(shí)現(xiàn)方法。根據(jù)前面四步確定的質(zhì)量對(duì)象、質(zhì)量范圍、測(cè)量及其實(shí)現(xiàn)方法實(shí)現(xiàn)質(zhì)量評(píng)測(cè)的活動(dòng)過程。評(píng)價(jià)對(duì)象的質(zhì)量應(yīng)當(dāng)由多個(gè)質(zhì)量維度的評(píng)測(cè)來反映,單個(gè)數(shù)據(jù)質(zhì)量測(cè)量是不能充分、客觀評(píng)價(jià)由某一數(shù)據(jù)質(zhì)量范圍所限定的信息的質(zhì)量狀況,也不能為數(shù)據(jù)集的所有可能的應(yīng)用提供全面的參考,多個(gè)質(zhì)量維度的組合能提供更加豐富的信息。經(jīng)過抽樣、度量、評(píng)估之后,就可以得到評(píng)估結(jié)論了。最后我們需要的就是撰寫一份評(píng)估的報(bào)告,在這份報(bào)告當(dāng)中,除了最后的結(jié)論,應(yīng)當(dāng)還包括對(duì)這個(gè)結(jié)論的分析和解讀,并通過一些可視化的方式展現(xiàn)在報(bào)告當(dāng)中。數(shù)據(jù)質(zhì)量評(píng)估報(bào)告不是最終的目的,這份報(bào)告對(duì)后續(xù)數(shù)據(jù)質(zhì)量的管理,數(shù)據(jù)治理等都具有非常重要的參考意義。因此,在這份報(bào)告中應(yīng)當(dāng)包含結(jié)論、分析以及質(zhì)量改善建議這幾個(gè)方面。要想真正解決數(shù)據(jù)質(zhì)量問題,明確業(yè)務(wù)需求并從需求開始控制數(shù)據(jù)質(zhì)量,并建立數(shù)據(jù)質(zhì)量管理機(jī)制。從業(yè)務(wù)出發(fā)做問題定義,由工具自動(dòng)、及時(shí)發(fā)現(xiàn)問題,明確問題責(zé)任人,通過郵件、短信等方式進(jìn)行通知,保證問題及時(shí)通知到責(zé)任人。跟蹤問題整改進(jìn)度,保證數(shù)據(jù)質(zhì)量問題全過程的管理。
正所謂,工欲善其事,必先利其器。億信華辰睿治數(shù)據(jù)治理平臺(tái)的數(shù)據(jù)質(zhì)量管理模塊以全面質(zhì)量管理PDCA循環(huán)管理方法為指導(dǎo),充分結(jié)合國內(nèi)數(shù)據(jù)質(zhì)量管理工作的特點(diǎn),運(yùn)用元數(shù)據(jù)管理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、工作流、評(píng)分卡、可視化等技術(shù)最終幫助企業(yè)和政府建立數(shù)據(jù)質(zhì)量管理體系,全面提升數(shù)據(jù)的完整性、規(guī)范性、及時(shí)性、一致性、邏輯性等,降低數(shù)據(jù)管理成本,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。 1、構(gòu)建數(shù)據(jù)質(zhì)量規(guī)則庫定義數(shù)據(jù)驗(yàn)證方法,內(nèi)嵌空值檢查、值域檢查等13種檢查規(guī)則,基本覆蓋目前數(shù)據(jù)質(zhì)量相關(guān)問題。2、發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題靈活定義多模型質(zhì)檢方案,多點(diǎn)監(jiān)測(cè)、多模型質(zhì)檢方案,高效調(diào)度,并發(fā)和串行處理相結(jié)合,性能高效,只需2分30秒,便可完成20條規(guī)則百萬級(jí)數(shù)據(jù)的質(zhì)量檢查。內(nèi)置常規(guī)質(zhì)檢分析報(bào)告,實(shí)時(shí)可視化呈現(xiàn)質(zhì)檢結(jié)果,質(zhì)檢結(jié)果模型靈活擴(kuò)展,充分利用了BI工具的分析展現(xiàn)能力,提供圖文并茂的質(zhì)量檢查結(jié)果報(bào)告。4、數(shù)據(jù)質(zhì)量全流程管理提供從標(biāo)準(zhǔn)定義、質(zhì)量監(jiān)控、績(jī)效評(píng)估、質(zhì)量分析、質(zhì)量報(bào)告、重大問題及時(shí)告警、流程整改發(fā)起、系統(tǒng)管理等數(shù)據(jù)質(zhì)量管理全過程的功能,不僅能發(fā)現(xiàn)問題、還能將問題分發(fā)給數(shù)據(jù)負(fù)責(zé)人、管理者,在線跟蹤問題處理進(jìn)展。結(jié)語:數(shù)據(jù)質(zhì)量的治理,是數(shù)據(jù)治理的主要內(nèi)容之一。數(shù)據(jù)質(zhì)量的全面評(píng)價(jià),是數(shù)據(jù)質(zhì)量治理的準(zhǔn)繩。在整個(gè)數(shù)據(jù)治理環(huán)節(jié),億信華辰睿治數(shù)據(jù)治理平臺(tái)從數(shù)據(jù)源頭控制數(shù)據(jù)質(zhì)量,貫徹始終,全面提升數(shù)據(jù)的完整性、規(guī)范性、及時(shí)性、一致性,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。
|