摘要開放數(shù)據(jù)集的數(shù)據(jù)質(zhì)量存在不確定性,這對其可能產(chǎn)生的價值構(gòu)成威脅?,F(xiàn)有的數(shù)據(jù)質(zhì)量管理方法通?;诮M織內(nèi)部的數(shù)據(jù)集,具有已知的元數(shù)據(jù)和數(shù)據(jù)語義的相關(guān)領(lǐng)域知識,然而用戶對開發(fā)數(shù)據(jù)不熟悉且缺乏元數(shù)據(jù)。本研究報告的目的是概述處理開放數(shù)據(jù)集的數(shù)據(jù)質(zhì)量所面臨的挑戰(zhàn),并為未來的研究制定計劃,以解決這一風險,從開放數(shù)據(jù)投資中獲取價值。 1. 引言開放數(shù)據(jù)是政府、組織、研究人員等免費提供的數(shù)據(jù),可以沒有版權(quán)限制地供任何人使用。過去數(shù)年間公開數(shù)據(jù)集的增加和數(shù)據(jù)市場的出現(xiàn)為政府、企業(yè)和企業(yè)家提供了前所未有的機會,他們可以利用數(shù)據(jù)的力量獲得經(jīng)濟、社會和科學收益。數(shù)據(jù)驅(qū)動型創(chuàng)新可以通過開放數(shù)據(jù)實現(xiàn)經(jīng)濟和社會收益。 雖然開放數(shù)據(jù)競賽已經(jīng)在初創(chuàng)企業(yè)和應(yīng)用程序方面取得了一些成功,但也有一些證據(jù)表明開放數(shù)據(jù)集的價值仍然未被完全開發(fā), 這主要是因為使用數(shù)據(jù)前缺乏對數(shù)據(jù)質(zhì)量特征的了解。此外,元數(shù)據(jù)和數(shù)據(jù)集的潛在數(shù)據(jù)質(zhì)量是有缺陷的。比如,許多開放數(shù)據(jù)集的數(shù)據(jù)有重復(fù)、不一致和缺失的情況,并且通常缺少易于訪問的模式描述。案例有MusicBranz.org開放數(shù)據(jù)集,它由324個無模式CSV文件組成,數(shù)據(jù)量為35.1GB。由對開放數(shù)據(jù)集的分析表明開放數(shù)據(jù)中存在許多此類問題。比如,在公共交通數(shù)據(jù)中,公交車站名稱的數(shù)據(jù)一致性較低,這嚴重影響需要分組或搜索車站名稱的數(shù)據(jù)的使用,例如時間表和交通監(jiān)控。類似地,如圖1所示,美國槍支犯罪者數(shù)據(jù)庫中可以找出若干個數(shù)據(jù)質(zhì)量問題。 數(shù)據(jù)集的價值一定是與數(shù)據(jù)的潛在質(zhì)量有關(guān)的,但它們在概念上是不同的。例如,一份完整準確的亞洲所有國家名單可能沒有太大價值。然而,來自公共交通工具的不完整和嘈雜的GPS數(shù)據(jù)可能對交通工程師和城市規(guī)劃者有很高的感知價值。在處理如此龐大和未知的數(shù)據(jù)集時,用戶可能會經(jīng)歷很長的查詢處理時間,并在此過程中意識到獲得的結(jié)果質(zhì)量很差?;蛘?,用戶可能沒有意識到數(shù)據(jù)質(zhì)量不夠,從而影響根據(jù)查詢結(jié)果做出的任何后續(xù)決策。 盡管存在這些問題,越來越多的人傾向于將大量的外部和內(nèi)部數(shù)據(jù)收集到所謂的數(shù)據(jù)池中,這些數(shù)據(jù)池通常被稱為企業(yè)數(shù)據(jù)管理平臺,用于存儲、組織和分析來自多個不同來源(包括開放數(shù)據(jù)源)的數(shù)據(jù)。盡管人們對大數(shù)據(jù)現(xiàn)象的興趣越來越高,但多年的信息系統(tǒng)使用研究經(jīng)驗表明,“更多使用更好”的假設(shè)顯然不正確。隨著開放數(shù)據(jù)集和數(shù)據(jù)源數(shù)量以指數(shù)級的速度持續(xù)增長,這給數(shù)據(jù)消費者留下大量未經(jīng)探索、不熟悉的數(shù)據(jù)集,他們可能會也可能不會產(chǎn)生有價值的見解。因此,各組織開始面臨“暗數(shù)據(jù)”綜合癥,很大一部分信息資產(chǎn)未得到充分利用。如果沒有科學可靠的知識能夠有效地評估數(shù)據(jù)的基本質(zhì)量特征,組織和政府將積累大量低價值的數(shù)據(jù)、落入分析陷阱,投資ROI值(投資回報率)低的數(shù)據(jù)風險很大。 在本文中,我們首先概述了數(shù)據(jù)質(zhì)量評估的最新進展,強調(diào)了應(yīng)用這些技術(shù)評估開放數(shù)據(jù)空間中具有典型特征的數(shù)據(jù)集的質(zhì)量所面臨的挑戰(zhàn),并思考這些挑戰(zhàn)如何破壞從開放數(shù)據(jù)使用中產(chǎn)生價值的能力,提出未來研究的計劃,以便對開放數(shù)據(jù)的“使用質(zhì)量”動態(tài)進行必要的了解。 2. 數(shù)據(jù)質(zhì)量評估研究人員和從業(yè)者已經(jīng)對數(shù)據(jù)質(zhì)量進行了廣泛的研究。數(shù)據(jù)質(zhì)量維度如準確性、完整性、一致性,是數(shù)據(jù)質(zhì)量定義和測量的基本概念。在大多數(shù)(如果不是全部的)數(shù)據(jù)質(zhì)量管理項目中,評估數(shù)據(jù)集的質(zhì)量是一項基本任務(wù)。數(shù)據(jù)質(zhì)量通常根據(jù)特定的要求進行評估。過去20年的數(shù)據(jù)質(zhì)量研究都是基于這一適用性的基本原則。因此現(xiàn)有的數(shù)據(jù)質(zhì)量管理方法自然是自上而下的,其中,數(shù)據(jù)質(zhì)量要求是根據(jù)充分理解的使用要求以自上而下的方式確定的,并使用良好的數(shù)據(jù)治理實踐加以實施。 Batini等人(2009)對現(xiàn)有的數(shù)據(jù)質(zhì)量評估和需求識別方法進行了全面分析,認為這些方法通常包括三個核心方面:數(shù)據(jù)和過程分析,數(shù)據(jù)質(zhì)量需求分析,數(shù)據(jù)質(zhì)量分析。數(shù)據(jù)和流程分析包括檢查數(shù)據(jù)模式、進行訪談和與數(shù)據(jù)用戶會面,以完全了解數(shù)據(jù)、相關(guān)約束和規(guī)則,以及創(chuàng)建或使用數(shù)據(jù)的流程。數(shù)據(jù)質(zhì)量需求分析通常包括對數(shù)據(jù)用戶和管理員的調(diào)查,以確定質(zhì)量問題,旨在確定關(guān)鍵數(shù)據(jù)集、定義數(shù)據(jù)質(zhì)量度量和設(shè)置質(zhì)量目標。數(shù)據(jù)集探索、評估和分析一般根據(jù)定義好的數(shù)據(jù)質(zhì)量度量進行,然后數(shù)據(jù)質(zhì)量分析與這些活動相關(guān)。 對數(shù)據(jù)質(zhì)量評估和需求識別的顯著貢獻有如下這些:Lee.Strong、Kahn和Wang提出了一種由PSP/IQ模型(信息質(zhì)量的產(chǎn)品和服務(wù)性能模型)、信息質(zhì)量評估(IQA)方法和信息質(zhì)量(IQ)差距分析技術(shù)三個部分組成的數(shù)據(jù)質(zhì)量評估和改進方法,通過用戶調(diào)查對信息質(zhì)量進行評估。同樣,Naumann和Rolker提出了一種基于IQ分數(shù)來源的新的IQ標準分類,即對用戶、數(shù)據(jù)源和評估信息的查詢過程的感知。評估方法中,個人用戶的體驗和他們對某些標準的理解都是主觀的。例如,“可解釋性”和“簡要表達”標準都是“用戶抽樣”的評估方法。然而在某些應(yīng)用的上下文中,簡要表達受到行業(yè)規(guī)則的約束,因此數(shù)據(jù)的可解釋性程度取決于單個用戶的感知。 很明顯,這些方法中的大多數(shù)(如果不是全部)都遵循以用戶為中心、自上而下的方法,在這些方法中,探索數(shù)據(jù)之前要先從用戶那里獲得需求。這種方法涵蓋了很多方面,但一定要與特定公司的組織設(shè)置和數(shù)據(jù)治理環(huán)境綁定在一起,使它們對外部不熟悉的數(shù)據(jù)集的評估無效。在當前的數(shù)據(jù)環(huán)境中,用戶面臨著新的、未開發(fā)的、潛在的大型數(shù)據(jù)集,這些數(shù)據(jù)集可以說具有相關(guān)性和對業(yè)務(wù)的感知價值。在這種情況下,應(yīng)用自上而下的方法是不可行的。用戶需要獲得探索性功能的授權(quán),這將允許他們調(diào)查數(shù)據(jù)集的質(zhì)量,并自然而然地調(diào)查其使用的影響?,F(xiàn)有的兩個領(lǐng)域考慮了自下而上的數(shù)據(jù)質(zhì)量評估方法——數(shù)據(jù)探查和數(shù)據(jù)剖析。 過去十多年間有很多關(guān)于數(shù)據(jù)探查的研究用統(tǒng)計方法揭露了數(shù)據(jù)的事實。通過這些事實來制定質(zhì)量標準,進而評估質(zhì)量,再通過數(shù)據(jù)清理提高數(shù)據(jù)質(zhì)量。Dasu和Johnson(2003)提供了一份當時數(shù)據(jù)勘探統(tǒng)計方法的綜合清單,盡管他們強調(diào)了將這些方法用于數(shù)據(jù)質(zhì)量問題檢測的可能性,但對任意數(shù)據(jù)集探索方法或指南仍然很缺乏。 數(shù)據(jù)剖析是數(shù)據(jù)探查的一個相關(guān)概念,它具有重要的商業(yè)工具市場。Gartner(Friedman,2013)估計,到2012年底,該市場的收入達到9.6億美元。大約50%的市場由幾家大型的成熟供應(yīng)商主導(dǎo),如IBM、Informatica、Pitney Bowes、SAP和SAS。剩下的50%被分配給了大量的供應(yīng)商,包括Microsoft、Oracle、Talend、Ataccama、Human Inference和Experian QAS等等。這些剖析工具集中關(guān)注很多功能,包括數(shù)據(jù)的分布統(tǒng)計分析、冗余檢查、故障檢測、功能依賴性分析、列相關(guān)性分析、有效性檢查等。這些工具通常不附帶如何將剖析報告用于確定可操作的數(shù)據(jù)質(zhì)量要求的指南。 雖然根據(jù)特定維度,比如數(shù)據(jù)質(zhì)量剖析(Abedjan, Golab, & Naumann, 2015)、統(tǒng)計方法(Dasu & Johnson, 2003)以及通過發(fā)現(xiàn)數(shù)據(jù)依賴性約束 (Fan & Geerts, 2012)來評估數(shù)據(jù)質(zhì)量來進行數(shù)據(jù)質(zhì)量測量的研究已經(jīng)有了一些成果,但這些解決方案僅針對特定的維度(如一致性或新鮮度),只根據(jù)一個維度不足以準確完整地描述跨越大量維度的整個數(shù)據(jù)的質(zhì)量(Jayawardene et al., 2013)。此外,這些解決方案通常以數(shù)據(jù)分布(Dasu&Johnson,2003年)、閾值(Song&Chen,2011年)和概率(K_hler,Link,&Zhou,2015年)等與某些元數(shù)據(jù)的可用性相關(guān)假設(shè)為基礎(chǔ),這些假設(shè)可能不適用于開放數(shù)據(jù)集。 3. The need for change以前有很多成功的評估并有效地將數(shù)據(jù)用于商業(yè)結(jié)果的方法,開放式數(shù)據(jù)的創(chuàng)建、訪問和使用的特定設(shè)置會使許多方法不可用。然而,“垃圾進,垃圾出”這句古老的格言仍然存在重大的風險,對有效使用開放數(shù)據(jù)實現(xiàn)創(chuàng)新和提高生產(chǎn)力方面有負面影響或令人望而卻步的延遲。我們認為,要實現(xiàn)信息社會開放數(shù)據(jù)的價值主張,就必須把注意力集中在三個關(guān)鍵的研究領(lǐng)域。 3.1. Shared understanding of data quality dimensions 最近有幾項研究分析了選定開放數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,盡管數(shù)據(jù)質(zhì)量維度和指標不同 (Rekatsinas, Dong, Getoor, & Srivastava, 2015),他們指出了與上文所寫類似的問題。評估數(shù)據(jù)質(zhì)量之前,其在上下文中的使用在很大程度上是未知的,需要有用通用的方式聲明要評估的數(shù)據(jù)質(zhì)量維度的能力。盡管數(shù)據(jù)質(zhì)量維度的概念是非常基礎(chǔ)的,但有證據(jù)表明,在幾十年的數(shù)據(jù)質(zhì)量研究中,基本定義已經(jīng)有了很多重疊和矛盾,從而對在通用級別上對數(shù)據(jù)質(zhì)量維度進行推理產(chǎn)生障礙。Jayawardene et al. (2013) 已經(jīng)將來自學術(shù)界、從業(yè)者和產(chǎn)業(yè)界的大量定義整合到了一個由廣泛的使用案例和示例庫(來源于學術(shù)界和產(chǎn)業(yè)界文獻)支持的33種數(shù)據(jù)質(zhì)量模式(Sadiq, Jayawardene, &Indulska, 2015) 的庫中,并對其完整性和應(yīng)用性進行了驗證。盡管綜合的數(shù)據(jù)質(zhì)量維度對過去20年的數(shù)據(jù)質(zhì)量研究和實踐進行了統(tǒng)一,但在數(shù)據(jù)提供者和消費者組成的龐大而多樣的群體中發(fā)展共同理解仍然是一項重要的工作。對如何定義數(shù)據(jù)質(zhì)量以及如何使用數(shù)據(jù)質(zhì)量進行推理缺乏共同理解,會妨礙協(xié)同處理開放數(shù)據(jù)社區(qū)內(nèi)零碎和孤立的行為的數(shù)據(jù)質(zhì)量的工作。此外,我們初步的研究工作表明,人們對各種國際開放數(shù)據(jù)門戶數(shù)據(jù)集中數(shù)據(jù)質(zhì)量問題的規(guī)模和影響缺乏了解。因此,我們認為在努力解決問題之前需要進行一項全球研究,使用一致的比較基準,以探索問題的嚴重程度。 3.2對質(zhì)量感知的支持 使用開放數(shù)據(jù)相關(guān)的最大風險之一是對數(shù)據(jù)的固有質(zhì)量缺乏認識。人們使用開放數(shù)據(jù)的目的經(jīng)常與搜集數(shù)據(jù)時的計劃不一樣,因此一個數(shù)據(jù)集對實現(xiàn)某一個目的來說質(zhì)量可能是足夠好的,但它不一定適合完成另一個目的。開放數(shù)據(jù)的消費者通常不是生產(chǎn)者,因此沒有明確的數(shù)據(jù)清理策略,而這通常會導(dǎo)致錯誤的數(shù)據(jù)處理和轉(zhuǎn)換方式 (Arocena et al., 2016)。因此,開放數(shù)據(jù)的消費者可能會投入大量精力,想從數(shù)據(jù)中產(chǎn)生有價值的結(jié)果,但最后只能得到不充分的結(jié)果,或者他們甚至可能沒有意識到數(shù)據(jù)本身的質(zhì)量很差,并且依據(jù)錯誤的結(jié)果做出判斷。我們認為,迫切需要一些探索性的工具和方法讓用戶了解在其期望的用途方面數(shù)據(jù)的缺點。已經(jīng)有一些質(zhì)量感知的查詢系統(tǒng) (Yeganeh et al., 2014)、探索和可視化方法 (Ehsan, Sharaf, & Chrysanthis, 2016)和理解數(shù)據(jù)和模式屬性(Kruse, Papenbrock, Harmouch, & Naumann, 2016)的方法被開發(fā)出來了。然而,在向用戶提供足夠的質(zhì)量感知支持之前,技術(shù)和經(jīng)驗研究人員仍面臨許多公開的挑戰(zhàn)。 3.3加強“質(zhì)量-使用”關(guān)系 數(shù)據(jù)質(zhì)量、使用意圖和數(shù)據(jù)的有效使用之間的關(guān)系在學術(shù)文獻中還未被探索。我們認為,有必要進行理論開發(fā)和經(jīng)驗測試,以確定影響開放數(shù)據(jù)使用有效性的環(huán)境和因素,進而從開放數(shù)據(jù)中獲得價值。探索這些因素的研究將為實際的開放數(shù)據(jù)項目提供有價值的指導(dǎo)。雖然最近的一些工作涉及信息系統(tǒng)環(huán)境中的有效使用(Burton Jones & Grange, 2012),但它們的重點是系統(tǒng)而不是數(shù)據(jù)的有效使用。這些系統(tǒng)還包含組織所知的數(shù)據(jù),而不是開放(不熟悉)的數(shù)據(jù),因此,目前關(guān)于信息系統(tǒng)環(huán)境有效使用的理論無法解釋開放數(shù)據(jù)的有效使用。 4結(jié)論在本文中,出于缺乏理解、甚至沒有能力理解可用開放數(shù)據(jù)潛在的質(zhì)量,我們對其數(shù)量提出了質(zhì)疑,我們概述了三個需要研究和開發(fā)的領(lǐng)域,以進一步構(gòu)建有效使用開放數(shù)據(jù)的知識體系。這些挑戰(zhàn)需要跨研究社區(qū)的信息系統(tǒng)、計算機科學、統(tǒng)計學、社會科學和商業(yè),以及管理開放數(shù)據(jù)的機構(gòu)等等跨學科團隊的支持。 致謝此文由南京大學軟件學院18級碩士嚴格翻譯轉(zhuǎn)述。 參考文獻Abedjan, Z., Golab, L., & Naumann, F. (2015). Profiling relational data: A survey. The VLDB Journal The International Journal on Very Large Data Bases, 24(4), 557–581. Abiteboul, S., Dong, L., Etzioni, O., Srivastava, D., Weikum, G., Stoyanovich, J., et al.(2015). The elephant in the room: Getting value from Big Data. Proceedings of the 18th international workshop on web and databases. Arocena, P. C., Glavic, B., Mecca, G., Miller, R. J., Papotti, P., & Santoro, D. (2016). Benchmarking data curation systems. IEEE Data Engineering Bulletin, 39(2), 47–62, 2016. Batini, C., Cappiello, C., Francalanci, C., & Maurino, A. (2009). Methodologies for data quality assessment and improvement. ACM Computing Surveys (CSUR), 41(3), 16. Belkin, R., & Patil, D. J. (2016). Everything we wish we’d known about building data products (Accessed 16 February). http:///review/everything-we-wish-wed-known-about- building-data-products/ Burton-Jones, A., & Grange, C. (2012). From use to effective use: A representation theory perspective. Information Systems Research, 24(3), 632–658. Curry, M. (2010). The value density of information.. September 14, (Accessed 16 February 2016). https://mikecurr55./2010/09/14/the-value-density-of-information/ DATA.GOV. (2015). Gun offenders. December 17. http://catalog./dataset/gun-offenders Dasu, T., & Johnson, T. (2003). . Exploratory data mining and data cleaning (Vol. 479)John Wiley & Sons. Duus, R., & Cooray, M. (2016). The future will be built on open data – Here’s why..February 6, (Accessed February 16). http:///the-future-will-be-built-on-open-data-heres- why-52785 Ehsan, H., Sharaf, M. A., & Chrysanthis, P. K. (2016). MuVE: Efficient multi-objective view recommendation for visual data exploration. ICDE. Elbaz, G. (2012). Data markets: The emerging data economy.. September 30, (Accessed 16 February). http:///2012/09/30/data-markets-the-emerging-data-economy/English, L. P. (2009). Information quality applied: Best practices for improving Business information processes and systems. Wiley Publishing. Fan, W., & Geerts, F. (2012). Foundations of data quality management. Synthesis Lectures on Data Management, 4(5), 1–217. Friedman, T. (2013). Magic quadrant for data quality tools. Gartner Group. ISO. (2011). ISO/TS 8000-1 Data quality part 1: Overview. ISO. Jayawardene, V., Sadiq, S., & Indulska, M. (2013). The curse of dimensionality in data quality. ACIS 2013: 24th Australasian conference on information systems. Johnston, H. R., & Carrico, S. R. (1988). Developing capabilities to use information strategically. MIS Quarterly, 37–48. Juran, J. M., Gryna, F. M., & Bingham, R. S., Jr. (1974). Quality control handbook, 1974. McGraw-Hill Book Company. Chapters 9:22. K?hler, H., Link, S., & Zhou, X. (2015). Possible and certain sql keys. Proceedings of the VLDB Endowment, 8(11), 1118–1129. Kruse, S., Papenbrock, T., Harmouch, H., & Naumann, F. (2016). Data anamnesis: Admitting raw data into an organization. Bulletin of the Technical Committee on Data Engineering, IEEE Computing Society, 39(June (2)). Lee, Y. W., Strong, D. M., Kahn, B. K., & Wang, R. Y. (2002). AIMQ: A methodology for information quality assessment. Information & Management, 40(2), 133. Loshin, D. (2001). Enterprise knowledge management: The data quality approach. San Francisco, Calif and London: Morgan Kaufmann and Brace Harcourt. McGilvray, D. (2008). Executing data quality projects: Ten steps to quality data and trusted information TM. Elsevier. Naumann, F., & Rolker, C. (2000). Assessment methods for information quality criteria. O’Reilly, C. A. (1982). Variations in decision makers’ use of information sources: The impact of quality and accessibility of information. Academy of Management Journal, 25(4), 756–771. (2014) . Deciding with data. Australia: PricewaterhouseCoopers. September. https://www.pwc. com.au/consulting/assets/publications/data-drive-innovation-sep14.pdf Queensland Government.(2016). Queensland Government data.. Last accessed on 25th October 2016. https://data./case-studies Redman, T. C., & Blanton, A. (1997). Data quality for the information age. Artech House Inc. Rekatsinas, T., Dong, X. L., Getoor, L., & Srivastava, D. (2015). Finding quality in quantity: The challenge of discovering valuable sources for integration. CIDR. Sadiq, S., Yeganeh, N. K., & Indulska, M. (2011). 20 years of data quality research: themes, trends and synergies. Proceedings of the twenty-second Australasian database conference-volume 115. Sadiq, S., Jayawardene, V., & Indulska, M. (2015). Data quality patterns. (Accessed 16 February 2016). http://dke./DataQualityPatterns/ Sadiq, S. (2013). Handbook of data quality. Springer. Seddon, P. B. (1997). A respecification and extension of the DeLone and McLean model of IS success. Information Systems Research, 8(3), 240–253. Silver, N. (2012). The signal and the noise: Why so many predictions fail-but some don’t. Penguin. Song,S., & Chen, L. (2011). Differential dependencies: Reasoning and discovery. ACM Transactions on Database Systems (TODS), 36(3), 16. Stamford, Conn. (2014). Gartner says beware of the data lake fallacy.. July 28. http://www./newsroom/id/2809117 Tittel, E. (2014). The dangers of dark data and how to minimize your exposure..September 24, (Accessed 16 February, 2016). http://www./article/2686755/data-analytics/the-dangers-of- dark-data-and-how-to-minimize-your-exposure.html Yeganeh, N. K., Sadiq, S., & Sharaf, M. A. (2014). A framework for data quality aware query systems. Information Systems, 46, 24–44. Zhang, R., Jayawardene, V., Indulska, M., Sadiq, S., & Zhou, X. (2014). A data driven approach for discovering data quality requirements. In ICIS 2014: 35th international conference on information systems. |
|
|
來自: blackhappy > 《我的圖書館》