|
數(shù)據(jù)從信息技術(shù)行業(yè)產(chǎn)生的那一刻起就一直存在,信息技術(shù)是基于信息的,而信息是來(lái)自于數(shù)據(jù)的。數(shù)據(jù)挖掘,數(shù)據(jù)倉(cāng)庫(kù),商務(wù)智能已經(jīng)被眾多企業(yè)實(shí)施了很多年,并且在很多年以前就承諾要幫助業(yè)務(wù)獲得更多的價(jià)值。但是我們也聽(tīng)到了很多企業(yè)在實(shí)施商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中的挑戰(zhàn)。我們經(jīng)常聽(tīng)到企業(yè)實(shí)施數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能項(xiàng)目的失敗率超過(guò)50%甚至70%。就像JeffSmith(IBM的首席信息官所說(shuō))“數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能系統(tǒng)占據(jù)了CIO預(yù)算中的巨大的部分,并沒(méi)有產(chǎn)生對(duì)應(yīng)的業(yè)務(wù)價(jià)值”是什么導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能解決方案不適用于現(xiàn)在的情況了呢?我們可以從行業(yè)經(jīng)典的數(shù)據(jù)挖掘的方法論(CISP-DM)開(kāi)始探討。 CRISP-DM是一種廣泛采用的數(shù)據(jù)挖掘分析方法論,由SPSS、Teradata等公司起草于1999年發(fā)布第一版。該方法將一個(gè)數(shù)據(jù)分析項(xiàng)目分為業(yè)務(wù)理解(Business Understanding)、數(shù)據(jù)理解(DataUnderstanding)、數(shù)據(jù)準(zhǔn)備(Data Preparation)、建模(Modeling)、驗(yàn)證(Evaluation)、部署(Deployment)等6個(gè)階段(如下圖所示)的迭代過(guò)程。 對(duì)多數(shù)數(shù)據(jù)分析工作來(lái)說(shuō),人們并不希望上述反復(fù)交替的過(guò)程,因?yàn)榉磸?fù)交替意味著工作的重復(fù)和低效。而這種現(xiàn)象出現(xiàn)在公認(rèn)的標(biāo)準(zhǔn)中,是因?yàn)榉治鲞^(guò)程存在極大的不確定性,這樣的反復(fù)往往是不可避免的。 長(zhǎng)期以來(lái),很多人用 CRISP-DM 指導(dǎo)工業(yè)大數(shù)據(jù)分析的過(guò)程。在很多場(chǎng)景下,這個(gè)模型的原理是可行的、行之有效的,但是當(dāng)我們把它用于工業(yè)過(guò)程數(shù)據(jù)分析時(shí),卻發(fā)現(xiàn)問(wèn)題的復(fù)雜度會(huì)急劇上升,各個(gè)步驟中反復(fù)的次數(shù)大大增加,驗(yàn)證評(píng)估不合格導(dǎo)致從頭再來(lái)的情況非常普遍。這些現(xiàn)象,導(dǎo)致工業(yè)大數(shù)據(jù)分析工作的效率顯著下降。 CRISP-DM 模型在工業(yè)領(lǐng)域的應(yīng)用遇到一些問(wèn)題,造成了該模型落地困難,主要的難點(diǎn)表現(xiàn)在以下三個(gè)方面: 1)工業(yè)數(shù)據(jù)關(guān)聯(lián)關(guān)系復(fù)雜 無(wú)論是生產(chǎn)產(chǎn)品的工廠還是作為工業(yè)產(chǎn)品的設(shè)備,本質(zhì)上都是多個(gè)要素互相作用所組成的系統(tǒng),而它們的運(yùn)行環(huán)境,也可以看成更大的系統(tǒng)。所以,我們可以用系統(tǒng)的觀點(diǎn),統(tǒng)一地看待工業(yè)大數(shù)據(jù)所針對(duì)的工業(yè)對(duì)象。 研究一個(gè)工業(yè)系統(tǒng),要把注意力集中在多個(gè)要素互相影響、互相作用,否則只會(huì)得到片面甚至錯(cuò)誤的結(jié)論。正如列寧所言:“如果不是從整體上、不是從聯(lián)系中掌握事實(shí);如果事實(shí)是零碎和隨意挑出來(lái)的,那它們就只能是一種兒戲,或者連兒戲也不如?!?/p> 2) 工業(yè)數(shù)據(jù)質(zhì)量差 從某種意義上說(shuō),工業(yè)大數(shù)據(jù)是工業(yè)系統(tǒng)在數(shù)字空間的映像。要想通過(guò)數(shù)據(jù)認(rèn)識(shí)工業(yè)對(duì)象或過(guò)程,數(shù)據(jù)本身應(yīng)該體現(xiàn)對(duì)象的系統(tǒng)性。然而受到現(xiàn)實(shí)條件的約束,數(shù)據(jù)往往是工業(yè)對(duì)象不完整的體現(xiàn)。而且很多數(shù)據(jù)來(lái)源于某些特定的工作點(diǎn)上,參數(shù)波動(dòng)中包含大量檢測(cè)誤差、數(shù)據(jù)的信噪比低。這就給數(shù)據(jù)分析過(guò)程帶來(lái)了極大的不確定性、并容易對(duì)分析過(guò)程產(chǎn)生誤導(dǎo)。 3) 工業(yè)場(chǎng)景的分析要求高 工業(yè)界對(duì)不確定性的容忍度很低,這就要求數(shù)據(jù)分析結(jié)果盡可能地準(zhǔn)確可靠。分析要求高而數(shù)據(jù)條件差、對(duì)象復(fù)雜性高是分析過(guò)程中必須面對(duì)的矛盾。在數(shù)據(jù)分析的過(guò)程中,這一矛盾表現(xiàn)為容易出現(xiàn)各種假象和干擾、分析結(jié)果總是難以滿足用戶的使用需求等。要解決這些矛盾,必須將工業(yè)過(guò)程的領(lǐng)域?qū)I(yè)知識(shí)、業(yè)務(wù)機(jī)理與數(shù)據(jù)分析過(guò)程有機(jī)地融合起來(lái),貫穿于數(shù)據(jù)分析的每一個(gè)階段,這也使得工業(yè)大數(shù)據(jù)對(duì)業(yè)務(wù)理解的深度有較高的要求。 CRISP-DM 方法基本適合工業(yè)大數(shù)據(jù)分析,但必須補(bǔ)充進(jìn)新的內(nèi)涵才能讓方法有效、讓工業(yè)大數(shù)據(jù)分析成為有效的經(jīng)濟(jì)活動(dòng)。如前所述,工業(yè)大數(shù)據(jù)分析過(guò)程的效率低下,很可能是大量無(wú)效的循環(huán)往復(fù)導(dǎo)致的。所以,工業(yè)大數(shù)據(jù)分析方法的關(guān)鍵,是如何減少不必要的反復(fù)、提高數(shù)據(jù)分析的效率。 在工業(yè)大數(shù)據(jù)分析過(guò)程中用好 CRISP-DM,關(guān)鍵是減少上下步驟之間的反復(fù)、避免單向箭頭變成雙向,還尤其是要盡量減少模型驗(yàn)證失敗后重新進(jìn)入業(yè)務(wù)理解這樣大的反復(fù)。 減少無(wú)效反復(fù)的重要辦法是采用工程上常見(jiàn)的“以終為始”的思維方式。在進(jìn)行深入研究之前,要進(jìn)行一個(gè)相對(duì)全面的調(diào)研,從如何 應(yīng)用、如何部署開(kāi)始,反推需要進(jìn)行的研究。 “反復(fù)”是探索過(guò)程的特點(diǎn)以及知識(shí)和信息不足導(dǎo)致的。數(shù)據(jù)分析是一個(gè)探索知識(shí)的過(guò)程,不可能徹底消除這種現(xiàn)象。所以,我們需要追求的,是減少不必要的探索。其中,“不必要的探索”一般是由于數(shù)據(jù)分析人員沒(méi)有充分掌握已有的領(lǐng)域知識(shí)和相關(guān)信息導(dǎo)致的。所以,要減少不必要的探索,關(guān)鍵是數(shù)據(jù)分析知識(shí)和領(lǐng)域知識(shí)、相關(guān)信息的有機(jī)結(jié)合。 實(shí)際分析工作中又不能假設(shè)或者要求數(shù)據(jù)分析人員事先對(duì)這些知識(shí)和信息有著充分的理解。所以,要解決這個(gè)問(wèn)題,關(guān)鍵是設(shè)法讓分析師在分析的過(guò)程中,更加主動(dòng)、有針對(duì)性地補(bǔ)充相關(guān)知識(shí),即所謂“人在環(huán)上”。 最后,要努力提高數(shù)據(jù)分析的自動(dòng)化程度,充分利用計(jì)算機(jī)的計(jì)算和存儲(chǔ)能力、減少人為的介入。由于人的介入能夠使得分析效率大大降低,減少人的介入,也就能大大提高工作的效率。 CRISP-DM 模型在工業(yè)大數(shù)據(jù)的中的應(yīng)用推進(jìn),主要分以下幾個(gè)階段: 1) 業(yè)務(wù)理解階段:該階段的目標(biāo)是明確業(yè)務(wù)需求和數(shù)據(jù)分析的目標(biāo),將模糊的用戶需求轉(zhuǎn)化成明確的分析問(wèn)題,必須清晰到計(jì)劃采取什么手段、解決什么問(wèn)題,要將每一個(gè)分析問(wèn)題,細(xì)化成明確的數(shù)學(xué)問(wèn)題,同時(shí)基于業(yè)務(wù)理解制定分析項(xiàng)目的評(píng)估方案。 2) 數(shù)據(jù)理解階段:該階段是目標(biāo)建立數(shù)據(jù)和業(yè)務(wù)的關(guān)聯(lián)關(guān)系,從數(shù)據(jù)的角度去深度的解讀業(yè)務(wù)。包括發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測(cè)引起興趣的子集去形成隱含信息的假設(shè);識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題;對(duì)數(shù)據(jù)進(jìn)行可視化探索等。 3) 數(shù)據(jù)準(zhǔn)備階段:該階段的目標(biāo)是為數(shù)據(jù)的建模分析提供干凈、有效的輸入數(shù)據(jù)源。首先基于業(yè)務(wù)目標(biāo)篩選有效數(shù)據(jù),篩選的數(shù)據(jù)能夠表征業(yè)務(wù)問(wèn)題的關(guān)鍵影響因素;其次對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行檢查和處理,處理數(shù)據(jù)的缺失情況、異常情況等;最后對(duì)數(shù)據(jù)進(jìn)行歸約、集成變換等,輸出建模可用的數(shù)據(jù)源。 4) 數(shù)據(jù)建模階段:該階段是基于業(yè)務(wù)和數(shù)據(jù)的理解,選擇合適的算法和建模工具,對(duì)數(shù)據(jù)中的規(guī)律進(jìn)行固化、提取,最后輸出數(shù)據(jù)分析模型。首先基于業(yè)務(wù)經(jīng)驗(yàn)、數(shù)據(jù)建模經(jīng)驗(yàn)、對(duì)業(yè)務(wù)問(wèn)題進(jìn)行邏輯化描述,探索解決問(wèn)題的算法,反復(fù)迭代選擇一個(gè)最優(yōu)算法方案;其次基于輸入數(shù)據(jù)來(lái)加工關(guān)鍵的因子的特征變量,作為建模輸入變量,建立有效可靠的數(shù)據(jù)模型。 5) 模型的驗(yàn)證和評(píng)估階段:首先從業(yè)務(wù)的角度評(píng)估模型的精度問(wèn)題,是否能夠滿足現(xiàn)有業(yè)務(wù)的要求;其次分析模型的中影響因子的完備性,為模型的下一步迭代指明優(yōu)化路徑;最后考察模型的假設(shè)條件,是否滿足實(shí)際落地的條件,為模型的部署進(jìn)行可行性驗(yàn)證。 6) 模型的部署階段:在該階段中,首先要基于分析目標(biāo),制定模型的使用方案和部署方案,并提前為模型的部署做好環(huán)境的準(zhǔn)備工作;其次為模型部署過(guò)程中出現(xiàn)的質(zhì)量問(wèn)題、運(yùn)行問(wèn)題、精度問(wèn)題等,提前做好預(yù)備方案; 最后基于模型試運(yùn)行后的結(jié)果,制定模型的持續(xù)優(yōu)化方案。 寄語(yǔ) 隨著國(guó)家政策激勵(lì)以及工業(yè)大數(shù)據(jù)應(yīng)用模式的逐步成熟,工業(yè)大數(shù)據(jù)進(jìn)入快速發(fā)展時(shí)期,未來(lái)中國(guó)工業(yè)大數(shù)據(jù)市場(chǎng)將持續(xù)快速增長(zhǎng)。 工業(yè)大數(shù)據(jù)技術(shù)產(chǎn)品創(chuàng)新正逐漸從技術(shù)驅(qū)動(dòng)轉(zhuǎn)向應(yīng)用驅(qū)動(dòng),廣闊的市場(chǎng)空間和大量的應(yīng)用需求為工業(yè)大數(shù)據(jù)發(fā)展提供了強(qiáng)大的驅(qū)動(dòng)力。 工業(yè)大數(shù)據(jù)將成為推動(dòng)制造業(yè)創(chuàng)新發(fā)展的重要基礎(chǔ),為中國(guó)的工業(yè)升級(jí)和轉(zhuǎn)型注入強(qiáng)大動(dòng)力。企業(yè)在新技術(shù)條件下,實(shí)現(xiàn)貫穿于產(chǎn)品設(shè)計(jì)、生產(chǎn)、管理、倉(cāng)儲(chǔ)、物流、服務(wù)等全部流程和環(huán)節(jié)的大數(shù)據(jù)采集、存儲(chǔ)、管理和分析,從大數(shù)據(jù)中挖掘出其中的隱含價(jià)值,達(dá)到提升生產(chǎn)效率、提高產(chǎn)品質(zhì)量、增強(qiáng)管理能力、降低生產(chǎn)成本等目的,提升了企業(yè)生產(chǎn)力、競(jìng)爭(zhēng)力和創(chuàng)新力。 伴隨著工業(yè)大數(shù)據(jù)分析技術(shù)的逐漸成熟、產(chǎn)業(yè)領(lǐng)域的逐漸成型、應(yīng)用場(chǎng)景的不斷延伸、觀念意識(shí)的不斷深化,工業(yè)大數(shù)據(jù)必將迎來(lái)高速發(fā)展的歷史階段。我們抓住發(fā)展機(jī)遇,努力推動(dòng)中國(guó)工業(yè)大數(shù)據(jù)的發(fā)展,針對(duì)企業(yè)的個(gè)性需求,結(jié)合中國(guó)工業(yè)發(fā)展的自身特點(diǎn),走出中國(guó)特色的工業(yè)大數(shù)據(jù)創(chuàng)新路線。 |
|
|
來(lái)自: 阿明哥哥資料區(qū) > 《51.智慧工廠.精益生產(chǎn)》