电竞比分网-中国电竞赛事及体育赛事平台

分享

BI 基礎(chǔ)知識(shí) 一

 愛生活0303 2013-12-02

BI (Business Intelligence 商業(yè)智能)

商業(yè)智能產(chǎn)品及解決方案大致可分為數(shù)據(jù)倉庫產(chǎn)品、數(shù)據(jù)抽取產(chǎn)品、OLAP產(chǎn)品、展示產(chǎn)品、和集成以上幾種產(chǎn)品的針對某個(gè)應(yīng)用的整體解決方案等。商業(yè)智能的技術(shù)體系主要有數(shù)據(jù)倉庫(DW)、在線分析處理(OLAP)以及數(shù)據(jù)挖掘(DM)三部分組成。數(shù)據(jù)倉庫是商業(yè)智能的基礎(chǔ),許多基本報(bào)表可以由此生成,但它更大的用處是作為進(jìn)一步分析的數(shù)據(jù)源。所謂數(shù)據(jù)倉庫(DW)就是面向主題的、集成的、穩(wěn)定的、 不同時(shí)間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。多維分析和數(shù)據(jù)挖掘是最常聽到的例子,數(shù)據(jù)倉庫能供給它們所需要的、整齊一致的數(shù)據(jù)。在線分析處理(OLAP)技術(shù)則幫助分析人員、管理人員從多種角度把從原始數(shù)據(jù)中轉(zhuǎn)化出來、能夠真正為用戶所理解的、并真實(shí)反映數(shù)據(jù)維特性的信息,進(jìn)行快速、一致、交互地訪問,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。
數(shù)據(jù)挖掘(DM)是一種決策支持過程,它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策.

根據(jù)BI解決方案的體系結(jié)構(gòu),一個(gè)完整的BI應(yīng)用需要ETL工具、數(shù)據(jù)倉庫管理工具、OLAP工具、數(shù)據(jù)挖掘工具和報(bào)表查詢工具5種工具協(xié)同工作.

 微軟的 Microsoft SQL SERVER2008 平臺(tái)(包含 SQL SERVER Business Intelligence、Analysis Services、Integration Services、Reporting Services)都可以實(shí)現(xiàn)。

 ETLSQL Server 2008 Integration Services;

數(shù)據(jù)倉庫:SQL Server 2008 Database Engine;

聯(lián)機(jī)分析處理OLAPSQL Server 2008 Analysis Services;

數(shù)據(jù)挖掘模型:SQL Server 2008 Analysis Services;

多維數(shù)據(jù)分析(B/S)Performance Point Server Analystic;OWC;

多維數(shù)據(jù)分析(C/S)Excel 2007/2010;

報(bào)表:SQL Server 2008 Reporting Services ;

 

構(gòu)建多維數(shù)據(jù)集

Analysis Services數(shù)據(jù)庫的建設(shè)是后面工作的基礎(chǔ),因?yàn)樗鼘⒅苯記Q定數(shù)據(jù)倉庫、前端展現(xiàn)和ETL的設(shè)計(jì)。

Analysis Services數(shù)據(jù)庫的設(shè)計(jì)需要注意以下幾個(gè)方面:
            1.盡量保證量度不包含任何實(shí)際的意義。

        這一點(diǎn)怎樣理解,例如,有時(shí)我們會(huì)將收入、成本、費(fèi)用設(shè)置為不同的量度,這在以后的擴(kuò)展方面會(huì)存在一定的問題。而應(yīng)該將設(shè)置一個(gè)維度稱為指標(biāo)(其中包括這三個(gè)成員),而設(shè)置一個(gè)量度稱為金額。關(guān)于這種設(shè)計(jì)的優(yōu)勢我會(huì)在以后的帖子中詳細(xì)說明。
            2.盡量將KPI和計(jì)算成員設(shè)置在Analysis Services數(shù)據(jù)庫中,而不要設(shè)置在前端展現(xiàn)軟件中,這樣可以減少計(jì)算成員的設(shè)置數(shù)量,同時(shí)也易于維護(hù)。
            3.在盡可能的應(yīng)用腳本功能。在Analysis Services數(shù)據(jù)庫中你可以使用腳本功能實(shí)現(xiàn)很多強(qiáng)大的功能,包括計(jì)算成員的設(shè)置、聚合的函數(shù)、度量的匯總和格式的設(shè)置等等。
            4.創(chuàng)建標(biāo)準(zhǔn)的維度。每一個(gè)維度都要按照要求創(chuàng)建成標(biāo)準(zhǔn)的維度,例如主鍵必須為整型、包括排序鍵以及自定義匯總列等等,這樣在后期擴(kuò)展功能時(shí)會(huì)非常方便。
         5.首先創(chuàng)建一個(gè)大而全的多維數(shù)據(jù)集,然后再通過透視圖切分成小的多維數(shù)據(jù)集,這樣可以減少存儲(chǔ)和維護(hù)量。

在完成多維數(shù)據(jù)集的創(chuàng)建之后,我們需要根據(jù)多維數(shù)據(jù)集生成數(shù)據(jù)倉庫,在生成數(shù)據(jù)倉庫之后,我們需要在數(shù)據(jù)倉庫中填充測試數(shù)據(jù),來實(shí)現(xiàn)對多維數(shù)據(jù)集的測試。

包是一個(gè)有組織的集合,其中可包括連接、控制流元素、數(shù)據(jù)流元素、事件處理程序、變量和配置,您可使用 SQL ServerIntegration Services 提供的圖形設(shè)計(jì)工具或以編程生成方式將這些對象組合到包中。然后,您可將完成的包保存到 SQL Server、SSIS 包存儲(chǔ)區(qū)或文件系統(tǒng)中。

商業(yè)智能體系結(jié)構(gòu)及構(gòu)建過程:

1、)識(shí)別和確定數(shù)據(jù)源;

一個(gè)完整的商業(yè)智能體系架構(gòu)圖例如下所示:

2、)對數(shù)據(jù)進(jìn)行集成和存儲(chǔ)管理。數(shù)據(jù)集成可以分為“懶散型”和“急切型”數(shù)據(jù)集成。懶散型數(shù)據(jù)集成一般應(yīng)用在數(shù)據(jù)庫系統(tǒng)中,其顯著特征是集成發(fā)生在查詢產(chǎn)生之后。用戶提出以個(gè)查詢后,系統(tǒng)確定查詢所需的數(shù)據(jù)來源,為每個(gè)來源產(chǎn)生子查詢和命令,然后從數(shù)據(jù)源中獲取信息,執(zhí)行一定的轉(zhuǎn)換、過濾和合并后把最終結(jié)果返回給用戶。數(shù)據(jù)在查詢出現(xiàn)后才從原始資料中提取。急切型數(shù)據(jù)集成通常出現(xiàn)在數(shù)據(jù)倉庫計(jì)算中,它是提前預(yù)測用戶的需求,把可能會(huì)被用的的數(shù)據(jù)提前從數(shù)據(jù)源中抽取出來,同樣經(jīng)過轉(zhuǎn)換、過濾以及其他信息的合并,然后存儲(chǔ)在集中的數(shù)據(jù)倉庫中。當(dāng)以個(gè)查詢出現(xiàn)后,直接在倉庫中運(yùn)行,不需要進(jìn)入最初的數(shù)據(jù)源系統(tǒng)中區(qū),這種急切型的數(shù)據(jù)集成方法使數(shù)據(jù)倉庫中存儲(chǔ)著大量經(jīng)過預(yù)先計(jì)算的總計(jì)數(shù)據(jù)和累加數(shù)據(jù),在查詢時(shí)能顯著加快查詢速度,滿足用戶對響應(yīng)時(shí)間的需求。

3、)數(shù)據(jù)分析與建模。商業(yè)智能建立的本質(zhì)目的是獲取高投資回報(bào)率(ROI),投資回報(bào)主要體現(xiàn)在商業(yè)智能的應(yīng)用狀況上。通過數(shù)據(jù)分析和建模將數(shù)據(jù)轉(zhuǎn)化為信息,通常由數(shù)據(jù)分析工具負(fù)責(zé)完成。在商業(yè)智能系統(tǒng)中,交互式信息分析、挖掘工具、數(shù)據(jù)分析軟件、商業(yè)智能工具和商業(yè)運(yùn)營規(guī)則相結(jié)合對數(shù)據(jù)的模式和趨勢進(jìn)行分析,提供給用戶企業(yè)商戶的方方面面的詳細(xì)信息。

商業(yè)智能核心技術(shù)

構(gòu)建一個(gè)完整的商業(yè)智能系統(tǒng)涉及到的幾個(gè)核心技術(shù):

1、)數(shù)據(jù)倉庫技術(shù):數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、穩(wěn)定的、包含歷史數(shù)據(jù)的數(shù)據(jù)集合。它用于支持管理中的決策指定過程。數(shù)據(jù)倉庫系統(tǒng)是對數(shù)據(jù)的處理技術(shù)的集成,而商業(yè)智能系統(tǒng)的核心是解決商業(yè)問題,它是把數(shù)據(jù)處理技術(shù)和商務(wù)規(guī)則相結(jié)合提高商業(yè)利潤減少商業(yè)風(fēng)險(xiǎn),是數(shù)據(jù)倉庫技術(shù)、商業(yè)規(guī)則、決策處理技術(shù)相結(jié)合。

2、)數(shù)據(jù)挖掘技術(shù)(DM):指從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關(guān)系,通常是采用機(jī)器自動(dòng)識(shí)別方式處理。數(shù)據(jù)挖掘技術(shù)中常用的數(shù)據(jù)模型有:

a、)分類模型,根據(jù)商業(yè)數(shù)據(jù)屬性將數(shù)據(jù)分配到不同的組中。

b、)關(guān)聯(lián)模型,主要描述一組數(shù)據(jù)項(xiàng)目中的密切度和關(guān)系。

c、)順序模型,分析數(shù)據(jù)倉庫中某類同時(shí)間相關(guān)的數(shù)據(jù),并發(fā)現(xiàn)某一段時(shí)間內(nèi)相關(guān)聯(lián)的數(shù)據(jù)處理模型。順序模型是特殊的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中加入了時(shí)間屬性。

d、)聚簇模型,當(dāng)要分析的數(shù)據(jù)缺少描述信息,或者無法組織成任何分類模型,則可以采用聚簇模型。聚簇模型是按照某種相近程度度量方法將用戶數(shù)據(jù)分成互不相同的一些分組。組中的數(shù)據(jù)相近,組之間的數(shù)據(jù)相差甚大。聚簇模型的核心是將某些明顯相近程度測量方法轉(zhuǎn)換為定量測試方法。

3、)聯(lián)機(jī)分析處理(OLAP)。它主要通過多維的方式來對數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表處理。于OLTP不同,OLTP主要用來完成用戶的事務(wù)處理,對響應(yīng)時(shí)間要求較高。而OLAP主要對用戶當(dāng)前或歷史數(shù)據(jù)進(jìn)行分析處理,輔助領(lǐng)導(dǎo)決策。

        

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多