|
限時(shí)干貨下載: 回復(fù)【2】免費(fèi)獲取【超全數(shù)據(jù)分析資料免費(fèi)下載(包含SQL,R語言,SPSS,SAS,python,數(shù)據(jù)挖掘)!】 本篇文章主要是繼續(xù)上兩篇Microsoft決策樹分析算法和Microsoft聚類分析算法后(可在“歷史消息”中查看),采用另外更為簡(jiǎn)單一種分析算法對(duì)目標(biāo)顧客群體的挖掘,同樣的利用微軟案例數(shù)據(jù)進(jìn)行簡(jiǎn)要總結(jié)。有興趣的同學(xué)可以先參照上面兩種算法過程。 應(yīng)用場(chǎng)景介紹 通過前面兩種算法的應(yīng)用場(chǎng)景介紹,此次總結(jié)的Microsoft Naive Bayes 算法也同樣適用,但本篇的Microsoft Naive Bayes算法較上兩種算法跟簡(jiǎn)單,或者說更輕量級(jí)。 該算法使用貝葉斯定力,但是沒有將屬性間的依賴關(guān)系融入進(jìn)去,也就是跟簡(jiǎn)單的進(jìn)行預(yù)測(cè)分析,因此該假定成為理想化模型的假定,簡(jiǎn)單點(diǎn)說:貝葉斯算法就是通過歷史的屬性值進(jìn)行簡(jiǎn)單的兩種對(duì)立狀態(tài)的推算,而不會(huì)考慮歷史屬性值之間的關(guān)系,這也就造成了它預(yù)測(cè)結(jié)果的局限性,不能對(duì)離散或者連續(xù)值進(jìn)行預(yù)測(cè),只能對(duì)兩元值進(jìn)行預(yù)測(cè),比如:買/不買、是/否、會(huì)/不會(huì)等,汗..挺符合中國的易經(jīng)學(xué)中太極圖..凡事只有兩種狀態(tài)可以解釋,正所謂:太極生兩儀,兩儀生四相,四相生八卦...所以最簡(jiǎn)單的就是最易用的,也是速度最快的。 扯遠(yuǎn)了,具體算法明細(xì)可參照微軟官方解釋Microsoft Naive Bayes 算法 因?yàn)閷?duì)于上兩篇中的應(yīng)用場(chǎng)景,對(duì)買自行車的顧客群體進(jìn)行預(yù)測(cè),貝葉斯算法同樣也可以做到,反而更簡(jiǎn)潔,本篇咱們使用這種算法來預(yù)測(cè)下,并且看看這種算法它的優(yōu)越性有哪些。 技術(shù)準(zhǔn)備 (1)同樣我們利用微軟提供的案例數(shù)據(jù)倉庫(AdventureWorksDW2008R2),兩張事實(shí)表,一張已有的歷史購買自行車記錄的歷史,另外一張就是我們將要挖掘的收集過來可能發(fā)生購買自行車的人員信息表,可以參考上一篇文章 (2)VS、SQL Server、 Analysis Services沒啥可介紹的,安裝數(shù)據(jù)庫的時(shí)候全選就可以了。 下面我們進(jìn)入主題,同樣我們繼續(xù)利用上次的解決方案,依次步驟如下: (1)打開解決方案,進(jìn)入到“挖掘模型”模板 可以看到數(shù)據(jù)挖掘模型中已經(jīng)存在兩種分析算法,就是我們上兩篇文章分析用到的決策樹分析算法和聚類分析算法。我們繼續(xù)添加貝葉斯算法。、 2、右鍵單擊“結(jié)構(gòu)”列,選擇“新建挖掘模型”,輸入名稱即可 點(diǎn)擊確定,這時(shí)候會(huì)彈出一個(gè)提示框,我么看圖: 啥子意思?....上面我們已經(jīng)分析了貝葉斯算法作為最簡(jiǎn)單的兩元狀態(tài)預(yù)測(cè)算法,對(duì)于離散值或者連續(xù)值它是無能為力的,它單純的認(rèn)為這個(gè)世界只有兩種狀態(tài),那就是是或者非,上圖中標(biāo)識(shí)的這兩列年齡、年收入很明顯為離散的屬性值,所以它是給忽略的。點(diǎn)擊“是”即可。 這樣我們新建立的貝葉斯分析算法就會(huì)增加在挖掘模型中,這里我們使用的主鍵和決策樹一樣,同樣的預(yù)測(cè)行為也是一樣的,輸入列也是,當(dāng)然可以更改。 下一步,部署處理該挖掘模型。 結(jié)果分析 同樣這里面我們采用“挖掘模型查看器”進(jìn)行查看,這里挖掘模型我們選擇“Clustering”,這里面會(huì)提供四個(gè)選項(xiàng)卡,下面我們依次介紹,直接曬圖: 這個(gè)展示面板可愛多了,集中了決策樹算法中的“依賴關(guān)系網(wǎng)絡(luò)”,聚類算法中的“屬性配置文件”、“屬性特征”、“屬性對(duì)比”;同樣也是這種算法的優(yōu)點(diǎn),簡(jiǎn)單的特征預(yù)測(cè),基于對(duì)立面的結(jié)果預(yù)測(cè),但也有它的缺點(diǎn),下面我們接著分析: 從依賴關(guān)系網(wǎng)絡(luò)中可以看到,現(xiàn)在影響購買自行車行為的依賴屬性最重要的是“家庭轎車的數(shù)量”、其次是“通勤距離”....當(dāng)年我們通過決策樹算法預(yù)測(cè)出來的最牛因素“年齡”,現(xiàn)在已經(jīng)沒了,汗...只是因?yàn)樗请x散型值,同樣年收入也一樣,這樣其實(shí)使得我們算法的精準(zhǔn)度會(huì)略有偏低,當(dāng)然該算法也有決策樹算法做不到的,我們來看“屬性配置文件”面板: 通過該面板我們已經(jīng)可以進(jìn)行群體特征分析,這一點(diǎn)是決策樹分析算法做不到的,當(dāng)然這是聚類分析算法的特點(diǎn),上面圖片中含義就能看到了家里有1個(gè)或者沒有小汽車購買自行車的意愿更大一點(diǎn)。其它的分析方法類似,具體可以參照我的上一篇聚類分析算法總結(jié)。 “屬性特征”和“屬性對(duì)比”兩個(gè)面板結(jié)果分析也是繼承與聚類分析算法一樣,上一篇文章我們已經(jīng)詳細(xì)介紹了,下面只是切圖曬曬: 是吧,家里沒有孩子、在北美的、一般行駛距離在1Miles(公里?)以內(nèi)的同志比較想買自行車。 家里沒有小汽車...通常會(huì)買自行車傾向于1,如果有2輛了基本就不買了傾向于0,汗...常識(shí)...其它就不分析了。 下面我們看一下這種算法對(duì)于咱們購買自行車群體預(yù)測(cè)行為的準(zhǔn)確性怎么樣 準(zhǔn)確性驗(yàn)證 最后我們來驗(yàn)證一下今天這個(gè)貝葉斯分析算法的準(zhǔn)確性如何,和上兩篇文章中的決策樹算法、聚類分析算法有何差距,我們點(diǎn)擊進(jìn)入數(shù)據(jù)挖掘準(zhǔn)確性圖表: 可以看到,此次用的貝葉斯分析算法評(píng)分已經(jīng)出來了,僅次于決策樹算法,依次排名為:決策樹分析算法、貝葉斯分析算法、聚類分析算法??磥砗?jiǎn)單的貝葉斯分析算法并不簡(jiǎn)單,雖然它摒棄掉了兩大屬性值:年齡、年收入,而且其中年齡屬性通過決策樹分析算法分析還是比較重要的一個(gè)屬性,貝葉斯無情的拋棄之后,依然以0.78分的優(yōu)勢(shì)遠(yuǎn)遠(yuǎn)勝于聚類分析算法!而且上面的分析可以看到它還具有聚類分析算法特長(zhǎng)項(xiàng),比如:特征分析、屬性對(duì)比等利器。 到此通過三種分析算法的評(píng)比,我們好像已經(jīng)看到了適合我們這種應(yīng)用需求的最優(yōu)的分析算法,每種算法的評(píng)比,通過上的曲線圖已經(jīng)輕易的展現(xiàn)出來來了,當(dāng)然咱們今天的這篇Miscrosoft貝葉斯分析算法也應(yīng)該結(jié)束了。 <------------------------------------------------------------華麗分割線------------------------------------------------------------------------------------------> 但是.......我記得上次寫聚類分析算法的時(shí)候,我無意間提到過,如果將國內(nèi)IT從業(yè)人員和非IT從業(yè)人員根據(jù)性別屬性進(jìn)行預(yù)測(cè)的話...結(jié)果將會(huì)是不寒而栗!你懂得,那我們推測(cè)下這里買不買自行車會(huì)不會(huì)也與性別有關(guān)呢?通常男孩子比較喜歡騎自行車...嗯..我是說通常...那么結(jié)果呢...我們來看: 我們利用上圖中打分最高的決策樹分析算法來推測(cè)我們的問題,我們?cè)凇蓖诰蚰P汀敝杏益I選擇新建模型,選擇決策樹分析算法,我們起個(gè)名字:
點(diǎn)擊確定,我們已經(jīng)將使用決策樹分析算法分析男性購買自行車的概率,然后在該算法結(jié)構(gòu)上右鍵,選擇“設(shè)置模型篩選器”。我們來設(shè)置篩選過濾條件為:M,即為男銀
我們利用想用的方法繼續(xù)建立women(女銀)的決策樹挖掘算法,下面看圖:
這里就不不過多解釋了,我們直接驗(yàn)證結(jié)果,來看看我們上面的推斷有沒有意義。 下面看圖:
....額...額...e...表激動(dòng)...我那個(gè)去...上面根據(jù)性別的進(jìn)行區(qū)分的預(yù)測(cè)模型結(jié)果已經(jīng)出來了,從打分上看,Man(男銀)的決策樹已經(jīng)能和全部的事例結(jié)果相聘美,都是0.71...這也就是說明我們只需要對(duì)男人的群體進(jìn)行預(yù)測(cè)就可以得到全部市場(chǎng)的規(guī)律..而不需要花費(fèi)精力去研究全部......但是Women(女銀)的分?jǐn)?shù)直接飆升到0.84....汗...在這幾種挖掘算法中利用決策樹算法對(duì)于Women這個(gè)群體進(jìn)行預(yù)測(cè),結(jié)果的精準(zhǔn)度竟然達(dá)到如此之高!這個(gè)模型的存在直接秒殺了其它的任何一種分析算法,神馬聚類、貝葉斯都是浮云....浮云而已。 通過上面的分析,我們已經(jīng)確立了我們的推斷,男性和女性同志在想不想購買自行車這件事情上是有群體差異的,并不是只通過分析全部的事實(shí)就可以得到,當(dāng)然本身而言就男性和女性這兩種地球上特有的物種在行為和特征上就有較大的差距,對(duì)于買不買自行車當(dāng)然也不會(huì)相同,呵呵...至少大米國是這樣,上面的圖表驗(yàn)證這一說法!所以對(duì)于不同的行為預(yù)測(cè)我們可以針對(duì)性別來分別挖掘,這樣我們挖掘后得到的推測(cè)值將更接近事實(shí)。 有興趣可以對(duì)是否結(jié)婚兩種群體進(jìn)行分析挖掘,看看結(jié)不結(jié)婚和買不買自行車有沒有關(guān)系。 后記 好了,本篇文章到此可以結(jié)束了,下一篇我們將利用前三篇數(shù)據(jù)挖掘算法分析結(jié)果將將要購買自行車的群體的從客戶表中挖掘出來,用他們來達(dá)到精準(zhǔn)營(yíng)銷的目的。 來源:數(shù)據(jù)挖掘DW(datadw) |
|
|