电竞比分网-中国电竞赛事及体育赛事平台

分享

算法模型案例分析:通過簡(jiǎn)單的Hadoop解決并行算法

 昵稱16619343 2017-10-25 發(fā)布于湖北

這里我使用”Mahout In Action”書里,第一章第六節(jié)介紹的分步式基于物品的協(xié)同過濾算法進(jìn)行實(shí)現(xiàn)。Chapter 6: Distributing recommendation computations

測(cè)試數(shù)據(jù)集:small.csv

1,101,5.0

1,102,3.0

1,103,2.5

2,101,2.0

2,102,2.5

2,103,5.0

2,104,2.0

3,101,2.0

3,104,4.0

3,105,4.5

3,107,5.0

4,101,5.0

4,103,3.0

4,104,4.5

4,106,4.0

5,101,4.0

5,102,3.0

5,103,2.0

5,104,4.0

5,105,3.5

5,106,4.0

每行3個(gè)字段,依次是用戶ID,電影ID,用戶對(duì)電影的評(píng)分(0-5分,每0.5為一個(gè)評(píng)分點(diǎn)!)

算法的思想:

1. 建立物品的同現(xiàn)矩陣

2. 建立用戶對(duì)物品的評(píng)分矩陣

3. 矩陣計(jì)算推薦結(jié)果

1). 建立物品的同現(xiàn)矩陣

按用戶分組,找到每個(gè)用戶所選的物品,單獨(dú)出現(xiàn)計(jì)數(shù)及兩兩一組計(jì)數(shù)。

[101] [102] [103] [104] [105] [106] [107]

[101] 5 3 4 4 2 2 1

[102] 3 3 3 2 1 1 0

[103] 4 3 4 3 1 2 0

[104] 4 2 3 4 2 2 1

[105] 2 1 1 2 2 1 1

[106] 2 1 2 2 1 2 0

[107] 1 0 0 1 1 0 1

2). 建立用戶對(duì)物品的評(píng)分矩陣

按用戶分組,找到每個(gè)用戶所選的物品及評(píng)分

U3

[101] 2.0

[102] 0.0

[103] 0.0

[104] 4.0

[105] 4.5

[106] 0.0

[107] 5.0

3). 矩陣計(jì)算推薦結(jié)果

同現(xiàn)矩陣*評(píng)分矩陣=推薦結(jié)果

MapReduce任務(wù)設(shè)計(jì)

解讀MapRduce任務(wù):

步驟1: 按用戶分組,計(jì)算所有物品出現(xiàn)的組合列表,得到用戶對(duì)物品的評(píng)分矩陣

步驟2: 對(duì)物品組合列表進(jìn)行計(jì)數(shù),建立物品的同現(xiàn)矩陣

步驟3: 合并同現(xiàn)矩陣和評(píng)分矩陣

步驟4: 計(jì)算推薦結(jié)果列表

假如對(duì)于大數(shù)據(jù)開發(fā)感興趣可以加入大數(shù)據(jù)菜鳥學(xué)習(xí)群 675590728 進(jìn)行交流

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多