騰訊QQ大數(shù)據(jù)：神盾推薦——MAB算法應(yīng)用總結(jié)

heii2 2018-07-14

展開(kāi)全文

1 問(wèn)題

1.1 某業(yè)務(wù)拉新場(chǎng)景—冷啟動(dòng)決策問(wèn)題

拉新場(chǎng)景是指在大流量業(yè)務(wù)場(chǎng)景中投放拉新業(yè)務(wù)的相關(guān)優(yōu)質(zhì)內(nèi)容，從而吸引用戶訪問(wèn)，快速增加用戶量。這個(gè)拉新場(chǎng)景需要從4千+專輯池(每日會(huì)加入一些新的物品)中挑選出兩個(gè)專輯投放給用戶，使用這兩個(gè)專輯來(lái)吸引新用戶，從而達(dá)到拉新的目的。由于是投放給新用戶，所以沒(méi)有歷史行為數(shù)據(jù)作為依據(jù)去推測(cè)該用戶喜歡什么。能夠依賴的數(shù)據(jù)包含專輯本身的特征，如：分類信息、更新時(shí)間等，用戶的畫(huà)像數(shù)據(jù)(達(dá)芬奇畫(huà)像維護(hù)和挖掘了用戶的基本畫(huà)像數(shù)據(jù))，如：年齡、性別、地域等。開(kāi)始時(shí)，我們使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型，如LR、FM等，將每日拉新用戶量做到了5千-1.1萬(wàn)。這里存在的問(wèn)題是，傳統(tǒng)機(jī)器學(xué)習(xí)非常依賴正負(fù)樣本的標(biāo)注。對(duì)于某些新物品，如果它從來(lái)沒(méi)有被曝光，那么它永遠(yuǎn)也不可能被標(biāo)記為正樣本，這對(duì)于新物品來(lái)講是不公平的，也是推薦領(lǐng)域不愿看到的現(xiàn)象。一種比較直接的做法是，保留一股流量專門(mén)用來(lái)做新物品的探索，但是這里又會(huì)有一些新的問(wèn)題產(chǎn)生，如：這股流量用多大？探索的時(shí)機(jī)該怎么把握？新物品中每一個(gè)物品曝光多少次、曝光給誰(shuí)是最合適的？如何保證整體收益是最大的，等等一系列問(wèn)題，而MAB(Multi-armed bandit problem，多臂老虎機(jī))方法正是解決這類決策問(wèn)題的。所以我們嘗試使用MAB的思想來(lái)解決新用戶和新物品的推薦問(wèn)題。事實(shí)證明，該方法是可靠的，使用MAB中的UCB算法之后，該拉新場(chǎng)景每日拉新量提高到最初base的2.3倍。

1.2 短視頻推薦結(jié)果多樣性控制

短視頻推薦場(chǎng)景的特點(diǎn)是在保質(zhì)的前提下，需要向用戶推薦有創(chuàng)意、多樣的、新鮮、熱點(diǎn)等不明確討厭的短視頻。從直觀的體驗(yàn)結(jié)合相關(guān)流水統(tǒng)計(jì)分析來(lái)看，用戶非常反感連續(xù)推薦同一主題的短視頻，所以需要使用一定的策略來(lái)對(duì)多樣性進(jìn)行控制，提高用戶體驗(yàn)，盡可能把用戶留下來(lái)。在騰訊內(nèi)部某短視頻推薦場(chǎng)景中，我們使用MAB中的Exp3算法來(lái)進(jìn)行多樣性控制。事實(shí)證明，Exp3用在探索新用戶的興趣場(chǎng)景下，與隨機(jī)、Thompson sampling等方法對(duì)比，視頻平均觀看時(shí)長(zhǎng)提升了10%，對(duì)于老用戶增加了推薦結(jié)果的多樣性，視頻平均觀看時(shí)長(zhǎng)略有提升。

2 神盾如何解決拉新場(chǎng)景的冷啟動(dòng)問(wèn)題

2.1 MAB如何解決決策問(wèn)題

在說(shuō)明神盾如何解決冷啟動(dòng)問(wèn)題前，這里先對(duì)MAB問(wèn)題做一個(gè)綜述性的介紹。

什么是MAB問(wèn)題？

MAB的定義非常有意思，它來(lái)源于賭徒去賭場(chǎng)賭博，搖老虎機(jī)的場(chǎng)景。一個(gè)賭徒打算去搖老虎機(jī)，走進(jìn)賭場(chǎng)一看，一排排老虎機(jī)，外表一模一樣，但是每個(gè)老虎機(jī)吐錢(qián)的概率可不一樣，他不知道每個(gè)老虎機(jī)吐錢(qián)的概率分布是什么，那么想最大化收益該怎么辦？這就是MAB(多臂賭博機(jī))問(wèn)題。怎么解決這個(gè)問(wèn)題呢？最好的辦法是有策略的試一試，越快越好，這些策略就是MAB算法。

推薦領(lǐng)域的很多問(wèn)題可以轉(zhuǎn)化為MAB問(wèn)題，例如：

1. 假設(shè)一個(gè)用戶對(duì)不同類別的內(nèi)容感興趣程度不同，那么我們的推薦系統(tǒng)初次見(jiàn)到這個(gè)用戶時(shí)，怎么快速地知道他對(duì)每類內(nèi)容的感興趣程度？這就是推薦系統(tǒng)的用戶冷啟動(dòng)問(wèn)題。

2. 在推薦場(chǎng)景中，往往會(huì)有多個(gè)算法或模型在線上做A/B Test，一般情況下我們會(huì)把流量按照一定比率來(lái)進(jìn)行分配，而在不同的時(shí)間點(diǎn)，不同的算法線上效果往往是不一致。我們期望每時(shí)每刻都能把占比大的流量分配給效果最好的算法。有沒(méi)有比A/B Test更合適的流量分配方法來(lái)讓業(yè)務(wù)的收益最大化？

可以看到全部都屬于選擇問(wèn)題。只要是關(guān)于選擇的問(wèn)題，都可以轉(zhuǎn)化成MAB問(wèn)題。在計(jì)算廣告和推薦系統(tǒng)領(lǐng)域，這個(gè)問(wèn)題又被稱為EE問(wèn)題（Exploit-Explore問(wèn)題）。Exploit意思是，用戶比較確定的興趣，要盡可能的使用。Explore意思是，要不斷探索用戶新的興趣，否則很快就會(huì)越推越窄。

MAB的數(shù)學(xué)表述：

A．設(shè)共有k個(gè)手柄（對(duì)應(yīng)拉新場(chǎng)景中的k個(gè)專輯）
B．k個(gè)手柄的回報(bào)分布<D1,D2,D3……Dk>（對(duì)應(yīng)拉新中，專輯推薦帶來(lái)的新用戶量的分布情況）
C．回報(bào)均值 u1,u2……uk（對(duì)應(yīng)每一個(gè)專輯在以前的實(shí)驗(yàn)的平均收益）
D．回報(bào)方差 v1,v2……vk（對(duì)應(yīng)每一個(gè)專輯每一次實(shí)驗(yàn)收益的穩(wěn)定性）
E．最佳手柄平均收益

F．T輪之后的Regret值，使用一定的算法策略使得其T輪之后最小

Rt是后悔值，T表示實(shí)驗(yàn)輪數(shù)，u*最佳手柄平均收益，ut表示t時(shí)刻，所選手柄的收益

MAB問(wèn)題目前常用算法：

1. 樸素選擇算法：其思想是對(duì)于每個(gè)手柄都進(jìn)行k次實(shí)驗(yàn)，選擇出平均收益最高的手柄。在之后的所有手柄選擇中都選擇這個(gè)最好的。

2. Epsilon-Greedy算法(小量貪婪算法)：每一輪在選擇手柄的時(shí)候按概率p選擇Explore（探索），按概率1-p選擇Exploit（歷史經(jīng)驗(yàn)）。對(duì)于Explore，隨機(jī)的從所有手柄中選擇一個(gè)；對(duì)于Exploit，從所有手柄中選擇平均收益最大的那個(gè)。

3. Softmax算法：該算法是在Epsilon-Greedy算法的基礎(chǔ)上改進(jìn)的，同樣是先選擇是Explore（探索）還是Exploit（原有）。對(duì)于Exploit階段，與Epsilon-Greedy算法一致。對(duì)于Explore，并不是隨機(jī)選擇手柄，而是使用Softmax函數(shù)計(jì)算每一個(gè)手柄被選中的概率。armi表示手柄i，ui表示手柄i的平均收益，k是手柄總數(shù)。

4. UCB(Upper Confidence Bound)算法：通過(guò)實(shí)驗(yàn)觀察，統(tǒng)計(jì)得到的手柄平均收益，根據(jù)中心極限定理，實(shí)驗(yàn)的次數(shù)越多，統(tǒng)計(jì)概率越接近真實(shí)概率。換句話說(shuō)當(dāng)實(shí)驗(yàn)次數(shù)足夠多時(shí)，平均收益就代表了真實(shí)收益。UCB算法使用每一個(gè)手柄的統(tǒng)計(jì)平均收益來(lái)代替真實(shí)收益。根據(jù)手柄的收益置信區(qū)間的上界，進(jìn)行排序，選擇置信區(qū)間上界最大的手柄。隨著嘗試的次數(shù)越來(lái)越多，置信區(qū)間會(huì)不斷縮窄，上界會(huì)逐漸逼近真實(shí)值。這個(gè)算法的好處是，將統(tǒng)計(jì)值的不確定因素，考慮進(jìn)了算法決策中，并且不需要設(shè)定參數(shù)。在選擇手柄時(shí)，一般使用如下兩個(gè)公式進(jìn)行選擇：

t表示t時(shí)刻或者t輪實(shí)驗(yàn)，arm(t)表示t時(shí)刻選擇的手柄， ui均值表示手柄i在以前實(shí)驗(yàn)中的平均收益，ni表示手柄i在以前實(shí)驗(yàn)中被選中的次數(shù)。α是(0,1)為超參數(shù)，用以控制探索部分的影響程度。

“選擇置信區(qū)間上界最大的手柄”這句話反映了幾個(gè)意思：

如果手柄置信區(qū)間很寬（被選次數(shù)很少，還不確定），那么它會(huì)傾向于被多次選擇，這個(gè)是算法冒風(fēng)險(xiǎn)的部分。

如果手柄置信區(qū)間很窄（被選次數(shù)很多，比較好確定其好壞了），那么均值大的傾向于被多次選擇，這個(gè)是算法保守穩(wěn)妥的部分。

UCB是一種樂(lè)觀的算法，選擇置信區(qū)間上界排序。如果是悲觀保守的做法，是選擇置信區(qū)間下界排序。

5. Thompson sampling：該算法跟UCB類似，Thompson sampling算法根據(jù)手柄的真實(shí)收益的概率分布來(lái)確定所選手柄。假設(shè)每個(gè)臂是否產(chǎn)生收益，其背后有一個(gè)概率分布，產(chǎn)生收益的概率為p。不斷地試驗(yàn)，去估計(jì)出一個(gè)置信度較高的概率p的概率分布就能近似解決這個(gè)問(wèn)題了。假設(shè)概率p的概率分布符合beta(wins, lose)分布，它有兩個(gè)參數(shù): wins, lose。每個(gè)臂都維護(hù)一個(gè)beta分布的參數(shù)。每次試驗(yàn)后，選中一個(gè)臂，搖一下，有收益則該臂的wins增加1，否則該臂的lose增加1。每次選擇臂的方式是：用每個(gè)臂現(xiàn)有的beta分布產(chǎn)生一個(gè)隨機(jī)數(shù)b，選擇所有臂產(chǎn)生的隨機(jī)數(shù)中最大的那個(gè)臂去搖。

以上算法優(yōu)缺點(diǎn)：

1. 樸素選擇算法需要為每一個(gè)手柄準(zhǔn)備合適次數(shù)的實(shí)驗(yàn)，用以計(jì)算每個(gè)手柄的平均收益，并不適合物品快速迭代的場(chǎng)景，同時(shí)會(huì)浪費(fèi)大量流量。

2. Epsilon-Greedy算法與Softmax算法有一個(gè)很明顯的缺陷是它們只關(guān)心回報(bào)是多少，并不關(guān)心每個(gè)手柄被拉下了多少次。這就意味著，這些算法不再會(huì)選中初始回報(bào)特別低的手柄，即使這個(gè)手柄的只被測(cè)試了一次。而UCB算法，不僅關(guān)注回報(bào)，同樣會(huì)關(guān)注每個(gè)手柄被探索的次數(shù)。Epsilon-Greedy and Softmax的特點(diǎn)，默認(rèn)選擇當(dāng)前已知的回報(bào)率最高的手柄，偶爾選擇那些沒(méi)有最高回報(bào)的手柄。

3. Thompson sampling。UCB算法部分使用概率分布（僅置信區(qū)間上界）來(lái)量化不確定性。而Thompson sampling基于貝葉斯思想，全部用概率分布來(lái)表達(dá)不確定性。相比于UCB算法，Thompson sampling，UCB采用確定的選擇策略，可能導(dǎo)致每次返回結(jié)果相同（不是推薦想要的），Thompson Sampling則是隨機(jī)化策略。Thompson sampling實(shí)現(xiàn)相對(duì)更簡(jiǎn)單，UCB計(jì)算量更大（可能需要離線/異步計(jì)算）。在計(jì)算機(jī)廣告、文章推薦領(lǐng)域，效果與UCB不相上下。

LinUCB算法：

以上介紹的MAB算法都沒(méi)有充分利用上下文信息，這里所說(shuō)的上下文信息包括用戶、物品以及其他相關(guān)環(huán)境相關(guān)的特征。而LinUCB算法是在UCB算法的基礎(chǔ)上使用用戶、物品以及其他相關(guān)環(huán)境相關(guān)的特征來(lái)進(jìn)行UCB打分。LinUCB算法做了一個(gè)假設(shè)：一個(gè)Item被選擇后推送給一個(gè)User，其回報(bào)和相關(guān)Feature成線性關(guān)系，這里的“相關(guān)Feature”就是上下文信息。于是預(yù)測(cè)過(guò)程就變成：用User和Item的特征預(yù)估回報(bào)及其置信區(qū)間，選擇置信區(qū)間上界最大的Item推薦，然后依據(jù)實(shí)際回報(bào)來(lái)更新線性關(guān)系的參數(shù)。

相關(guān)論文中(見(jiàn)附件)提出兩種計(jì)算辦法，這里將論文中算法偽代碼貼出來(lái)，方便大家閱讀，詳情請(qǐng)查閱附件論文。

2.2 神盾推薦如何使用UCB來(lái)解決拉新場(chǎng)景推薦問(wèn)題

神盾在UCB算法的基礎(chǔ)上，嘗試為其添加上下文環(huán)境信息，該環(huán)境信息主要包括用戶畫(huà)像、物品畫(huà)像、環(huán)境信息（時(shí)刻，節(jié)假日，網(wǎng)絡(luò)環(huán)境）等，因此將其命名為PUCB(Portrait Upper Confidence Bound)。該算法包括兩部分，第一部分使用用戶已有的行為數(shù)據(jù)生成物品在某些畫(huà)像特征下的UCB得分(該分?jǐn)?shù)綜合考慮物品的歷史平均收益和潛在收益)。第二部分使用預(yù)訓(xùn)練好的分類器，在對(duì)user-item pair打分時(shí)，將原有特征值替換為UCB打分，然后計(jì)算最終的打分。

UCB打分

數(shù)據(jù)準(zhǔn)備階段

圖 1 神盾PUCB-數(shù)據(jù)準(zhǔn)備階段示意圖

該階段的目的是確保使用用戶行為數(shù)據(jù)和畫(huà)像特征數(shù)據(jù)生成所需時(shí)間窗口下的【畫(huà)像，物品ID，行為統(tǒng)計(jì)數(shù)】。這部分神盾在實(shí)現(xiàn)時(shí)，考慮了一些容錯(cuò)機(jī)制，如：當(dāng)歷史時(shí)刻數(shù)據(jù)不存在時(shí)，是否可以根據(jù)已有時(shí)刻的行為數(shù)據(jù)和已有時(shí)刻的【畫(huà)像，物品ID，行為統(tǒng)計(jì)數(shù)】統(tǒng)計(jì)數(shù)據(jù)來(lái)重新生成等等。

統(tǒng)計(jì)打分階段

使用公式6，基于時(shí)間窗口內(nèi)的數(shù)據(jù)，采用一定的衰減策略來(lái)計(jì)算ucb分。對(duì)某一物品某種畫(huà)像進(jìn)行ucb打分。其中i表示物品ID，j表示畫(huà)像特征MD5編碼，cij 表示t時(shí)刻j特征編碼的物品i的點(diǎn)擊量，Cij 表示歷史時(shí)刻j特征編碼的物品i的點(diǎn)擊量，λ表示新行為對(duì)得分的影響程度，λ越大表示最新行為越大，反之亦然，eij表示t時(shí)刻j特征編碼的物品i的曝光量，Eij表示歷史時(shí)刻j特征編碼的物品i的曝光量，e為無(wú)意義初始值防止分母為0，Thj表示當(dāng)前時(shí)刻j特征編碼的物品總的曝光次數(shù)，Taj表示歷史時(shí)刻和當(dāng)前時(shí)刻所有專輯j特征編碼的物品總的曝光數(shù)，α表示bonus項(xiàng)用于探索物品的權(quán)重，α越大越容易出新物品。

是否需要對(duì)Cij，Eij，Taj全部進(jìn)行衰減，如下公式為計(jì)算歷史數(shù)據(jù)的公式。d(t)表示t時(shí)刻的統(tǒng)計(jì)量，d’(i)表示i時(shí)刻的實(shí)際統(tǒng)計(jì)量，f(|t-i|)表示時(shí)間衰減函數(shù)，θ表示時(shí)間衰減參數(shù)，新時(shí)刻行為的影響越大，就應(yīng)該跳大θ，反之亦然。

偽代碼如下：

doStatistic()

Input: 歷史時(shí)刻物品-畫(huà)像曝光點(diǎn)擊統(tǒng)計(jì)數(shù)據(jù)hisFirstItemPortraitStatis

(t-w+1, t)時(shí)刻物品-畫(huà)像曝光點(diǎn)擊統(tǒng)計(jì)數(shù)據(jù)otherItemPortraitStatis

isUseDefaultValue歷史時(shí)刻數(shù)據(jù)是否使用默認(rèn)值

toolItemID池子所有物品ID

Output: itemPortraitUCBScore ItemID，畫(huà)像MD5的ucb得分

1 if isUseDefaultValue then

2 向hisFirstItemPortraitStatis補(bǔ)充缺失的物品曝光和點(diǎn)擊數(shù)據(jù)（使用默認(rèn)值）

3 hisRDD，realRDD←對(duì)hisFirstItemPortraitStatis，otherItemPortraitStatis分組合并統(tǒng)計(jì)

4 itemPortraitUCBScore ← 使用上述公式計(jì)算ucb得分

5 return itemPortraitUCBScore

分類器糅合UCB打分

經(jīng)過(guò)上述處理之后，我們會(huì)得到圖2所示信息，其中owner列為特征值，primary_key為歷史實(shí)時(shí)行為標(biāo)記，secondary_key為物品ID，value為統(tǒng)計(jì)到的次數(shù)。

圖 2 PUCB算法中間統(tǒng)計(jì)結(jié)果-示例圖

換句話說(shuō)，經(jīng)過(guò)上述處理，我們將原始的特征抽象為UCB得分，接下來(lái)需要做的事情是使用一定的策略將不同維度的信息糅合起來(lái)。論文中使用了嶺回歸的方式來(lái)為每一個(gè)特征維度計(jì)算權(quán)重，神盾這里設(shè)計(jì)的比較靈活，可以使用任意一種分類器（如:LR、FM等）來(lái)糅合最終的結(jié)果，需要注意的是該分類器所使用的特征應(yīng)該跟計(jì)算UCB打分的特征體系一致。

神盾如何保證短視頻推薦場(chǎng)景中的多樣性

3.1 exp3多樣性保證

Exp3(Exponential-weight algorithm for Exploration and Exploitation)算法是2001年提出來(lái)的一種解決MAB問(wèn)題的算法。它的核心思想是維護(hù)一組臂的權(quán)重信息，然后使用數(shù)學(xué)方法得到一組臂的概率分布，接著每次擲骰子去選擇臂，根據(jù)選擇后觀察到的收益情況去調(diào)整臂的權(quán)重，如此迭代下去。論文中證明了使用這種策略能夠保證后悔值的在一定可以接受的范圍內(nèi)，從而保證了結(jié)果不會(huì)是最壞的一種情況。

Exp3算法偽代碼如下：

?是一個(gè)超參數(shù)，值域?yàn)閇0,1]，可以采用固定值，在實(shí)驗(yàn)輪數(shù)確定的情況下，建議使用公式9來(lái)計(jì)算?，其中K為臂的個(gè)數(shù)，T為實(shí)驗(yàn)的輪數(shù)。

首先為每一個(gè)臂初始化權(quán)重為1，然后使用算法1步驟中的公式計(jì)算每一個(gè)臂的概率，該公式保證了所有臂的概率和為1，接著隨機(jī)出一個(gè)[0,1]之間的值，觀察該值落在哪個(gè)臂中，選擇之后觀察該臂的收益情況，使用公式11計(jì)算其預(yù)估收益。

使用公式12來(lái)更新權(quán)重。

該算法在計(jì)算臂的概率時(shí)，雖然有可能趨向于0，但是不會(huì)等于0，所以對(duì)于任意一個(gè)臂，都有機(jī)會(huì)被選中，只是收益高的臂更容易被選中，收益低的臂更不容易被選中。

3.2 神盾推薦如何應(yīng)用exp3來(lái)做多樣性控制

圖 3 神盾Exp3算法流程

1. 首先規(guī)劃Exp3的臂策略，最簡(jiǎn)單的臂策略為不同的召回策略，復(fù)雜一些可以按照一定的業(yè)務(wù)規(guī)則來(lái)對(duì)物品進(jìn)行重分桶，如：在短視頻推薦中按照物品類別信息（游戲、風(fēng)景、美女等）構(gòu)建了20+個(gè)臂。

2. 在tesla(騰訊內(nèi)部集群任務(wù)調(diào)度系統(tǒng))上配置Spark Streaming任務(wù)，這個(gè)任務(wù)的目的是分鐘級(jí)消費(fèi)TDBank業(yè)務(wù)數(shù)據(jù)，按照業(yè)務(wù)規(guī)則構(gòu)建正負(fù)反饋數(shù)據(jù)，然后使用一定的更新策略來(lái)更新權(quán)重。神盾推薦在這里設(shè)計(jì)了三種權(quán)重更新策略。

a.原版算法更新策略，使用每條反饋數(shù)據(jù)來(lái)更新。這里存在的問(wèn)題是由于TDBank數(shù)據(jù)收集，近線訓(xùn)練和線上服務(wù)鏈條較長(zhǎng)，近線訓(xùn)練的結(jié)果不能非常實(shí)時(shí)的推送到線上去，存在一定的誤差。

b.小batch更新策略，收集一段時(shí)間的數(shù)據(jù)（神盾使用1分鐘的數(shù)據(jù)）對(duì)每個(gè)臂的收益值做歸一化，然后更新算法參數(shù)。與a相比，優(yōu)點(diǎn)是權(quán)重更新更加穩(wěn)定，缺點(diǎn)是收斂速度相對(duì)比a緩慢。

c.在b的基礎(chǔ)上引入窗口概念，會(huì)周期性的使用初始值來(lái)重置算法參數(shù)。

其他：在實(shí)際推薦業(yè)務(wù)場(chǎng)景中可以依照實(shí)際的應(yīng)用情況，對(duì)正負(fù)反饋構(gòu)建，權(quán)重更新策略，為每位用戶構(gòu)建Exp3選擇器等。

3. 推送計(jì)算參數(shù)到Kafka Server，更新R2線上算法參數(shù)。

4. 神盾推薦在短視頻推薦上應(yīng)用Exp3的結(jié)構(gòu)如下圖所示，可以看到exp3被應(yīng)用在ReRank層，每一個(gè)臂都可能被搖到，同時(shí)從數(shù)學(xué)角度保證整體選擇的收益肯定遠(yuǎn)高于最壞情況，進(jìn)而在保證多樣性的同時(shí)，整體收益高于最壞收益。

圖 4 神盾推薦短視頻推薦上Exp3算法結(jié)構(gòu)示意圖

4 總結(jié)

綜合上述場(chǎng)景的實(shí)際應(yīng)用情況，說(shuō)明在面臨用戶或物品冷啟動(dòng)的情況時(shí)，值得使用PUCB的方法進(jìn)行嘗試，而內(nèi)容類對(duì)多樣性有要求的場(chǎng)景，可以嘗試使用Exp3來(lái)解決。

本文所述MAB方法的經(jīng)驗(yàn)來(lái)自組內(nèi)所有同事在實(shí)際業(yè)務(wù)中的總結(jié)。歡迎大家交流討論！

參考資料：

exp3數(shù)學(xué)推導(dǎo)： https:///2013/11/08/adversarial-bandits-and-the-exp3-algorithm/

Python版demo：https://github.com/j2kun/exp3

https://zhuanlan.zhihu.com/p/21388070

http://blog.csdn.net/scythe666/article/details/74857425

http:///index.php/2016/12/15/ee-problem-and-bandit-algorithm-for-recommender-systems/

Adversarial Bandits and the Exp3 Algorithm

來(lái)源：騰訊QQ大數(shù)據(jù)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： heii2 > 《大數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)