电竞比分网-中国电竞赛事及体育赛事平台

分享

亞馬遜如何猜你喜歡

 一劍倚天寒 2015-05-23

在亞馬遜等網(wǎng)站購物時,網(wǎng)站一般會自動給出智能推薦,而推薦的商品大部分可能正是你所想要的。那么,它們究竟是怎么“猜”中你心思的呢?

關(guān)于作者

Joseph A. Konstan和John Riedl都是美國明尼蘇達(dá)大學(xué)的計算機(jī)科學(xué)教授。Konstan還是Grouplens計劃的領(lǐng)導(dǎo)者,IEEE高級會員,Riedl同為IEEE會員,他們協(xié)助創(chuàng)建了MovieLens推薦系統(tǒng)。原文鏈接:http://spectrum./computing/software/deconstructing-recommender-systems

因為工作需要,我們測試亞馬遜網(wǎng)站在各個瀏覽器中的表現(xiàn)。網(wǎng)站不僅顯示我們的名字表示歡迎,而且還給出一大堆的購物建議。其實現(xiàn)在不僅是網(wǎng)購,像視頻、音樂、社交網(wǎng)站等等,也都提供個性化的建議。網(wǎng)站針對每個人的建議都不相同,大部分正好是你所需要的,它似乎比你更了解你自己。這些個性化建議到底怎么產(chǎn)生的呢?它們實際來自一個“推薦系統(tǒng)”。

推薦系統(tǒng)的發(fā)展前景

上世紀(jì)90年代中期,還只有很少的幾個人在研究推薦系統(tǒng),如今這方面的研發(fā)人員數(shù)以百計,為各大高校、大型在線零售商及許多相關(guān)企業(yè)服務(wù)。推薦系統(tǒng)能幫助消費者選擇喜歡的產(chǎn)品,同時也幫了零售商促銷,所以蘊(yùn)含著巨大的商業(yè)潛力。

除了網(wǎng)購等網(wǎng)站上的應(yīng)用,推薦系統(tǒng)在其他領(lǐng)域也開始大展手腳,比如高校使用它來引導(dǎo)學(xué)生課程,手機(jī)公司依靠它們來預(yù)測用戶有可能換到哪一家供應(yīng)商,會議組織者通過它可以將不同主題的論文分發(fā)最適合的的專家來審定等等。

盡管亞馬遜等公司對自己的推薦系統(tǒng)秘而不宣,不過因為我們在推薦系統(tǒng)剛剛起步時就可始研發(fā),對它們的后臺運(yùn)行有深入的了解。下面基于觀察和推理,我們就來為大家解析其中的技術(shù)細(xì)節(jié)。

201302jsjd01

今天的推薦系統(tǒng)綜合了多種方法,可以應(yīng)用于多種領(lǐng)域

購物網(wǎng)站眼中的你

你有沒有想過,你在購物網(wǎng)站亞馬遜的眼中是個什么樣子?真相有點冷:你只不過是網(wǎng)站巨大表格中的一行數(shù)據(jù)而已。這行數(shù)據(jù)記錄了你在網(wǎng)站上看過哪些內(nèi)容,點擊過哪些鏈接,購買過哪些東西等。這個大表格中還有其他很多行數(shù)據(jù),記錄的是亞馬遜其他數(shù)以百萬計的購物者信息。你每次訪問網(wǎng)站,表格中的數(shù)據(jù)會隨之改變,反過來這行數(shù)據(jù)也會影響到你,比如它決定了你能看到什么,會收到什么樣的優(yōu)惠信息等。

推薦系統(tǒng)通過各種各樣的方法收集和分析你的數(shù)據(jù),目前的核心技術(shù)是“個性化協(xié)同推薦”。它們之所以能做到“個性化”的推薦,是因為它們跟蹤了每個用戶在網(wǎng)頁上的行為,如瀏覽、購物、評分等,經(jīng)過“協(xié)同”計算,找出你不一樣的偏好,從而給出不一樣的建議。它絕不是像傳統(tǒng)的技術(shù)那樣,僅僅通過分析關(guān)鍵字那么簡單。

201302jsjd02

推薦系統(tǒng)通過協(xié)同計算給出個性化推薦

怎么找出不同人的相同偏好

Grouplens和Ringo都是基于一個稱之為user-user(用戶關(guān)聯(lián))的簡單的協(xié)同算法。這種算法,根據(jù)兩個用戶之間有多少一致性的意見來計算他們的“距離”。例如,如果吉姆和簡各給電影《Tron(電子世界爭霸戰(zhàn))》5星,他們的距離就是0。如果吉姆再給電影《Tron: Legacy(創(chuàng)戰(zhàn)紀(jì),Tron續(xù)集)》5星,而簡只給了3星,那他們倆之間的距離就拉大一點了。通過這種方法計算出來的口味接近的用戶,稱之為共享的鄰域(neighborhood)。

不過用戶關(guān)聯(lián)的方法不是很完善。首先形成“鄰域”就不容易:一方面有些東西許多人很少甚至沒有打分,而另一方面,像流行大片,大家又都一邊倒式的都喜歡,這兩種情況都無法得出他們的共享愛好。

另外,雖然用戶在網(wǎng)站上瀏覽點擊改變用戶之間的“距離”很容易,但是用戶關(guān)聯(lián)算法需要即時計算卻有著巨大的運(yùn)算量,可能沒等到返回準(zhǔn)確的推薦結(jié)果,用戶已經(jīng)去做其他的事情云了。

如何從物品之間找關(guān)聯(lián)

上面用戶關(guān)聯(lián)的缺陷,可通過item-item(物品關(guān)聯(lián))算法來解決。物品關(guān)聯(lián)計算的是書與書之間,或者電影與電影之間的距離,或者任何你依據(jù)相似度而關(guān)聯(lián)在一起的用戶之間的距離。比如,喜歡某甲的書的人給某乙的評分也很高,那么,某甲的書和某乙的書就可以歸到同一個鄰域中了。物與物之間的距離,可以從數(shù)以百萬的用戶評分中得出,相對來說有一個穩(wěn)定的時間段(不會像用戶關(guān)聯(lián)算法那樣變數(shù)太大),所以推薦系統(tǒng)可以預(yù)先計算距離和快速產(chǎn)生建議,對來訪問的用戶來說,可能就感覺不出其中的延遲了。

亞馬遜和Netflix公開表示他們使用的是物品關(guān)聯(lián)算法的升版,雖然沒有透露更多技術(shù)細(xì)節(jié),不過其中的原理應(yīng)該大同小異。

201302jsjd03

用戶關(guān)聯(lián)和物品關(guān)聯(lián)的示意圖

化繁為簡的降維算法

品味改變、心情改變、記憶淡化等,都可能造成評分的不確定性。上述的兩種算法,在這方面的處理有點僵化。其實在十年前,研究人員就找出了一套更有效的方法,就是將類似因素歸一的過程,稱之為降維。只是它運(yùn)算量巨大,所以一直發(fā)展緩慢。不過隨著電腦性能越來越好價格越來越便宜,這兩年它開始有了很大進(jìn)展。

先來了解降維是怎么工作的。這里以每個人對食品的口味為例。以一個巨型矩陣(超大表格)記錄上百萬人的口味數(shù)據(jù),每個人的口味信息占據(jù)一行。在你的信息行中,你可能給烤牛排評5星、紅燒排骨4.5星、炸雞翅2星、凍豆付卷1星、烤蘑菇5星、蒸毛豆4星,等等。

201302jsjd04

降維矩陣中的信息表格

推薦系統(tǒng)使用這個矩陣,它不會真的在乎你針對特定食品的特定評分,它是想總結(jié)出你喜好的一般性規(guī)律,再通過它來推斷你對任意其他食品的評價。

例如,從上面的評分,推薦系統(tǒng)可以推斷你喜歡牛肉、咸的東西及烤制食品,不喜歡雞肉及油炸食品,對各種蔬菜則不喜歡也不討厭,等等。這些口味屬性或者說維度,比起食品的數(shù)量就小得多了——可能也就50到100個維度的樣子(但是食品則可能成千上萬)。通過比對這些維度,推薦系統(tǒng)可以快速判斷某種新的食品是否是你喜歡的口味——比如鹽焗排骨,與你的口感維度比較(咸的、牛肉、不是雞肉、不是油炸、不是蔬菜、不是烤的)。這種更一般性的表現(xiàn),使得推薦系統(tǒng)能夠更準(zhǔn)確地識別出雖然不是同一群體但卻有相似喜好的用戶。它大大壓縮矩陣,使得推薦系統(tǒng)更有效率。

這是一個很酷的解決方案。但你如何找到這些口味維度?不要問廚師,實際上這些系統(tǒng)使用的是更精確的稱之為“奇異值分解”的技術(shù)來計算維度的,它將原始的巨大矩陣分解為兩大“口味矩陣”,一個包含所有用戶和100種口味維度,另一個則包含所有的食品和100種口味維度,再附加第三個矩陣進(jìn)行運(yùn)算。

以數(shù)學(xué)的方式獲取維度,既不形象也不直觀,你無法識別數(shù)值代表著什么,比如說“咸”是什么味道。但是沒關(guān)系,只要這些數(shù)值最終能形成一個準(zhǔn)確的推薦就可以了。

201302jsjd05

降維矩陣推導(dǎo)用戶口味

通過網(wǎng)絡(luò)跟蹤補(bǔ)充推薦

現(xiàn)在我們對購物網(wǎng)站如何快速猜出你的口味有了一個基本概念。推薦系統(tǒng)還有兩個引人注目的特征:首先,它在搞明白你與其他購物者有多高的相似度之前,它必須先找出你真正喜歡的東西。其次,這一系統(tǒng)按照商業(yè)規(guī)則操作,確保它所給出的推薦既能讓你覺得有用,又能讓商家有利可圖。

例如,亞馬遜網(wǎng)上藝術(shù)商店有近千萬的印刷品和海報出售(我最近一次看到的數(shù)據(jù)為900多萬),它們通過多種方法收集你的數(shù)據(jù):它會讓你按5星制為藝術(shù)品打分,并且關(guān)注你點擊放大了哪些圖片,反復(fù)看了幾次,哪些放入了想要購買的清單,以及哪些真正買下來,它還會跟蹤你在看一幅繪畫同時還看了其他哪些作品。依據(jù)你在網(wǎng)站上的瀏覽路徑,網(wǎng)站會給出補(bǔ)充建議,并且結(jié)合你的購買記錄及評分信息,為你創(chuàng)建一個長期的檔案。

類似亞馬遜這樣的公司,收集大量用戶的數(shù)據(jù),在你登錄網(wǎng)站后幾乎所有的操作都會被它們保存下來以備將來之用。借助于瀏覽器的cookies,他們甚至還記錄下匿名的購物者,當(dāng)匿名購物者注冊登錄后,他們就把當(dāng)初匿名記錄的信息補(bǔ)充到現(xiàn)有的用戶檔案中。

不過隨著數(shù)據(jù)隱私問題的越來越被大家重視,這方面的發(fā)展還有待進(jìn)一步觀察。

201302jsjd06

網(wǎng)站通過多種途徑收集用戶數(shù)據(jù)

推薦系統(tǒng)不會做的一些事

不是所有有相關(guān)性的東西都是值得推薦的,就拿香蕉來說,幾乎每個去超市的人自覺都會買一些,如果還要向顧客推薦,既不能幫助到顧客,也不會增加香蕉的銷量。這類物品,應(yīng)該按照一定的準(zhǔn)則,將它們排除在推薦結(jié)果之外。

總之,推薦系統(tǒng)研究還有許多方面需要突破,在已有系統(tǒng)上進(jìn)行微調(diào)是不夠的。但有一點是明確的:推薦系統(tǒng)只會變得越來越完善。(編譯:流言)


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多