电竞比分网-中国电竞赛事及体育赛事平台

分享

信息檢索中的度量指標全解析

 520jefferson 2020-08-26

作者:Amit Chaudhary

編譯:ronghuaiyang

導(dǎo)讀

由淺入深逐個解析信息檢索中的度量指標。

我們今天遇到的大多數(shù)軟件產(chǎn)品都集成了某種形式的搜索功能。我們在谷歌上搜索內(nèi)容,在YouTube上搜索視頻,在亞馬遜上搜索產(chǎn)品,在Slack上搜索信息,在Gmail上搜索郵件,在Facebook上搜索人等等。

作為用戶,工作流非常簡單。我們可以通過在搜索框中寫下我們的查詢來搜索條目,系統(tǒng)中的排名模型會給我們最相關(guān)的前n個結(jié)果。

我們?nèi)绾卧u估前n個結(jié)果有多好?

在這篇文章中,我將解釋學(xué)習(xí)中常用的離線度量來回答上述問題。這些指標不僅對評估搜索結(jié)果有用,而且對關(guān)鍵字提取和推薦等問題也有用。

問題1:二元相關(guān)性

讓我們通過一個簡單的玩具例子來理解各種評估指標的細節(jié)和權(quán)衡。我們有一個排序模型,它會為一個特定的查詢返回5個最相關(guān)的結(jié)果。根據(jù)我們的ground-truth,第一個、第三個和第五個結(jié)果是相關(guān)的。

讓我們看看評估這個簡單例子的各種指標。

A. 排序不感知的度量

1. Precision@k

這個指標量化了排名前k的結(jié)果中有多少項是相關(guān)的。在數(shù)學(xué)上,由下式給出:

對于我們的例子,precision@1 = 1,因為前1結(jié)果中的所有項都是相關(guān)的。

同樣,precision@2 = 0.5,因為前2個結(jié)果中只有一個是相關(guān)的。

我們可以計算出所有k值的precision分數(shù)。

precision@k的一個限制是它沒有考慮相關(guān)的項目的位置??紤]具有相同數(shù)量相關(guān)結(jié)果的兩個模型A和B,即5個中的3個。對于模型A,前三項是相關(guān)的,而對于模型B,后三項是相關(guān)的。盡管模型A更好,但對于這兩個模型,Precision@5是相同的。

2. Recall@k

這個度量給出了查詢的所有實際相關(guān)結(jié)果中在所有的實際的相關(guān)結(jié)果中的比例。在數(shù)學(xué)上:

對于我們的例子,recall@1 = 0.33,因為只存在3個實際相關(guān)項中的一個。

類似地,由于3個實際相關(guān)的項中只有2個項存在,故recall@3 = 0.67。

我們可以計算不同K值的召回分數(shù)。

3. F1@k

這是一個組合度量,通過取它們的調(diào)和平均值,將Precision@k和Recall@k結(jié)合在一起。我們可以這樣計算:

利用前面計算的precision和recall的值,我們可以計算不同K值的F1-scores,如下圖所示。

B. 排序感知的度量

雖然precision、recall和F1為我們提供了一個單值度量,但它們不考慮返回的搜索結(jié)果的順序。為了解決這一局限性,人們設(shè)計了以下排序感知的度量標準:

1. Mean Reciprocal Rank(MRR)

當(dāng)我們希望系統(tǒng)返回最佳相關(guān)項并希望該項位于較高位置時,這個度量是有用的。

在數(shù)學(xué)上:

其中:

  • ‖Q‖表示查詢的總數(shù)
  • ranki表示第一個相關(guān)結(jié)果的排序

為了計算MRR,我們首先計算排序倒數(shù)。它只是第一個正確的相關(guān)結(jié)果的倒數(shù),值的范圍從0到1。

在我們的例子中,由于第一個正確的項目位于1的位置,所以1的倒數(shù)為1。

讓我們看另一個例子,其中只有一個相關(guān)結(jié)果出現(xiàn)在列表的最后,即位置5。它的倒數(shù)得分更低,為0.2。

讓我們考慮另一個例子,其中返回的結(jié)果都不相關(guān)。在這種情況下,倒數(shù)為0。

對于多個不同的查詢,我們可以通過對每個查詢?nèi)〉箶?shù)的平均值來計算MRR。

我們可以看到,MRR并不關(guān)心剩余的相關(guān)結(jié)果的位置。所以,如果你的例子需要以最好的方式返回多個相關(guān)的結(jié)果,MRR不是一個合適的度量。

2. Average Precision(AP)

平均精度是衡量模型選擇的所有與 ground-truth相關(guān)的項目是否都有較高的排序。與MRR不同,它考慮所有相關(guān)的項目。

數(shù)學(xué)上:

其中:

  • rel(k)是一個指示函數(shù),當(dāng)?shù)趉位的項有相關(guān)性時為1。
  • P(k)是Precision@k度量

對于我們的例子,我們可以根據(jù)不同K的Precision@K值計算AP。

為了說明AP的優(yōu)勢,讓我們以前面的例子為例,但將3個相關(guān)的結(jié)果放在開頭。我們可以看到,這個例子比上面的例子獲得了一個更好的AP分數(shù)。

3. Mean Average Precision(MAP)

如果我們想計算多個查詢的平均精度,我們可以使用MAP。它只是所有查詢的平均精度的平均值。數(shù)學(xué)上:

其中:

  • Q是查詢的總數(shù)
  • AP(q)是查詢q的平均精度

問題2: 分等級的相關(guān)性

讓我們以另一個玩具例子為例,其中我們不僅標注了相關(guān)或不相關(guān)的項目,而是使用了0到5之間的評分標準,其中0表示相關(guān)性最低,5表示相關(guān)性最高。

我們有一個排序模型,它會為一個特定的查詢返回5個最相關(guān)的結(jié)果。根據(jù)我們的ground-truth,第一項的相關(guān)性得分為3,第二項的相關(guān)性得分為2,以此類推。

讓我們了解評估這種類型的各種度量。

1. Cumulative Gain (CG@k)

這個度量使用了一個簡單的概念來總結(jié)top-K條目的相關(guān)性分數(shù)。這個總分數(shù)稱為累積收益。在數(shù)學(xué)上:

對于我們的例子,CG@2是5,因為我們將前兩個相關(guān)性得分3和2相加。

同理,我們可以計算所有k值的累積收益:

雖然很簡單,但CG并沒有考慮到相關(guān)項目的順序。因此,即使我們將一個不太相關(guān)的項交換到第一個位置,CG@2也是一樣的。

2. Discounted Cumulative Gain (DCG@k)

我們看到了一個簡單的累積收益是如何不考慮位置的。但是,我們通常希望具有高相關(guān)性得分的項目出現(xiàn)在一個更好的排序位置上。

考慮下面的一個例子。在累積收益的情況下,我們只是簡單地將分數(shù)相加,而沒有考慮它們的位置。

一個物品在位置1上,相關(guān)分數(shù)為3要比相同的物品在位置2上相關(guān)分數(shù)為3要好。

所以,我們需要一些方法來懲罰他們的位置。DCG引入了一個基于對數(shù)的懲罰函數(shù)來降低每個位置的相關(guān)性得分。對于5個項,懲罰是:

使用這個懲罰,我們現(xiàn)在可以計算折扣累積收益,只需使用懲罰標準化過后的相關(guān)分數(shù)的總和。在數(shù)學(xué)上:

為了理解對數(shù)懲罰的行為,讓我們在x軸上繪制排名位置,在y軸上繪制相關(guān)性得分的百分比,即。正如所看到的,在位置1,我們不施加任何懲罰,分數(shù)保持不變。但是,分數(shù)的百分比指數(shù)遞減從第1位的100%到第2位的63%,第3位的50%,以此類推。

現(xiàn)在為我們的例子計算DCG。

基于這些懲罰過的分數(shù),我們現(xiàn)在可以計算不同k值下的DCG,只需將它們加起來。

對于DCG@K還有一種替代公式,如果相關(guān)的條目排名較低,那么懲罰就會更多。該方案在工業(yè)上更受青睞。

雖然DCG解決了累積收益的問題,但它有一定的局限性。假設(shè)查詢Q1有3個結(jié)果,查詢Q2有5個結(jié)果。那么有5個結(jié)果Q2的查詢將會有一個更大的總體DCG分數(shù)。但我們不能說問題2比問題1好。

3. Normalized Discounted Cumulative Gain (NDCG@k)

為了允許跨查詢比較DCG,我們可以使用NDCG,它使用相關(guān)項的理想順序來規(guī)范化DCG值。讓我們以之前的例子為例,我們已經(jīng)計算了不同K值下的DCG值。

對于我們的例子,理想情況下,我們希望條目按照相關(guān)性得分的降序排序。

我們來計算這個排序下的理想的DCG(IDCG)。

現(xiàn)在,我們可以計算不同k的NDCG@k,通過對DCG@k除以 IDCG@k:

因此,我們得到的NDCG分數(shù)的范圍在0到1之間。一個完美的排名會得到1分。我們還可以比較不同查詢的NDCG@k分數(shù),因為它是一個標準化分數(shù)。

總結(jié)

這篇文章中,我們了解了二元相關(guān)性和分級標簽相關(guān)性的各種評估指標,以及每個指標如何改進之前的指標。

END

英文原文:https:///2020/08/information-retrieval-evaluation/

歡迎加入搜索技術(shù)交流群

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多