电竞比分网-中国电竞赛事及体育赛事平台

分享

K近鄰算法你掌握了嗎?來測(cè)試一下就知道了!

 CDA數(shù)據(jù)分析師 2019-06-18

簡(jiǎn)介

如果你要問我兩個(gè)機(jī)器學(xué)習(xí)中最直觀明了且通俗易懂的算法——那必然就是K近鄰算法和基于樹的算法了。這兩個(gè)算法都易于理解,也很容易解釋,并且能夠很好地去向人們展示。最近,我們就針對(duì)這兩種算法,整理了一些測(cè)試題。

如果你是機(jī)器學(xué)習(xí)的新手,也要在理解這兩種算法的基礎(chǔ)上進(jìn)行測(cè)試。它們雖然簡(jiǎn)單,但是卻十分強(qiáng)大且被廣泛運(yùn)用在工業(yè)領(lǐng)域。這些技能測(cè)試能夠幫助你測(cè)試你在K近鄰算法方面的技術(shù)能力。因?yàn)樗鼈兪菫闇y(cè)試你在K近鄰算法上的基礎(chǔ)知識(shí)與應(yīng)用能力而量身定制的。

有超過650人注冊(cè)參加考試。如果你錯(cuò)過了這個(gè)測(cè)試也沒關(guān)系,下面就是測(cè)試的問題與答案。

技能測(cè)試試題與答案解析

1)【True or False】KNN算法在測(cè)試時(shí)花費(fèi)更多計(jì)算,而不是訓(xùn)練時(shí)。

A) TRUE B)FALSE

答案:A

解析:算法的訓(xùn)練階段僅包括存儲(chǔ)訓(xùn)練樣本的特征向量和類標(biāo)簽。 在測(cè)試階段,通過在最接近該查詢點(diǎn)的k個(gè)訓(xùn)練樣本中分配最頻繁的標(biāo)簽來對(duì)測(cè)試點(diǎn)進(jìn)行分類——因此這方面計(jì)算更多。

2)下圖中,若使用K近鄰算法,最佳K值應(yīng)在哪里取得?

A) 3 B)10 C) 20 D)50

答案:B

解析:當(dāng)K為10時(shí),驗(yàn)證的錯(cuò)誤率最低,所以K值應(yīng)取10.

3)下圖哪種度量距離不能用于KNN算法?

A)Manhattan B)Minkowski C)Tanimoto D) Jaccard E)Mahalanobis F) 所有都可以

答案:F

解析:所有的度量距離都可以用于KNN。

4)關(guān)于KNN哪種觀點(diǎn)是對(duì)的?

A)它可以用于分類

B)它可以用于回歸

C)它可以用于分類和回歸

答案:C

解析:我們也可以使用KNN來解決回歸問題。在這種情況下,預(yù)測(cè)可以基于k個(gè)最相似實(shí)例的均值或中值。

5)下面關(guān)于KNN算法哪種說法是正確的?

1.如果所有的數(shù)據(jù)是同樣的大小,KNN算法表現(xiàn)比較好

2.KNN算法適用于小數(shù)據(jù)輸入,而大量數(shù)據(jù)輸入時(shí)會(huì)遇到困難。

3.KNN算法并沒有對(duì)正在處理的問題的功能形式進(jìn)行假設(shè)。

A)1和2

B)1和3

C)只有1

D)以上所有

答案:D

解析:以上所有的說法都是正確的

6)以下哪種機(jī)器學(xué)習(xí)算法可用于輸入分類和連續(xù)變量的缺失值?

A )KNN

B)線性回歸

C)邏輯回歸

答案:A

解析:k-NN算法可用于估算分類和連續(xù)變量的缺失值。

7)關(guān)于曼哈頓距離哪種觀點(diǎn)是對(duì)的?

A)它可以用于連續(xù)變量

B)它可以用于分類變量

C)兩者都可以

D)兩者都不可以

答案:A

解析:曼哈頓距離用于計(jì)算實(shí)值特征之間的距離。

8)對(duì)于k-NN中的分類變量,我們使用以下哪種距離測(cè)量?

1.漢明距離

2.歐幾里得距離

3.曼哈頓距離

A)1

B)2

C)3

D)1和2

E )2和3

F )1和2和3

答案:A

解析:在連續(xù)變量的情況下使用歐幾里得距離和曼哈頓距離,而在分類變量的情況下使用漢明距離。

9)以下哪一項(xiàng)是歐幾里德距離算法下,兩個(gè)數(shù)據(jù)點(diǎn)A(1,3)和B(2,3)之間的距離?

A)1

B)2

C)4

D)8

答案:A

解析:sqrt( (1-2)^2 + (3-3)^2) = sqrt(1^2 + 0^2) = 1

10)以下哪一項(xiàng)將是曼哈頓距離算法下,兩個(gè)數(shù)據(jù)點(diǎn)A(1,3)和B(2,3)之間的距離?

A)1

B)2

C)4

D)8

答案:A

解析:sqrt( mod((1-2)) + mod((3-3))) = sqrt(1 + 0) = 1

11題,12題內(nèi)容

假設(shè)已經(jīng)給出了以下數(shù)據(jù),其中x和y是兩個(gè)輸入變量,分類結(jié)果是因變量。

下面是散點(diǎn)圖,在二維空間里顯示上面的數(shù)據(jù):

11)假設(shè)您想要使用KNN(K值為3)中的歐式距離預(yù)測(cè)新數(shù)據(jù)點(diǎn)x = 1和y = 1的類。那么這個(gè)數(shù)據(jù)點(diǎn)屬于哪個(gè)類?

A)+類

B)-類

C)不能確定

D)不是上面這些結(jié)果

答案:A

解析:所有三個(gè)最近點(diǎn)都是+類,所以這一點(diǎn)將被歸類為+ 類。

12)在上一個(gè)問題中,您現(xiàn)在想要使用7-NN而不是3-KNN,以下x = 1和y = 1屬于哪個(gè)類?

A)+類

B)-類

C)不能確定

答案:B

解析:現(xiàn)在這一點(diǎn)將被歸類為 - 類,因?yàn)橛?個(gè)-類點(diǎn)和3個(gè)+類點(diǎn)在圓圈中。

13題,14題的內(nèi)容:

假設(shè)您已經(jīng)給出了以下2類數(shù)據(jù),其中“+”表示正類,“-”表示負(fù)類。

13)在KNN中,下面哪個(gè)K值,可以值得交叉驗(yàn)證的誤差值最小?

A)3

B)5

C)上面都可以

D)上面都不可以

答案:B

解析:K為5時(shí),交叉驗(yàn)證的誤差值最小。

14)下面哪個(gè)是K為5時(shí),交叉驗(yàn)證集的偏差?

A)2/14

B)4/14

C)6/14

D)8/14

E)以上都不是

答案:E

解析:K為5時(shí),正確結(jié)果為10/14。

15)就偏差而言,關(guān)于K,下面哪個(gè)是正確的?

A)增加K時(shí),偏差會(huì)增加

B)減小K時(shí),偏差會(huì)增加

C)不能確定

D)以上都不對(duì)

答案:A

解析:大K意味著簡(jiǎn)單的模型,簡(jiǎn)單的模型總是有高偏差。

16)就方差而言,關(guān)于K,下面哪個(gè)是正確的?

A)增加K時(shí),方差會(huì)增加

B)減小K時(shí),方差會(huì)增加

C)不能確定

D)以上都不對(duì)

答案:B

解析:簡(jiǎn)單的模型一般會(huì)有較小的方差。

17)通常我們?cè)贙-NN算法中使用了以下兩個(gè)距離(歐式距離和曼哈頓距離)。這些距離在兩個(gè)點(diǎn)A(x1,y1)和B(x2,Y2)之間。你的任務(wù)是通過查看以下兩個(gè)圖來標(biāo)記兩個(gè)距離。關(guān)于下圖,以下哪個(gè)選項(xiàng)是正確的?

A)左邊是曼哈頓距離,右邊是歐幾里德距離 B)左邊是歐幾里德距離,右邊是曼哈頓距離 C)左邊或右邊都不是曼哈頓距離 D)左或右都不是歐幾里德距離

答案:B

解析:左邊是歐幾里德距離如何工作的圖形描述,而右邊是曼哈頓距離。

18)在KNN中發(fā)現(xiàn)有噪聲,你會(huì)做下面哪種選擇?

A)增加K的值 B)減小K的值 C)噪聲與K值無關(guān) D)以上都不對(duì)

答案:A

解析:增加K值能夠讓你更加相信分類結(jié)果。

19)在KNN中,由于維度等原因,很容易產(chǎn)生過擬合。那么你會(huì)采用下面哪種方法來解決這個(gè)問題呢?

1.維度降低

2.特征選擇

A)1 B)2 C)1和2 D)以上都不對(duì)

答案:C

解析:兩種方法都是可以的。

20)下面兩個(gè)陳述哪個(gè)是對(duì)的?

1.KNN是一種基于記憶的方法,因?yàn)榉诸惼髟谖覀兪占叫碌臄?shù)據(jù)時(shí)會(huì)立即適應(yīng)。

2.在最壞的情況下,用于分類新樣本的計(jì)算復(fù)雜度隨著訓(xùn)練數(shù)據(jù)集中的樣本數(shù)量線性增長(zhǎng)。

A)1

B)2

C)1和2

D)以上都不對(duì)

答案:C

解析:兩個(gè)都是對(duì)的,顯而易見。

21)假設(shè)給出下面的圖像(左邊為1.中間為2,右邊為3),現(xiàn)在你的任務(wù)是找出每幅圖中的KNN中的K值,其中K1表示第一個(gè)K,K2表示第二個(gè)K,K3表示第三個(gè)K。

A) K1 > K2 > K3 B) K1 < K2 C) K1 = K2 = K3 D) None of these

答案:D

解析:K3是K值最高的,而最低的是K1。

22)下圖中哪個(gè)k 最少可以給出一個(gè)交叉驗(yàn)證準(zhǔn)確度?

A)1

B)2

C)3

D)5

答案:B

解析:如果k值為2,則它會(huì)提供最低的交叉驗(yàn)證精度。

23)現(xiàn)在有一家公司建立了一個(gè)KNN分類器,可以在訓(xùn)練數(shù)據(jù)時(shí)獲得100%的準(zhǔn)確性。當(dāng)他們?cè)诳蛻舳瞬渴疬@個(gè)模型的時(shí)候發(fā)現(xiàn)這個(gè)模型一點(diǎn)都不準(zhǔn)確,可能是下面哪一項(xiàng)出錯(cuò)了?

注:模型已經(jīng)成果部署,除了模型性能外,客戶端沒有發(fā)現(xiàn)其他技術(shù)問題。

A)它可能是一個(gè)過擬合了的模型

B)這個(gè)模型不適用

C)無法解釋

D)以上都不是

答案:A

解析:在一個(gè)過度擬合的模塊中,它可以在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但它并不足以推廣給新數(shù)據(jù)而達(dá)到同樣的結(jié)果。

24)下面兩個(gè)關(guān)于KNN的陳述,哪個(gè)是對(duì)的?

1.在k值非常大的情況下,我們可以將來自其他類的點(diǎn)包括在鄰域中。

2.在k值太小的情況下,算法對(duì)噪聲非常敏感。

A)1

B)2

C)1和2

D)以上都不對(duì)

答案:C

解析:這兩個(gè)都是顯而易見的正確。

25)關(guān)于KNN分類器,下面哪個(gè)說法是正確的?

A)K值越大,分類的精度越高

B)使用較小的K值,決策邊界教平滑

C)決策邊界是線性的

D)KNN沒有明確的訓(xùn)練步驟

答案:D

解析:選項(xiàng)A,并不總是這樣,K值不能太小,也不能太大;

選項(xiàng)B,C,決策邊界可能是有鋸齒狀的。

26)【True or False】能夠使用一個(gè)1-NN分類器去構(gòu)建一個(gè)2-NN分類器。

A) TRUE B)FALSE

答案:A

解析:可以通過集成1-NN分類器來實(shí)現(xiàn)2-NN分類器。

27)在k-NN中,當(dāng)你增加/減少k的值時(shí)會(huì)發(fā)生什么?

A)隨著K值增加,決策邊界會(huì)更加平滑

B)隨著K值減小,決策邊界會(huì)更加平滑

C)決策邊界是否平滑與K值無關(guān)

D)以上都不對(duì)

答案:A

解析:增加K值,決策邊界會(huì)更加平滑

28)下面兩個(gè)關(guān)于KNN的陳述,哪個(gè)是對(duì)的?

1.我們可以在交叉驗(yàn)證的幫助下選擇k的最佳值。

2.歐幾里德距離將每個(gè)特征視為同等重要。

A)1

B)2

C)1和2

D)以上都不對(duì)

答案:C

解析:兩個(gè)說法都是正確的

29題,30題內(nèi)容

假設(shè)你已經(jīng)訓(xùn)練好了KNN模型,現(xiàn)在你想要在測(cè)試集上進(jìn)行預(yù)測(cè)。在測(cè)試之前,你想要計(jì)算KNN模型用于預(yù)測(cè)測(cè)試集的時(shí)間。

注:計(jì)算兩次觀察之間的距離需要花費(fèi)時(shí)間D。

29)如果測(cè)試數(shù)據(jù)中有N(非常大)個(gè)觀測(cè)值,1-NN所需的時(shí)間是多少?

A ) NxD B ) NxDx2 C ) (NxD)/2 D ) 以上都不對(duì)

答案:A

解析:當(dāng)N的值非常大時(shí),計(jì)算每個(gè)觀測(cè)值時(shí)間就是N*D。

30)1-NN,2-NN,3-NN 所用時(shí)間之間的關(guān)系是什么?

A) 1-NN >2-NN >3-NN B) 1-NN < 2-NN < 3-NN C) 1-NN = 2-NN = 3-NN D) 以上都不對(duì)

答案:C

解析:每個(gè)K的訓(xùn)練時(shí)間都是相同的。

總體分布

下面是參加測(cè)試者的得分分布圖:

在分布圖中可見,超過250人進(jìn)行了測(cè)試,最高分為24分。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多