|
第二屆“登峰杯”全國中學生數(shù)據(jù)挖掘競賽 高分解讀 1 競賽簡介 “登峰杯”全國中學生數(shù)據(jù)挖掘競賽由中國科學技術大學承辦,是面向全國高中生開展的數(shù)據(jù)挖掘競賽活動,旨在提高中學生運用數(shù)據(jù)挖掘知識解決實際問題的能力,培訓中學生的創(chuàng)新合作精神、編程能力和論文寫作能力。 數(shù)據(jù)挖掘競賽根據(jù)現(xiàn)實中的熱點事件提出開放性的問題,考察學生利用所學知識思考和解決實際問題的能力。競賽題目涉及到對實際生活中數(shù)據(jù)的挖掘與分析,及對問題的探索性思考,需要一定的數(shù)學能力,編程能力和論文寫作能力。 2 競賽賽題 奧運會獎牌榜排名預測 2016年里約熱內盧奧運會剛剛落下帷幕,來自世界各地的207支國家和地區(qū)代表隊參與了本次盛會,中國代表隊取得了金牌榜第三,獎牌榜第二的好成績。奧運會期間,獎牌榜排名成為了最熱門的話題。對于這個問題,不同的人可能會有不同的預測結果。如何讓預測結果更加準確,這就是數(shù)據(jù)挖掘所關注的。請你利用自己所學的知識,通過實踐研究,就奧運會獎牌榜排名預測問題,從以下角度做出探討。 問題 1:縱向討論,討論如何利用歷屆奧運會的歷史成績與本次奧運會成績之間可能存在的關聯(lián)性做出預測。 問題 2:橫向討論,除了歷史成績可以幫助預測,國家綜合實力也是影響奧運會成績的重要因素,討論國家綜合實力會怎樣影響預測結果。 問題 3:在問題 1 和 2 解答的基礎上,思考除了歷史成績與國家綜合實力,其它可能的影響因素。 問題 4:結合以上討論內容,對下一屆奧運會的獎牌榜前十名給出你自己的預測結果,并闡述理由。 3 競賽任務 數(shù)據(jù)挖掘競賽考察學生從現(xiàn)實生活中收集數(shù)據(jù)的能力、對實際問題的科學分析能力及對所學知識的熟練應用能力。競賽共分為三個部分,分別是數(shù)據(jù)收集部分、模型設計部分和拓展思考部分。 1、數(shù)據(jù)收集部分旨在培養(yǎng)學生的信息檢索與過濾能力。學生可以通過查閱文獻資料、網絡搜索等途徑尋找解決問題所需要的各種原始數(shù)據(jù),進而通過對原始數(shù)據(jù)內容的甄別、過濾,獲取有效信息并最終運用到自己設計的模型中。對于動手能力較強的學生,還可以動手編寫網絡爬蟲以自動收集大量互聯(lián)網信息。 2、模型設計部分旨在培養(yǎng)學生的推導分析與建模能力。學生需要針對題目給出的實際問題進行建模,并利用已收集的數(shù)據(jù)進行求解。學生可以利用已有的數(shù)學算法、數(shù)據(jù)挖掘技術或者設計新的方法來解決問題,其中可能需要一定程度的數(shù)學推導和計算機編程。對于有余力的同學,還可以對得到的結果做出分析,比如如果結果不好,可能是什么原因導致的;如果結果很好,能否說明模型的有效性? 3、拓展思考部分旨在拓寬學生的思維范疇,培養(yǎng)學生的創(chuàng)新能力。競賽題目中會包含一定程度的拓展問題,學生不需要對此類問題做出詳細求解,但需要就此類問題提出自己的見解。 4 數(shù)據(jù)挖掘競賽將根據(jù)現(xiàn)實中的熱點事件提出問題,學生在得到問題后,需要主動收集數(shù)據(jù)(問題所需要的主要數(shù)據(jù)將是很易于收集的),分析問題并進行建模,并利用已有數(shù)據(jù)進行求解,最后進行可能的模型評估和拓展思考。 · 采用的模型或方法是否具有理論依據(jù) · 對問題影響因素的考慮是否周全 · 模型是否有過擬合的可能 · 模型求解算法的時間和空間復雜性
|
|
|
來自: 么么公主khu9a0 > 《數(shù)據(jù)挖掘》