电竞比分网-中国电竞赛事及体育赛事平台

分享

搜索引擎是如何工作的?

 qinhuanwei 2018-10-11

信息檢索是什么?它和搜索引擎的關(guān)系是什么?以及,如何更好地使用搜索引擎?


點擊觀看視頻,你對人工智能的了解就能輕松超過全世界 99% 的人類!


圖文版本送給不方便打開的朋友:



信息檢索(Information Retrieval)起源于圖書館的資料查詢和文摘索引。計算機誕生后,信息檢索的內(nèi)容已經(jīng)從文本檢索,擴大到圖片、音頻、視頻等各種信息的檢索。



通常信息檢索會包含一個 Query,即表述需求的查詢字段,和一份由系統(tǒng)回復(fù)的、包含所需要信息的文檔列表。



搜索引擎是最常見、規(guī)模最大的信息檢索系統(tǒng)。



通過爬蟲不斷抓取、存儲、更新互聯(lián)網(wǎng)中的網(wǎng)頁內(nèi)容,再為它們建立與字典類似的索引目錄,用戶在鍵入關(guān)鍵詞時,就會通過關(guān)鍵詞在這些網(wǎng)頁中出現(xiàn)次數(shù)和位置,來判斷頁面與 Query 的相關(guān)性,并將它們由高到低排列起來。



說起來簡單,理解用戶的 Query,清除重復(fù)或低質(zhì)量的頁面,建立高效的索引,每一項都不簡單。建立一個好用的搜索引擎,往往需要分詞、信息抽取、文本分類等各種各樣的 NLP 技術(shù)作為支撐,小小的一個搜索框背后,凝聚著人類最頂尖的智慧。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多