电竞比分网-中国电竞赛事及体育赛事平台

分享

網(wǎng)站怎么樣防止被人采集

 小旦那(SIKYO) 2009-01-15
網(wǎng)站怎么樣防止被人采集
一、背景
空間就不能正常訪問了,打電話詢問空間服務提供商,原來是空間服務提供商為了節(jié)省帶寬,給各種類型的用戶限制了流量每天斷流的情況,告訴說的B型空間每日流量不能超過300M,問到是什么占用流量時,空間服務提供商告訴說大部分流量來源于搜索引擎??蓯旱乃阉饕?!怎么不讓網(wǎng)站內(nèi)容被蜘蛛抓取呢?當時這么想。后來隨著原創(chuàng)文章數(shù)的增多,導致文章被轉(zhuǎn)貼、采集、附件經(jīng)常被盜鏈,這些也成為了日益需要解決的問題。
二、 基礎(chǔ)概念
其實最簡單的單元就是程序代碼,程序代碼構(gòu)造了程序,比如簡單的抓取 wget 程序,比如假設要抓取天空軟件站的“創(chuàng)新英語單詞通” ,直接在命令行:
wget http://jlbc./down/recite.rar --referer=http://www./soft/31870.html這樣就能抓取到天空軟件站的這個軟件。很多的程序構(gòu)造起來,給定了一定的名稱,富有更多的功能
,這樣升級成爬蟲或者蜘蛛,又稱機器人,像Yahoo! Slurp China,baiduspider,Google bot等等。
現(xiàn)在的采集更為精準,采集標題、需要采集的內(nèi)容、采集的地址、采集所需要的屏蔽內(nèi)容,等都可以讓已經(jīng)編譯好的程序通過后臺進行簡單的操作即可。
三、 解決之道
方案一,環(huán)境變量
根據(jù)系統(tǒng)環(huán)境變量,我們可以指定蜘蛛該收錄一些什么不收錄一些什么,提高需采集的技術(shù)難度。
使用 HTTP_USER_AGENT 指定蜘蛛類型以及識別蜘蛛和非蜘蛛抓取,根據(jù)其類型反應出不同的內(nèi)容;
使用 HTTP_ACCEPT_LANGUAGE 可以識別基本的套接字類抓取以及蜘蛛和非蜘蛛,畢竟采集機器人能識別語種的占少數(shù),像本人的主站點使用的就是這個參數(shù);
使用 HTTP_REFERER 可以偵測盜鏈狀況,如果referer來源不是本站或者指定的站點,跳轉(zhuǎn)或者指向其他頁面,本人站點的處理防止圖片盜鏈的方法就是一種高級的利用referer反盜鏈方法,然后引導到
一個字節(jié)很小的頁面;
使用 REMOTE_PORT 記錄蜘蛛的地址,緩存起來,可以直接屏蔽該地址,杜絕采集或者針對搜索引擎進行優(yōu)化;
使用 HTTP認證 來屏蔽匿名蜘蛛的抓??;
方案二,程序本身控制
深究網(wǎng)站頻繁訪問以及大量被采集,主要還是自身網(wǎng)站程序原因?qū)е隆?br>更改目錄 是一種比較土的辦法,但是非常使用有效,編寫程序擁有自動在一段時間某個ip頻繁訪問的情況下,自動更換目錄路徑,這樣減少外界機器人的頻繁訪問;
提升網(wǎng)站本身的權(quán)限 ,比如需要注冊ID訪問,每個ID對應于不同的權(quán)限;或是根據(jù)IP加時間結(jié)合的方法進行訪問控制等;
使用隱藏文字 方式進行干擾,比如用CSS的DIsplay:none,或者直接把字體顏色和背景顏色一致,這樣采集者要分離文章需要大量的時間處理,比如我的BBS論壇使用的就是此方式;
Javascript 的干擾,目前一般很少有人使用此方式來做站,估計大部分站長考慮到搜索引擎解析Javascript差,擔心不會被收錄的問題;本人的站點就是比較另類的一個,用JS作為輸出,所有的正文全
部在JS里面;
XML 化的頁面是比較難被蜘蛛所識別,特別是Javascript+Xml化后,使用了ajax技術(shù),即保證了速度,又保護了有效的數(shù)據(jù),這種類型的網(wǎng)站還沒有蜘蛛能夠完全的解析,像澳門官方體彩網(wǎng)站;
方案三,網(wǎng)站結(jié)構(gòu)
網(wǎng)站結(jié)構(gòu)可以很大的影響采集以及搜索引擎收錄。
網(wǎng)站圖片化 早些年,一些很精美的韓國模板都是圖片拼成的,像IKdiary;
Flash 結(jié)構(gòu)的網(wǎng)站,一些高超的閃客把一些動態(tài)頁面全部用flash繪制而成,簡直就是蜘蛛的克星;
使用非80端口的更安全協(xié)議 比如HTTPS協(xié)議,雖然成本比較高,但是也是防止匿名蜘蛛抓取的好辦法;
四、 后記
從搜索引擎的出發(fā)點來看,上面的方法與之背道而馳,不管怎樣,我們的目的是做一個站,做站就是做的有特色,保留自己網(wǎng)站上的特色,把精髓奉獻給大家,這就是互聯(lián)網(wǎng)的初衷。而隨著互連網(wǎng)
的日益壯大,采集已經(jīng)成為一個普遍的問題,區(qū)區(qū)已拋磚引玉,把過度蜘蛛抓取的解決的辦法一一告訴大家,希望大家能有更多的想法一起討論噢。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多