|
Ps:經(jīng)歷兩個(gè)多月家里的麻煩事,泛舟終于又有空更新了。 起因是之前幫一個(gè)朋友做一個(gè)企業(yè)網(wǎng)站,沒(méi)有啥功能,單純的展示和發(fā)布信息。其實(shí)是很簡(jiǎn)單的事情,隨便下載個(gè)個(gè)人博客源碼,改一下,以為就可以了,但是。。。。他要把公眾號(hào)里的歷史信息全部搬到網(wǎng)站上,如果手工一篇一篇復(fù)制,那也是及其痛苦的事情,于是泛舟只能用爬蟲(chóng)了。 Ps:本文用51cto的公眾號(hào)做例子. 好消息是,要的是文章內(nèi)容,不是點(diǎn)贊數(shù)和閱讀數(shù),可以免去好大的麻煩。 那么這個(gè)任務(wù)的目的很簡(jiǎn)單,復(fù)制公眾號(hào)上的文章,然后粘貼到網(wǎng)站里面。具體需要什么內(nèi)容呢?安裝好網(wǎng)站,然后進(jìn)入后臺(tái),添加文章那里看到:
文章標(biāo)題,文章作者,文章來(lái)源,縮略圖,文章描述,文章內(nèi)容,都是我們需要的內(nèi)容.其實(shí)很好找,除了具體文章內(nèi)容,其他基本在公眾號(hào)的歷史消息頁(yè)全部都有了.
就是用爬蟲(chóng)把公眾號(hào)的所有歷史文章都爬下來(lái)。然后根據(jù)連接,再爬具體網(wǎng)頁(yè)內(nèi)容.分兩步處理,其中關(guān)鍵是如何爬取歷史信息. 需要用到抓包工具Fiddler,思路是這樣的: 打開(kāi)Fiddler軟件,清除所有Sessions,
微信電腦版打開(kāi)需要抓取的公眾號(hào)歷史消息頁(yè), 向下滾動(dòng),大于10條消息,就是等它加載出二頁(yè),轉(zhuǎn)到Fiddler查看
這個(gè)就是我們需要的地址,直接點(diǎn)開(kāi)用瀏覽器查看,紅圈就是關(guān)鍵,我們要修改的參數(shù).
得到這個(gè)連接以后,就是已經(jīng)成功一半了,下一篇文章繼續(xù)具體的代碼. 感謝各位的閱讀,望勿噴! |
|
|