不用代碼，新媒體人10分鐘就能學(xué)會的數(shù)據(jù)采集方法

原創(chuàng) 贊1 收藏評論

舉報 2018-01-06

掃描,分享朋友圈

學(xué)會信息和數(shù)據(jù)快速采集都是非常必要的，因為這能大大提高工作效率。在學(xué)會python和火車頭之前，web scraper是我最常用的采集工具了，設(shè)置簡單，非常高效，采集咪蒙文章標題僅需2分鐘，采集58同城5000條租房信息也就5分鐘而已。

我也常用web scraper做相關(guān)的采集分析，比如之前在數(shù)英網(wǎng)的文章《咪蒙文章數(shù)據(jù)分析：她都寫些什么內(nèi)容？如何刺激轉(zhuǎn)發(fā)痛點？》，就是在采集咪蒙全部文章和微博的基礎(chǔ)上分析得到的，總共用時不到5分鐘。

Web scraper是google強大插件庫中非常強大的一款數(shù)據(jù)采集插件，有強大的反爬蟲能力，只需要在插件上簡單地設(shè)置好，可以快速抓取知乎、簡書、豆瓣、大眾、58等大型、中型、小型的90%以上的網(wǎng)站，包括文字、圖片、表格等內(nèi)容，最后快速導(dǎo)出csv格式文件。Google官方對web scraper給出的說明是：

使用我們的擴展，您可以創(chuàng)建一個計劃(sitemap)，一個web站點應(yīng)該如何遍歷，以及應(yīng)該提取什么。使用這些sitemaps,Web刮刀將相應(yīng)地導(dǎo)航站點并提取所有數(shù)據(jù)。稍后可以將剪貼數(shù)據(jù)導(dǎo)出為CSV。

本系列是關(guān)于web scraper的系類介紹，將會完整介紹流程介紹，用知乎、簡書等網(wǎng)站為例介紹如何采集文字、表格、多元素抓取、不規(guī)律分頁抓取、二級頁抓取、動態(tài)網(wǎng)站抓取，以及一些反爬蟲技術(shù)等全部內(nèi)容。

Ok，現(xiàn)在就介紹web scraper的安裝以及完整的抓取流程，后續(xù)會介紹多頁面抓取、反爬蟲、圖片、鏈接、表格抓取等內(nèi)容。

一、web scraper的安裝

Web scraper是google瀏覽器的拓展插件，它的安裝和其他插件的安裝是一樣的。

如果無法下載webscraper可以通過微信或者公眾號和我聯(lián)系。

二、以知乎為例介紹web scraper完整抓取流程

1、打開目標網(wǎng)站，這里以采集知乎第一大v張佳瑋的關(guān)注對象為例，需要爬取的是關(guān)注對象的知乎名字、回答數(shù)量、發(fā)表文章數(shù)量、關(guān)注著數(shù)量。

2、在網(wǎng)頁上右擊鼠標，選擇檢查選項，或者用快捷鍵 Ctrl + Shift + I / F12 都打開 Web Scraper。

3、打開后點擊create sitemap選擇create sitemap創(chuàng)建一個站點地圖。

點擊create sitemap后就得到如圖頁面，需要填寫sitemap name，就是站點名字，這點可以隨便寫，自己看得懂就好；還需要填寫start url，就是要抓取頁面的鏈接。填寫完就點擊create sitemap，就完成創(chuàng)建站點地圖了。

具體如下圖：

4、設(shè)置一級選擇器：選定采集范圍

接下來就是重中之重了。這里先介紹一下web scraper的抓取邏輯：需要設(shè)置一個一級選擇器（selector），設(shè)定需要抓取的范圍；在一級選擇器下建立一個二級選擇器（selector），設(shè)置需要抓取的元素和內(nèi)容。

以抓取張佳瑋關(guān)注對象為例，我們的范圍就是張佳瑋關(guān)注的對象，那就需要為這個范圍創(chuàng)建一個選擇器；而張佳瑋關(guān)注的對象的粉絲數(shù)、文章數(shù)量等內(nèi)容就是二級選擇器的內(nèi)容。具體步驟如下：

（1） Add new selector 創(chuàng)建一級選擇器Selector：

點擊后就可以得到下圖頁面，所需要抓取的內(nèi)容就在這個頁面設(shè)置。

l id：就是對這個選擇器命名，同理，自己看得懂就好，這里就叫jiawei-scrap。

l Type：就是要抓取的內(nèi)容的類型，比如元素element／文本text／鏈接link/圖片image/動態(tài)加載內(nèi)Element Scroll Down等，這里是多個元素就選擇element。

l Selector：指的就是選擇所要抓取的內(nèi)容，點擊select就可以在頁面上選擇內(nèi)容，這個部分在下面具體介紹。

l 勾選Multiple：勾選 Multiple 前面的小框，因為要選的是多個元素而不是單個元素，當勾選的時候，爬蟲插件會識別頁面下具有相同屬性的內(nèi)容；

（2）這一步就需要設(shè)置選擇的內(nèi)容了，點擊select選項下的select 得到下圖：

之后將鼠標移動到需要選擇的內(nèi)容上，這時候需要的內(nèi)容就會變成綠色就表示選定了，這里需要提示一下，如果是所需要的內(nèi)容是多元素的，就需要將元素都選擇，例如下圖所示，綠色就表示選擇的內(nèi)容在綠色范圍內(nèi)。

當一個內(nèi)容變紅后，我們就可以選擇接下來的第二個內(nèi)容，點擊后，web scraper就會自動識別你所要的內(nèi)容，具有相同元素的內(nèi)容就都會變成紅色的。如下圖所示：

檢查這個頁面我們需要的內(nèi)容全部變成紅色之后，就可以點擊 Done selecting選項了，就可以得到如下圖所示：

點擊save selector，保存設(shè)置。到這里后，一級選擇器就創(chuàng)建完成了。

5、設(shè)置二級選擇器：選擇需要采集的元素內(nèi)容。

（1）點擊下圖中紅框內(nèi)容，就進入一級選擇器jiawei-scrap下：

5、設(shè)置二級選擇器：選擇需要采集的元素內(nèi)容。

（1）點擊下圖中紅框內(nèi)容，就進入一級選擇器jiawei-scrap下：

（2）點擊add new selector創(chuàng)建二級選擇器，來選擇具體內(nèi)容。

得到下圖，這跟一級選擇器的內(nèi)容是相同的，但是設(shè)置是有區(qū)別的。

? id：代表抓取的是哪個字段，可以取該字段的英文，比如要選「作者」，就寫「writer」；

? Type：這里選Text選項，因為要抓取的是文本內(nèi)容；

? Multiple：不要勾選 Multiple 前面的小框，因為在這里要抓取的是單個元素；

? 保留設(shè)置：其余未提及部分保留默認設(shè)置。

（3）點擊select選項后，將鼠標移到具體的元素上，元素就會變成黃色，如下圖所示：

在具體元素上點擊后，元素就會變成紅色的，就代表選定該內(nèi)容了。

（4）點擊Done selecting后完成選擇，再點擊save selector后就可以完成關(guān)注對象知乎名字的選取了。

重復(fù)以上操作，直到選完你想爬的字段。

（5）點擊紅框部分可以看到采集的內(nèi)容。

Data preview可以看到采集內(nèi)容，edit可以對設(shè)置的內(nèi)容做修改。

6、爬取數(shù)據(jù)

（1）只需要設(shè)置完所有的 Selector，就可以開始爬數(shù)據(jù)了，點擊 Scrape map，

選澤scrape；：

（2）點擊后就會跳到時間設(shè)置頁面，如下圖，由于采集的數(shù)量不大，保存默認就可以，點擊 start scraping，就會跳出一個窗口，就開始正式采集了。

（3）稍等一會就可以得到采集效果，如下圖：

（4）選擇sitemap下的export data as csv選項就可以將采集的結(jié)果以表格的形式導(dǎo)出。

以上就是簡單的采集，需要更多內(nèi)容可以看我的微信公眾號：全棧全網(wǎng)營銷

掃描,分享朋友圈

1

白面書生

市場/營銷

近期精選文章更多

猜您可能喜歡

個人登錄
企業(yè)入口

打開數(shù)英App
進入【我的】右上角掃一掃登錄

下載數(shù)英App

密碼登錄
驗證碼登錄

新注冊

忘記密碼

其他登錄

選擇收藏夾

+新建收藏夾

新建收藏夾

名稱

封面

建議封面尺寸為400x400像素，

僅支持JPG/PNG靜態(tài)圖片

公開當其他人關(guān)注此收藏夾后不可再更改為隱私
隱私該收藏夾僅自己可見
標星給收藏夾打個記號方便自己查找

收藏成功

我的收藏夾關(guān)閉

關(guān)閉

查看人才庫取消

私信

還可以輸入300字發(fā)布

查看我認領(lǐng)的項目

關(guān)閉

查看收藏夾

舉報

您為什么要舉報此信息？

廣告欺詐
淫穢色情
侵權(quán)
騷擾、辱罵、歧視
反動、政治敏感
違法犯罪
其它

提交取消

久久人妻牲爱视频,亚洲无码视频区,黑人操人妻一区二区,aaa在线视频,日产精品久久久久久久,99熟妇诱惑视频,激情只爱无码,国产精品日韩一区二区,超碰成人三级在线

不用代碼，新媒體人10分鐘就能學(xué)會的數(shù)據(jù)采集方法

評論

評論

推薦評論

全部評論（0條）

白面書生

關(guān)于

聯(lián)系

相關(guān)信息

久久人妻牲爱视频,亚洲无码视频区,黑人操人妻一区二区,aaa在线视频,日产精品久久久久久久,99熟妇诱惑视频,激情只爱无码,国产精品日韩一区二区,超碰成人三级在线

不用代碼，新媒體人10分鐘就能學(xué)會的數(shù)據(jù)采集方法

評論

評論

推薦評論

全部評論（0條）

白面書生

關(guān)于

聯(lián)系

相關(guān)信息

不用代碼，新媒體人10分鐘就能學(xué)會的數(shù)據(jù)采集方法