不用写代码,webscraper 30秒抓取李笑来所有微博

image.png

学习金字塔中说道,“最有效的学习方法就是教别人”。

如果我们学到某些知识,能清楚的讲给别人听;
或者我们学会某些技能,可以教给别人使用;

那就说明,我们真的学会了。

互联网从业者,平时可能需要到微博、百度,知乎之类的网站,统计一些数据,做产品分析,用户喜好之类的分析。

但是有时候数据量比较大,手动统计太费时间,编程的话,门槛太高。

我给大家分享一个谷歌插件,webscraper,不用写代码,点点鼠标就可以抓取互联网上大量的数据。

这个插件,功能十分强大。

微信公众号,微博,百度,知乎、淘宝等等,只要是网页上可以显示的信息,都可以抓取到。

比如:咪蒙的公众号。我只用了30秒设置插件,然后出去喝了杯水,回来后,就看到数据结果:咪蒙的631篇文章标题。

由于数量太大,我只截取了最后一段。

image.png

真是太爽了,有没有。

想象一下,你打开一个网页,设置抓取格式,软件开始工作。你站起来,伸个懒腰,去外面倒一杯咖啡,回来后,需要的数据已经完整展现在你面前,多方便。

今天我来给大家分享这个软件——webscraper。

我们一步一步来,这次我们用李笑来微博作为例子。

一、下载安装

我们需要安装两个软件:

  • Chrome浏览器
  • webscraper插件

谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。

webscraper插件安装方法有两种:

1、直接在浏览器输入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

image.png

按照提示点击“安装”即可

2、从云盘下载webscraper安装包:

链接:https://pan.baidu.com/s/1bp0Iftd
密码: 11kt

下载好以后,
(1)Chrome 浏览器中输入:chrome://extensions/
(2)将下载好的文件拖动到此此页面
(3)根据提示点击:Add extensions;即完成安装。

以上,所需软件就已安装完毕。

二、打开软件

webscraper打开的入口有三种方法:
1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
2、mac: Cmd+Opt+I, 或者 Tools / Developer tools
3、或者:右键——> 审查元素(适用于各个系统)


image.png

如上图,大家可以看到,红框标注的地方,出现了一个webscraper,没有安装之前是看不到的。

三、创建sitemap

image.png

如上图,我们点击“create sitemap”,进入下面👇图片;


image.png

如上图:

这个步骤需要输入 2 个信息:

最后点击 Create Sitemap 按钮即可

四、设置selector

image.png

如上图,点击“Add new selector”,进入下图;


image.png

如上图,我们按照标号来挨个看。

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
  2. 选择 “Type”,此处选择Element scroll down
  3. 点击 “Select” 进行元素抓取
  4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
  5. 点击第一个帖子
  6. 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!"
  7. 勾选 “Multiple”
  8. 输入 Delay(延迟时间,意思是等待多长时间后,再进行抓取,建议填 2000)
  9. 点击”Save Selector“

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

image.png

点击上图的“content”,进入下图:


image.png

如上如,标号1,你会发现,这里多了一个content。
我们点击这里,标号2的地方,“Add new selector",进入下图:


image.png

如上图:我们按照标号依次看:

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
  2. 选择 “Type”,此处选择Text
  3. 点击 “Select” 进行元素抓取
  4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
  5. 注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。
  6. 点击”Save Selector“,其他的都不用设置。

以上,我们抓取李笑来微博的所有设置都已完成。

五、开始抓取

这步,我们开始正式抓取:

image.png

如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:


image.png

这几个都默认就行,直接点击标号4的“Start scraping”。

点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。

你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

完毕后,会出现抓取的数据,如下图:


image.png

六、导出到本地电脑

image.png

如上图,点击中间这列,点击下拉框中的“Export data as CSV”,会进入下图。


image.png

如上图,点击“Download now”,即可将数据下载到本地,以表格的形式存储。

文件可以用excel打开,mac下用numbers打开即可。

至此,李笑来的微博我们已经全部抓取完毕了。

怎么样,是不是很厉害。

其实这个软件的功能远不止此,大家操作起来吧。


这个工具有时候会受到一些程序员的鄙视,他们说自己会写代码,不屑于用这类工具。

写代码当然可以做到这点,但是,如果你不是专业写爬虫的程序员,你要写一个功能来抓取某些数据,就拿咪蒙公众号历史文章来说,我用这个插件30秒就成完成,你用30秒估计刚打开编辑器,连引用的库都还没写完吧。

所以别来抬杠。。。

如果你遇到webscraper的其他问题,可以看看下面这篇文章——
有关 webscraper 的问题,看这个就够了(建议收藏)
https://www.jianshu.com/p/cd5124ac0871

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容