分析了10个公众号2000w字,原来这些公众号用这个词最多!

这篇文章,收集了部分我置顶公众号的所有文章,统计了文章中使用最多的词,做成了词云图。

为啥要做这个?

1、纯属好奇
2、大家知道我有个《不用写代码的爬虫课》,用 web scraper 抓数据,短平快,不用写代码,1 分钟就能设置好抓取规则,剩下就等程序跑完,拿到数据。所以,我有时也会抓点数据玩玩。
3、好久没写代码了,想看看这过程中会遇到哪些问题?自己能不能解决?(其实需要写代码,是我做之前没有预料到的)

制作过程中用的工具:

  • 公众号文章抓取工具:web scraper
  • 词频统计:1. github-jieba-结巴分词 - 精准模式 2.网上抄的 20 行 python 代码
  • 词云工具:https://wordart.com
  • 其他:excel

为了不影响词云图的效果,本文已经去除了一些常见词汇,比如

一个 这个 很多 可以 自己 问题 一些 我们 其实 如果 没有 就是 不是 可能 时候 什么 这样 他们 那么 知道 觉得 还是 但是 所以 非常 一下 当然 需要 比如 价值 现在 已经 事情 因为 然后 各种 这些 或者 存在 认为 这种 为什么 发现 通过 以前 不会 机会 不要 内容 一定 一种 重要 人家 时间 发展 逻辑 不同 如何 真的 信息 以及 而且 理解 怎么 有些 分享 文章 广告 简单 不能 东西 其他 开始 系统 看到 出来 这里 一点 等等等等等

文章中数据展示格式为:
1、公众号名称
2、相关数据
3、词云图
4、TOP 20 关键词 | 频次 | 明白业余分析

caoz 的梦呓(caozsay)

  • 文章数:503
  • 字数:1,492,273
  • 总阅读数:10,087,175
  • 总点赞数:157,171
caoz的梦呓
TOP 20 关键词 | 频次 | 分析

曹大的公众号,多是互联网创业、产品、数据相关,文章曾被马化腾,张小龙多次赞赏,推荐关注。
(公众号二维码藏在词云图里面,发现了没?)

咪蒙

  • 文章数:664
  • 字数:1,615,050
  • 总阅读数:92,592,058+ ps:篇篇 10w+ ,这是下限
  • 总点赞数:12,154,279+
咪蒙
TOP 20 关键词 | 频次 | 分析

咪蒙在运营公众号这个产品上,有很多值得学习的地方——

  • 文章如何开头能吸引人?
  • 如何引导用户点赞?
  • 如何从读者生活中获得文章素材(吸引用户投稿)?
  • 标题文案如何取才能吸引人?
  • 不发文章时,发纯文字,如何让用户不失望,又觉得有趣
    ……

阅读文章时,如何找到对自己有价值的信息,可以参考曹大的这篇文章 超视角阅读

学习学习再学习

  • 文章数:583
  • 字数:1,861,325
  • 总阅读数:21,617,810+
  • 总点赞数:213,448+
学习学习再学习
TOP 20 关键词 | 频次 | 分析

笑来老师的《把时间当做朋友》这本书,以及得到专栏,应该帮助了很多人,里面谈到的:时间复利、注意力、元认知、人生商业模式等等,都对我启发很大。

这个公众号也是笑来老师的一个输出渠道。

如果你有以下一些想法,或者困惑:

  • 老板给多少钱干多少活
  • 这个东西短期没用,不学了
  • 花大量时间在网上找免费资源
  • 为什么要学习工作之外的一些技能
  • 金钱 > 时间 > 注意力

建议关注一下这个公众号,或者读一下《把时间当做朋友》这本书。

stormzhang

  • 文章数:571
  • 字数:1,097,327
  • 总阅读数:8,257,975+
  • 总点赞数:252,988+
    stormzhang
TOP 20 关键词 | 频次 | 分析

stormzhang 是半路培训做的 Android 开发,后来转产品管理,一步一步靠个人努力,达成今天的成就。

程序员如果突破技术思维,那就是一个开挂的人生。

这个公众号活跃度极高,里面的内容也不拘一格,技术、产品、职场、投资等等,都是作者一个人维护,推荐关注,一个不羁的码农,相信能给你看待事物不一样的角度。

小马宋

  • 文章数:702
  • 字数:1,461,853
  • 总阅读数:12,514,708+
  • 总点赞数:147,085+
小马宋
TOP 20 关键词 | 频次 | 分析

我以前听到营销,觉得就是在电视上打广告,没啥了不起。

小马宋老师让我对营销有了不一样的理解。

互联网时代,信息爆炸。如果不懂营销,空有好产品,不能在合适的渠道、以合适的方式、展示给合适的用户,一切都是白搭。

营销是个中性词,不要对它有敌意,如果有,是一件可怕的事情。

营销文案写不好,是因为对产品太无知。 —— 小马宋

剽悍一只猫

  • 文章数:906
  • 字数:1,827,873
  • 总阅读数:51,177,852+
  • 总点赞数:887,796+
剽悍一只猫
TOP 20 关键词 | 频次 | 分析

猫叔的口头禅“不行动,然并卵”,他举办的剽悍行动营,帮助了很多人解决了拖延症问题,有效提升了写作、演讲、读书三个技能。这个行动营很有趣,只招陌生人。

猫叔的一些文章,可以作为人生战略原则参考。比如:读懂此文的人,收获不止百万

槽边往事

  • 文章数:1099
  • 字数:2,754,656
  • 总阅读数:不详
  • 总点赞数:不详
    因为这个公众号发文时间太早,最初版本的订阅号,在 URL 方面有很多奇怪的地方,所以暂时没有完整抓取到。
槽边往事
TOP 20 关键词 | 频次 | 分析

和菜头是我关注公众号里最高产的一位作者,各种文章类型都能驾驭。

人们从公众号看到的,是那个笔耕不辍的和菜头,嬉笑怒骂,笔下纵横。
而在人们看不到的那一面,他是一个互联网公司的创始人。10年间,他做过20多个 APP、2 个网站、H5小游戏、会员系统等。

罗振宇:“和菜头时常对我暴起断喝,如晨钟般醒脑。”

成长

  • 文章数:91
  • 字数:171,490
  • 总阅读数:300,372+
  • 总点赞数:2,958+
成长
TOP 20 关键词 | 频次 | 分析

徐梦阳是多家互联网公司公司的产品经理,现在是自由职业者。

他平时喜欢研究互联网的各种赚钱套路,从词云图就可以看出。

信息挖掘、研究、实践、分享是公众号的风格,爆款文章:[麦当劳改名金拱门,一小时赚了15000]。(https://mp.weixin.qq.com/s/nurJ2KGkHtX2GG009lf_sQ?)

小北的梦呓

  • 文章数:488
  • 字数:1,511,719
  • 总阅读数:3,025,755+
  • 总点赞数:48,424+
小北的梦呓
TOP 20 关键词 | 频次 | 分析

小北是跨境电商领域超级KOL,公众号不仅仅分享跨境电商内容,互联网思维、网站 SEO、流量玩法、产品思维等等,既有道也有术。

我虽然不做跨境电商,前几天也报了他的线上课。从他的文章中,能看到他对于趋势、流量方面很高的认知水平,学习一下大牛思考问题的方式,对自己也是一种提升。


做词云图的过程中,也遇到了一些坑。
1、之前我使用的词云工具是 http://www.picdata.cn/,这个网站是傻瓜操作,直接将要分析的文字全部丢进去,它会自动统计词频并生成词云图。

但是这个工具有个缺点,字数只能限制在 100 w以内。而这次的公众号内容字数,全部都超过了 100 w,于是这个工具就不灵了。

其他几个类似工具也不能解决这个字数过多问题。

我突然想到,在 MacTalk 池建强老师的知识星球,他发过一个 github 的分词库,叫做「结巴」,支持各种语言。

我就按图索骥,找到了这个库。

2、github 上的工具,使用教程都写的很清楚,我就是照抄,然后换一下文件名。

后来,我又有一个统计文章字数的需求,然后也是网上搜代码,搜到一个教程,巧的是,这个教程代码也是用的「结巴」这个库,我也就改改拿着用了。

互联网带给我们极大的方便,各种教程源码,动动手指就能搜到,略微修改,就能用。

3、词云工具,我最终使用的是:https://wordart.com/。这个网站需要我们提供词语和对应的词频。

这两项数据,可以通过上一步的「结巴」分词工具得出。

将词语和词频填入 wordart 的时候,我也遇到了问题。无论我怎么输入,wordart 显示都错误,我把设置里各种选项排列组合试了多次,都没成功。

后来我想到易灵微课上,新榜的数据分析师张佳曾经开过一门数据分析课,里面讲过这个工具,就去请教了他。

他告诉我,wordart 识别不了手动输入的 tab 键,需要先把数据输入到 excel 里面,然后复制到 wordart 才行。我按照他的方法,果然成功了。

有时候自己研究半天,不如专家一句话。


福利

之前我写了用 webscraper 抓取公众号标题教程后,有朋友问 webscraper 能不能抓取公众号的所有文章内容?

我研究了一下,没问题。

后来,又有朋友问,可以把公众号文章转换成 PDF 吗?

我研究了半天,最后得出了结论:webscraper 做不到这个。

但是我发现,公众号导出 PDF 这个需求,好像挺多人需要。于是就找了一个全栈技术大牛,让他看看能不能写程序实现这个。

过了几天,他给我发来一段程序,我运行了一下,惊呆了。

导出的公众号文章 PDF 排版和原文一模一样。(公众号后台回复“PDF”,可以查看示例)

不仅如此,这个程序连阅读数、点赞数都可以抓,太牛逼了,看下面图片。

image.png

我查了一下,现在市面上的导出公众号文章的工具,基本都是收费的,而且价格还不低。

淘宝上的店铺价格:

淘宝卖家1
淘宝卖家2

大概算下来,一个公众号大概需要 40 块钱,文章数多的话,可能会更多。

提供抓取公众号阅读数、点赞数的商家比较少,新榜提供公众号回采功能:

新榜公众号回采

例如:抓取「caoz的梦呓」公众号,选择抓取全部文章,300 榜豆。

image.png

1 榜豆 = 1 元!!!

好像确实有点贵。

马上双 11 了,我也凑个热闹,11.11 之前,免费帮读者抓取任意一个公众号所有文章并转换为 PDF 或者 html 或者全部文章的阅读、点赞数据。

如果觉得本文有帮助,可以分享给朋友哈。


知识星球精选站,是我做的一个网站,大家有兴趣可以看看。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容