糖果云发布在线词频统计功能,从一篇文章到一个G的文本均可轻松统计

词频分析是对文章中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。

前一阵子有一篇热文,小学生用大数据分析苏轼,说的就是清华附小的学生用词频分析方法对苏轼的作品进行了分析,很多网友解嘲说感觉智商遭到了暴击,其实只要有合适的工具谁都可以进行词频分析,下面介绍一个超强的词频分析网站:糖果云网站www.tgyun.cc

糖果云面向个人及团体提供大数据存储,大数据分析以及大数据交易市场服务。

​糖果云的总体目标是建设一个分类的知识库与数据库,方便全人类的查阅和检索,提高用户对知识获取的速度,提高了工作效率,和学习的进度,为推动人类知识进步做出贡献。

下面我们看看糖果网站提供的词频统计功能,下图是糖果云网站对红楼梦做出的词频统计:

http://www.tgyun.cc/lib/bigtang_红楼梦

从上图可以看到,红楼梦中哪个人物的篇幅最多?哪个人物曹雪芹更注重?这个统计就一清二楚了,我不是红学专家,这个统计里应该还有很多内容可以解说。

说到小学生,就再来看看小学生所做的研究,用大数据来分析苏轼:

下图是糖果云网站对苏轼诗词作品做出的词频统计:http://www.tgyun.cc/lib/user_苏轼诗词全集

词频统计技术涉及到分词技术,分词技术一般有两种做法:

一种是维护一个大词库,文章与词库匹配进行分词,这种方法有个缺点,就是需要不停的加入新词,否则新词统计不到,小学生的分析文章也提到,子由是一个新词,现代汉语没有叫做子由这个词的,那么苏轼的诗词中为什么这么多子由呢?原来子由是苏轼的弟弟!苏轼弟弟苏辙字子由, 苏东波字子瞻。

另一种叫做统计分词,糖果云采用的技术即为统计分词,可以看到子由是个新词,照样被糖果云统计到。这种技术无需担心新词,新词只要有使用量,就可以被统计出来。

糖果云的词频统计超级强大,无论是一篇文章还是几个G的文本,均可轻松统计。

那么怎么对你的文本资料进行词频统计呢?

操作方法:

1 把文章文本资料另存为txt文件;

2 把txt文件压缩成zip文件;

3 把zip文件上传到糖果云,之后,就可以在糖果云库中查找到该文章及词频统计数据了。

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 8,247评论 1 24
  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,142评论 3 24
  • 好吧,在我想到写这个题目的时候,想必你就应该知道我要说什么了吧!很简单,一句话,爱对了才是青春。最近的一波狗粮让我...
    德睿作者阅读 171评论 0 0
  • 有时候,感觉日子一天天过,工作一天天重复,年龄一天变大,但是生活仍然波澜不惊,像机器一样有序机械运转,只是闲...
    纸染斋阅读 563评论 3 11
  • 服务端代码 客户端直接telnet 127.0.0.1 4002即可
    CoderQ阅读 475评论 0 0
  • 每天用丢东西这种给物品放生的方式来学习放弃,学会珍惜当下,学习保持独立,适度拥有,不去浪费。 好久之前我就看过断舍...
    卡卡西sir阅读 194评论 2 3