#Python3组数据挖掘实战总结#

数据挖掘实战课程

章节1 课时2

定义

Data mining, DM

大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的、且有价值的信息和知识的过程。

  • 案例:啤酒与尿布

  • 可视化

  • 算法

  • 数据库

  • 机器学习

  • 统计学

  • 市场营销

  • 其他学科

数据挖掘工程师往往是熟悉和理解业务的人

数据挖掘 VS 数据分析

  • 分析重统计,挖掘偏预测
  • 分析[现状、原因、预测]
  • 挖掘[分类、聚类、关联、预测]
  • 分析[对比、分组、交叉、回归]
  • 挖掘[决策树、审计网络、关联规则、聚类分析]
  • 分析[指标统计量]
  • 挖掘[输出模型或规则]

模型VS规则

  • 模型:Y=f(X)
  • 规则:Y={y|age>30 & income>10000}

算法则是求解模型的步骤与方法

章节1 课时3

常见问题

商业角度的问题->数据挖掘

  • 用户流失,促销活动 -> 分类
  • 目标市场 -> 聚类
  • 交叉销售 -> 关联
  • 未来销量 -> 预测

各方法特点

  • 分类:有监督学习,已知目标分类的样本训练
  • 决策树、贝叶斯、KNN等
  • 用户流失,促销响应等
  • 聚类:无监督,物以类聚的思想
  • 层次、网格、密度等
  • 目标市场细分、现有客户细分等
  • 关联:无监督,别称购物篮分析,识别频繁发生的模式
  • Aprior、Carma、序列
  • 交叉销售
  • 预测:有监督学习
  • 线性回归、时间序列
  • 气温、GDP、收入、用户数预测等

章节1 课时4

CISP-DM

1. 商业理解

  • 确定商业目标:商业背景,成功标准
  • 确定挖掘目标:口径,数据,维度,成功标志
  • 制定项目方案:算法,时间安排

2. 数据理解

  • 收集
  • 描述
  • 探索
  • 质量描述

3. 数据准备

  • 导入、抽取、清洗、合并、变量计算

4. 模型构建

  • 训练集,验证集
  • 建模技术
  • 建立模型
  • 模型对比

5. 模型评估

  • 技术层面:设计对照组比较;评估指标要设计合理[命中率、覆盖率、提升度]
  • 业务经验

6. 模型部署

  • 营销过程跟踪
  • 观察模型衰退变化
  • 引入新的特征优化模型
  • 程序固化

章节2 课时5

文本挖掘

案例

常用词汇统计

语料库

待分析文档的集合

  • 通过循环将路径全部读入
filePaths = []
for root, dirs, files in os.walk(
    "D:\\PDM\\2.1\\SogouC.mini\\Sample"
):
    for name in files:
        filePaths.append(os.path.join(root, name))

章节2 课时6

中文分词

  • jieba

利用命令行pip install jieba即可

  • jieba.cut('我在用文本分析')
  • jieba.add_word('文本分析')

增加自定义分词,词库构建

  • jieba.load_userdict()

章节2 课时7

词频统计

  • 词频:Term Frequency

dataframe.groupby()

  • 词云
  • 无效词语的过滤
  • 最终统计剔除~isin(stopwords)
  • 分词时直接剔除

章节2 课时8

词云绘制

  • 词云:图形化表达词频
  • word cloud

章节2 课时9

词云梅花

  • 词云配合形状
  • 准备好词频数据
wordcloud
mask
  • 调整图片质量,尺寸

章节2 课时10

关键词提取

jieba.analyse.extract_tags(content, topK)

章节2 课时11

关键词提取原理

TF-IDF原理

  • 词频TF
  • 逆文档频率(权重),log(文档综述/(包含该词的文档数+1) IDF
  • TF-IDF = TF * IDF

文档向量化

  • d_m 文档
  • w_n 分词
  • f_{ij}: 第i篇文章,分词j出现的次数

正则表达式

import re
re.complile(u'[\u400-u9fa5]+')

章节2 课时12

sklearn

scikit-learn, bsd-开源许可

  • 利用空格人工先做分词,仿照英文
  • 保留最短长度:中文单字可成词
  • sort by TF-IDF方法
  • 向量化:sklearn.feature_extraction.text.CountVectorizer
  • TF-IDF计算:sklearn.feature_extraction.text.TfidfTransformer

章节2 课时13

相似文章推荐

推荐

  • 好的人+事物,相似推荐+协同过滤推荐
  • 相似推荐:用户表现出对某人/物的兴趣,为它推荐类似的人/物--人以群分,物以类聚
  • 协同过滤:已有用户群历史的行为与偏好,预测当前用户的偏好

理论依据:余弦相似度

  • pairwise_distance

章节2 课时14

自动摘要

短文,全面准确反映

  • 原理:类似余弦定理
  • 算法:
  • 获取到需要摘要的文章
  • 对该文章进行词频统计
  • 对该文章进行分句(跟进标点)
  • 计算分句与文章之间的余弦相似度
  • 取相似度最高的分句,作为文章的摘要

章节3 课时15

  • 相关系数

关联程度的基本测度之一

  • 相关分析基本特征
  • 方向:正、负相关
  • 量级:低度(0,0.3) 中度 [0.3,0.8) [0.8,1]
numpy.corrcoef(X,Y)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容

  • //我所经历的大数据平台发展史(三):互联网时代 • 上篇http://www.infoq.com/cn/arti...
    葡萄喃喃呓语阅读 51,033评论 10 200
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,003评论 1 24
  • 以下内容都是在工作中的一些小实践,代码部分是参考网上的已有的然后再自行根据情况修改过的。记载主要是想以后用的时候可...
    H2016阅读 2,424评论 0 7
  • 宇飞来全国诚招分销商 我们宇飞来做的不只是手机,手机只是一个载体,它是:物联网的移动终端。 我们宇飞来真正做的是:...
    酷聊子堃阅读 121评论 0 0
  • 这么多年,都是自己一个人,习惯了受伤后自己舔干伤口。太想被人疼爱呵护,可渴望的尽头,是一次又一次的伤害。等爱,是一...
    吴晓wx阅读 210评论 0 0