认识数据挖掘

数据挖掘的方向

数据库技术角度
统计学角度
机器学习角度

一,数据挖掘的发展动力

1,数据量的增长

  • 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。

2,数据量繁多,缺乏寻找有用的信息

3,数据仓库技术金额数据挖掘技术

  • 数据仓库(Data Warehouse)和在线分析处理(OLAP)
  • 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
数据库技术的演化
  • 文件系统(1960s和以前)
  • 层次数据库和网状数据库(1970s)
  • 关系数据模型,关系数据库管理系统(RDBMS)的实现(1980s早期)
  • 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等)
  • 面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)(1980s晚期)
  • 数据挖掘,数据仓库,多媒体数据库和网络数据库(1990s)
  • 流数据管理和挖掘
    基于各种应用的数据挖掘
    XML数据库和整合的信息系统

二,什么是数据挖掘

数据挖掘(从数据中发现知识)
  • 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
  • 挖掘的不仅仅是数据,知识挖掘。
数据挖掘的引申
  • 数据库中的知识挖掘(KDD)
    知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获

数据挖掘的应用

  • 数据分析和决策支持
1 市场分析和管理
(1) 数据从哪里来
  • 信用卡交易,会员卡,商家优惠,客户服务,用户行为记录
(2) 目标市场
  • 构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等
  • 确定顾客的购买模式
(3) 交叉市场分析

货物销售之间的相互联系和相关性,以及基于这种联系上的预测

(4) 顾客分析
  • 哪类顾客购买那种商品
  • 聚类分析或分类预测
(5) 客户需求分析
  • 确定适合不同顾客的最佳商品,用户购买商品分类
  • 预测何种因素能够吸引新顾客,分析顾客购买产品的特征
(6) 概要信息提供
  • 多维度的综合报告
  • 统计概要信息(数据的集中趋势和变化)
2 公司风险分析和管理
(1)财务计划
  • 现金流转分析和预测
  • 交叉区域分析和时间序列分析(财务资金比率,趋势分析等)
(2) 资源计划
  • 总结和比较资源花费
(3) 市场竞争
  • 对竞争者和市场趋势的监控
  • 将顾客按等级分组和基于等级的定价过程
  • 将定价策略应用于竞争更激烈的市场中
3 欺诈行为检测和异常模式的发现
(1)方法
  • 对欺骗行为进行聚类和建模,并进行孤立点分析
(2) 应用
  • 卫生保健、零售业、信用卡服务、电信等
    汽车保险:相撞事件的分析
    非法交易

  • 医疗保险
    职业病人,医生以及相关数据分析
    不必要的或相关的测试

  • 电信 :电话呼叫欺骗行为
    电话呼叫模型 :呼叫目的地,持续时间,日或周呼叫次数。分析该模型发现与期待标准的偏差

  • 零售行业

  • 欺骗检测和异常模式的监测(孤立点)

3 其他应用
  • 文本挖掘(新闻组,电子邮件,文档)和WEB挖掘
    数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络销售的有效性。
  • 流数据挖掘
  • DNA和数据分析

数据挖掘的步骤

业务模式识别
  • 了解应用的领域,应用的目标和相关的知识
创建目标数据集
  • 选择数据
数据清理和预处理
数据缩减和变换
  • 找到有用的特征,维数缩减/变量缩减,不变量的表示。
选择数据挖掘的功能
  • 数据总结、分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等。
数据挖掘算法
模式评估和知识表示
  • 可视化,转换,消除冗余
运用发现的知识
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,688评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,559评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,749评论 0 226
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,581评论 0 191
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,741评论 3 271
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,684评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,122评论 2 292
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,847评论 0 182
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,441评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,939评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,333评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,783评论 2 236
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,275评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,830评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,444评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,553评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,618评论 2 249