数据挖掘

数据挖掘

1 目的

数据挖掘用于通过从数据中发现有用的模式和见解来改进决策。

2 描述

数据挖掘是一种分析过程,它从不同角度研究大量数据,并以发现有用模式和关系的方式对数据进行汇总。

数据挖掘技术的结果通常是描述潜在模式或关系的数学模型或方程式。这些模型可以通过可视化仪表板和报告供人类决策使用,也可以通过业务规则管理系统或数据库部署用于自动决策系统。

数据挖掘可以用于监督或非监督的研究。在监督研究中,用户可以提出问题并期望得到一个答案来驱动他们的决策。非监督研究是一种纯粹的模式发现练习,在那里允许模式出现,并且随后考虑其适用于商业决策。

数据挖掘是一个泛指,包括描述性、诊断性和预测性技术:

  • 描述性:例如聚类使得更容易看到数据集中的模式,比如客户之间的相似性。
  • 诊断:例如决策树或分段可以显示模式存在的原因,例如组织最有利可图的客户的特点。
  • 预测:如回归分析或神经网络,可以预测将来某事发生的可能性,例如预测特定说法为欺诈的概率。

在所有情况下,重要的是要考虑数据挖掘的目标,并为获取正确类型、数量和质量的数据做好准备。

3 元素

.1 需求获取

数据挖掘的目标和范围 通常是在确定的重要业务决策方面,或者在相关数据领域中进行模式发现。 这种自上而下的方法与自下而上的方法相结合,使分析师能够选择正确的数据挖掘技术。

用于自上而下的数据挖掘练习的要求定义使用正式的决策建模 [1]技术(参见 决策建模)。对于自下而上的模式发现练习,如果发现的见解可以放置在现有的决策模型中,则很有用,从而允许快速使用和部署这些见解。

数据挖掘练习 在敏捷环境中 是高效的。 它们帮助快速迭代、确认和部署,同时提供项目控制。

.2 数据准备:分析数据集

数据挖掘工具运行在分析数据集上。这通常是由合并来自多个表或来源的记录,形成一个单一的、宽的数据集。重复组通常被折叠为多个字段集。数据可以物理提取到一个实际文件中,也可以保留在数据库或数据仓库中的虚拟文件中,以便进行分析。分析数据集分为用于分析的一组、完全独立的一组用于验证模型是否适用于未用于开发该模型的数据,并且作为最终确认的验证集。数据量可能非常大,有时会导致需要与样本一起工作,或在数据存储中工作,这样就不必移动数据。

.3 数据分析

一旦数据可用,就会进行分析。通常会应用各种统计量并使用可视化工具来查看数据值是如何分布的、哪些数据缺失了以及各种计算特征的表现如何。这通常是数据挖掘工作中最长也是最复杂的一步,并且越来越成为自动化的焦点。数据挖掘工作的大部分力量通常来自于在数据中发现有用的特征。例如,一个特征可能是客户在过去80天内访问商店的次数。确定过去80天内的计数比过去70或90天更有用是关键。

.4 模型技术

数据挖掘技术有很多。

数据挖掘技术的一些例子包括:

  • 分类与回归树(CART)、C5 等其他决策树分析技术,
  • 线性回归 和逻辑回归,
  • 神经网络,
  • 支持向量机,以及
  • 预测性(加法)评分卡。

分析数据集和计算特征输入到这些算法中,这些算法要么是无监督的(用户不知道他们在寻找什么),要么是有监督的(用户试图找到或预测特定的东西)。通常会使用多种技术来查看哪种效果最好。从建模中分离出一些数据,并用它来验证结果是否可以与在初始创建过程中未使用的数据重复。

.5 部署

一旦建立了模型,就必须部署它才能发挥效用。数据挖掘模型可以通过多种方式部署,以支持人类决策者或支持自动决策系统。对于人类用户来说,可以使用可视化隐喻或将数据字段呈现为简单的数据来展示数据挖掘结果。 许多 数据挖掘技术 可以识别潜在的业务规则,并通过业务规则管理系统进行部署。 业务规则可以像专家规则一样与决策模型相结合。 一些数据挖掘技术——尤其是那些被称为预测分析的技术——会产生数学公式。 这些也可以作为可执行的业务规则部署,也可以用于生成 SQL 或代码进行部署。 越来越多的在数据库中的部署选项允许此类模型集成到组织的数据基础架构中。

4 使用考虑情况

.1 优势

  • 在分析过程中揭示隐藏的模式并创建有用的见解——帮助确定可能有用的数据,或者特定建议可能会对多少人产生影响。
  • 可以集成到系统设计中,提高数据准确性。
  • 可以通过使用数据来确定事实,从而消除或减少人类偏见。

.2 限制

  • 不了解其工作原理而应用某些技术可能会导致错误的相关性和误用见解。
  • 访问大数据以及复杂的 数据挖掘 工具集和软件可能会导致意外的滥用。
  • 许多技术和工具需要专业知识才能使用。
  • 一些技术在背后使用了高级数学,而一些涉众可能无法直接了解结果。 对透明度的感知不足可能会导致某些涉众的抵制。
  • 如果决策过程不为人所知,那么数据挖掘的结果可能很难部署。

本文同步发表在 软件需求探索http://www.srs.pub/babok/shujuwajue.html


  1. 商业分析中的五十种分析方法和技巧之17-决策建模.http://www.srs.pub/babok/juece-jianmo.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,585评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,923评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,314评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,346评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,718评论 3 291
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,828评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,020评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,758评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,486评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,722评论 2 251
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,196评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,546评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,211评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,132评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,916评论 0 200
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,904评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,758评论 2 274

推荐阅读更多精彩内容