浅谈数据分析(挖掘)、机器学习、深度学习和人工智能

奋斗吧青春

本文意在简单区分这几者的关系,然后简单阐述如何去学习这几个应用.


数据分析

数据分析

引用自→维基百科|数据分析

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据

数据分析可以处理大量数据,并确定这些数据最有用的部分。本学科近年来的成功,很大程度上是因为制图技术的提高。这些图可以通过直接分析数据,来突出难以捕捉的关系;更重要的是,这些表达方法与基于现象分布的“先验”观念无关,与经典统计方法正相反。

数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物


数据挖掘

数据挖掘

引用自→维基百科|数据挖掘

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程

数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“数据库知识发现”(KDD)的分析步骤,本质上属于机器学习的范畴。

类似词语“数据捕捞”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以创建新的假设来检验更大数据总体。


人工智能

人工智能

引用自→维基百科|人工智能

人工智能(英语:artificial intelligence,缩写为 AI)亦称机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序的手段实现的人类智能技术。该词也指出研究这样的智能系统是否能够实现,以及如何实现。始后,人类的无数职业逐渐被其取代。

一般教材中的定义领域是“智能主体(intelligent agent)的研究与设计”,智能主体指一个可以观察周遭环境并作出行动以达致目标的系统。约翰·麦卡锡于1955年的定义是“制造智能机器的科学与工程”。

人工智能的研究是高度技术性和专业的,各分支领域都是深入且各不相通的,因而涉及范围极广。人工智能的研究可以分为几个技术问题。其分支领域主要集中在解决具体问题,其中之一是,如何使用各种不同的工具完成特定的应用程序。

AI的核心问题包括建构能够跟人类似甚至超越的推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。人工智能目前仍然是该领域的长远目标。目前强人工智能已经有初步成果,甚至在一些视频识别、语言分析、棋类游戏等等单方面的能力达到了超越人类的水平,而且人工智能的通用性代表着,能解决上述的问题的是一样的AI程序,无须重新开发算法就可以直接使用现有的AI完成任务,与人类的处理能力相同,但达到具备思考能力的统合强人工智能还需要时间研究,比较流行的方法包括统计方法,计算智能和传统意义的AI。目前有大量的工具应用了人工智能,其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学,以及基于概率论和经济学的算法等等也在逐步探索当中。 思维来源于大脑,而思维控制行为,行为需要意志去实现,而思维又是对所有数据采集的整理,相当于数据库,所以人工智能最后会演变为机器替换人类。

人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总括来说,“人工系统”就是通常意义下的人工系统。

关于什么是“智能”,就问题多多了。这涉及到其它诸如意识(consciousness)、自我(self)、心灵(mind),包括无意识的精神(unconscious mind)等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能必要元素的了解也很有限,所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。

人工智能目前在计算器领域内,得到了愈加广泛的发挥。并在机器人、经济政治决策、控制系统、仿真系统中得到应用。


机器学习

机器学习

引用自→维基百科|机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。


深度学习

引用自→维基百科|深度学习

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。表示方法来自神经科学,并松散地创建在类似神经系统中的信息处理和对通信模式的理解上,如神经编码,试图定义拉动神经元的反应之间的关系以及大脑中的神经元的电活动之间的关系。

至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

另外,“深度学习”已成为类似术语,或者说是神经网络的品牌重塑。


人工神经网络

这里顺便提一下人工神经网络
引用自→维基百科|人工神经网络

人工神经网络(英语:Artificial Neural Network,ANN),简称神经网络(Neural Network,NN)或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统,通俗的讲就是具备学习功能。[来源请求]现代神经网络是一种非线性统计性数据建模工具。

神经网络的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化,所以也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。

和其他机器学习方法一样,神经网络已经被用于解决各种各样的问题,例如机器视觉和语音识别。这些问题都是很难被传统基于规则的编程所解决的。

此外,深度学习经常使用人工神经网络算法.


数据分析>数据挖掘 and 人工智智能>机器学习>深度学习→联系

从上面的简介来看,大家应该是有所了解的了.


image

数据分析与数据挖掘的关系

数据分析是对数据表明关系的分析,或者说对数据价值的直接获取;数据挖掘是对数据内涵价值的获取. 也可以通俗的理解数据挖掘是数据分析的深化。

数据分析人员需要理解业务的核心指标,通过数据分析工具(比如R/SAS/SQL,或者内部的数据平台)对业务数据进行建模和分析,为相关的业务指标提供基于数据的解决方案。所以,数据分析岗位要求具备扎实的统计学功底和对数据的敏感。数据挖掘人员需要研究数据,试验和选择合适的机器学习相关的算法模型对数据进行建模和分析,最后自己在实际系统中将算法模型进行高性能的工程实现。所以,数据挖掘岗位要求同时具备深厚的机器学习功底和扎实的编程能力。

数据分析与数据挖掘不是相互独立的。数据分析通常是直接从数据库取出已有信息,进行一些统计、可视化、文字结论等,最后可能生成一份研究报告性质的东西,以此来辅助决策。但很多情况下,这种分析往往不解渴。如果要分析这些已有信息背后隐藏的信息呢,而这些信息通过观察往往是看不到的,这时数据挖掘就冲在了数据分析的前面,作为分析之前要走的一个门槛。


数据挖掘与机器学习的关系

数据挖掘主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

机器学习是数据挖掘的一种重要方法,但机器学习是另一门学科,并不从属于数据挖掘,二者相辅相成。


人工智能与机器学习、深度学习的关系

严格意义上说,人工智能和机器学习没有直接关系,只不过是机器学习的方法被大量的应用于解决人工智能的问题而已。目前机器学习是人工智能的一种实现方式,也是最重要的实现方式。

深度学习是机器学习比较火的一个方向,其本身是神经网络算法的衍生,在图像、语音等富媒体的分类和识别上取得了非常好的效果。


书籍推荐

book

推荐几本相关的书籍吧.

《Python数据分析实战》

Python数据分析实战

书籍简介:

Python 简单易学,拥有丰富的库,并且具有极强的包容性。本书展示了如何利用Python 语言的强大功能,以最小的编程代价进行数据的提取、处理和分析,主要内容包括:数据分析和Python 的基本介绍,NumPy 库,pandas 库,如何使用pandas 读写和提取数据,用matplotlib 库和scikit-learn 库分别实现数据可视化和机器学习,以实例演示如何从原始数据获得信息、D3 库嵌入和手写体数字的识别。

  • 书籍下载:关注个人公众账号 浅谈java全栈技术 回复电子书13

《深入浅出深度学习:原理剖析与Python实践》

深入浅出深度学习:原理剖析与Python实践

书籍简介:

《深入浅出深度学习:原理剖析与Python实践》介绍了深度学习相关的原理与应用,全书共分为三大部分,第一部分主要回顾了深度学习的发展历史,以及Theano的使用;第二部分详细讲解了与深度学习相关的基础知识,包括线性代数、概率论、概率图模型、机器学习和最优化算法;在第三部分中,针对若干核心的深度学习模型,如自编码器、受限玻尔兹曼机、递归神经网络和卷积神经网络等进行详细的原理分析与讲解,并针对不同的模型给出相应的具体应用。

《深入浅出深度学习:原理剖析与Python实践》适合有一定高等数学、机器学习和Python编程基础的在校学生、高校研究者或在企业中从事深度学习的工程师使用,书中对模型的原理与难点进行了深入分析,在每一章的最后都提供了详细的参考文献,读者可以对相关的细节进行更深入的研究。最后,理论与实践相结合,《深入浅出深度学习:原理剖析与Python实践》针对常用的模型分别给出了相应的应用,读者也可以在Github中下载和查看《深入浅出深度学习:原理剖析与Python实践》的代码(https://github.com/innovation-cat/DeepLearningBook)。

  • 书籍下载:关注个人公众账号 浅谈java全栈技术 回复电子书14

《Python大战机器学习:数据科学家的第一个小目标》

Python大战机器学习:数据科学家的第一个小目标

书籍简介:

数据科学家是当下炙手可热的职业,机器学习则是他们的必备技能。机器学习在大数据分析中居于核心地位,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用且日益受到关注。

Python 是最好最热门的编程语言之一,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。

《Python大战机器学习:数据科学家的第一个小目标》以快速上手、四分理论六分实践为出发点,讲述机器学习的算法和Python 编程实践,采用“原理笔记精华+ 算法Python 实现+ 问题实例+ 代码实战+ 运行调参”的形式展开,理论与实践结合,算法原理与编程实战并重。

《Python大战机器学习:数据科学家的第一个小目标》从内容上分为13 章分4 篇展开:第一篇:机器学习基础篇(第1~6 章),讲述机器学习的基础算法,包括线性模型、决策树、贝叶斯分类、k 近邻法、数据降维、聚类和EM算法;第二篇:机器学习高级篇(第7~10 章),讲述经典而常用的高级机器学习算法,包括支持向量机、人工神经网络、半监督学习和集成学习;第三篇:机器学习工程篇(第11~12章),讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等;第四篇:Kaggle 实战篇(第13 章),讲述一个Kaggle 竞赛题目的实战。

《Python大战机器学习:数据科学家的第一个小目标》内容丰富、深入浅出,算法与代码双管齐下,无论你是新手还是有经验的读者,都能快速学到你想要的知识。本书可供为高等院校计算机、金融、信息、自动化及相关理工科专业的本科生或研究生使用,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。

  • 书籍下载:关注个人公众账号 浅谈java全栈技术 回复电子书15

注:分享的这本没有目录,可以自己添加,添加方法如下
PDF电子书如何一键添加书签


《利用Python进行数据分析》

image

书籍简介:

还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。

由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。

•将IPython这个交互式Shell作为你的首要开发环境。

•学习NumPy(Numerical Python)的基础和高级知识。

•从pandas库的数据分析工具开始。

•利用高性能工具对数据进行加载、清理、转换、合并以及重塑。

•利用matplotlib创建散点图以及静态或交互式的可视化结果。

•利用pandas的groupby功能对数据集进行切片、切块和汇总操作。

•处理各种各样的时间序列数据。

•通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。

这本书的中文版第二版已经在2018.7出版了.

《利用Python进行数据分析|原书第2版》

更新:

本书由Python pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题。

第2版中的主要更新包括:

• 所有的代码,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)

• 更新了Python第三方发布版Anaconda和其他所需Python包的安装指引

• 更新pandas库到2017年的新版

• 新增一章,关于更多高级pandas工具和一些使用提示

• 新增statsmodels和scikit-learn的简明使用介绍

我这里没有找到中文第二版的PDF,不过也有大咖在简书上发布了自己的翻译版.

  • 第一版书籍下载:关注个人公众账号浅谈java全栈技术 回复电子书16
  • 第二版中文版阅读地址:①简书翻译GitHub阅读

image

终于可以更好的学Python和数据分析>数据挖掘 and 人工智智能>机器学习>深度学习了


欢迎关注我的个人公众账号:浅谈java全栈技术

微信公众号

推荐阅读更多精彩内容