get数据技能

0.051字数 3804阅读 404

《哈佛商业评论》把数据科学家誉为“21 世纪最性感的职业”。虽说如此称呼有些夸张,但这个名称对数据科学的推崇却一点也没错,也预示了数据科学行业的蓬勃发展和无限前途。

今天小编就盘点了一下有关数据的图书,有一本免费码农杂志,三本R,三本数据科学,还有数据采集、数据清洗、数据挖掘、python数据分析、spark数据分析......,最后还有一本非技术数据分析的书。

get数据技能,从看码农杂志开始,走起~

免费码农杂志第24期——《数据技能》 

图灵第24期《码农》选取了数据采集、数据清洗、数据分析和数据可视化方向的代表性文章,帮助你掌握从事数据科学工作所面临的问题及必备技能。他们还请来了负责微博数据库的技术经理肖鹏,分享他结缘MySQL并成为数据库专家的经历,揭秘新浪MySQL集群结构经历的3次重大变化,以及他对MySQL初学者的诚恳建议。


要想认真理解数据,学习编程至关重要。《R语言入门与实践》能充分调动你学习编程的积极性。

Hands-On Programming with R: Write Your Own Functions and Simulations

将R编程的方方面面巧妙地融合在三个精心挑选的示例中,让你轻松入门R语言

书中内容围绕着三个实际的编程挑战展开。如果能够顺利地掌握应对这三个挑战的技术,你将掌握关于 R 编程的基本知识,甚至还能学习一些中级技能,比如向量化编程、作用域和 S3 方法等。

目录及试读:

目录

前言 

第一部分 项目 1:非均匀骰子

第 1 章 R 基础 








注重实用性,一本全面而细致的R指南——《R语言实战(第2版)》  

R in Action, Second Edition: Data analysis and graphics with R

上版豆瓣评分8.8分

从实际数据分析出发,全面掌握R编程

新增时间序列、聚类分析、分类,ggplot2,高级编程,创建包,创建动态报告(R Markdown, LaTeX)等近200页内容

本书的目的是让读者熟悉R平台,重点关注那些能马上用于操作、可视化和理解数据的方法。全书共22章,分为5部分:“入门”“基础方法”“中级方法”“高级方法”和“技能拓展”。在7个附录中还有更多的相关内容。

目录及试读:

目录 

前言

关于本书

第一部分 入门

第 1 章 R语言介绍


从R包的使用者晋升为R包的开发者,从《R包开发》开始。

R Packages: Organize, Test, Document, and Share Your Code

RStudio首席科学家、R社区最有影响力的开发者Hadley Wickham十几年经验总结

统计之都创始人谢益辉、统计之都理事会主席冯凌秉作序推荐

美亚4.6星评,R开发进阶必备

一本使用R语言构建高质量软件的实用指南

主要内容包括:R包基础知识介绍,包的基本结构和可能形式,R代码,包的元数据,对象文档,长格式文档,数据,命名空间,编译过的代码,Git和GitHub,发布包,等等。

目录及试读:

目录 

中文版推荐序一 

中文版推荐序二 

译者序 

前言 

第 1 章 简介 

本书还没上市,预计8月底9月初上市。


从零开始着手数据科学工作,自己亲手构建工具和实现算法——《数据科学入门》 

Data Science from Scratch: First Principles with Python

介绍数据科学基本知识的重量级读本,Google数据科学家Joel Grus出品

本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境,从零开始讲解数据科学工作、

具体内容包括:Python速成,可视化数据,线性代数,统计,概率,假设与推断,梯度下降法,如何获取数据,k近邻法,朴素贝叶斯算法,等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念,详细展示了什么是数据科学。

目录及试读:

目录 

前言

第 1 章 导论 


大数据时代的实战宝典——《数据科学实战》  

Doing Data Science

豆瓣评分8.7分

脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义

谷歌、微软、eBay等公司一线数据科学家真知灼见,揭秘数据科学相关的最新算法、方法与模型

本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。

目录及试读:

目录 

作者介绍 

前言 

第 1 章 简介:什么是数据科学 


高效数据分析必备——《命令行中的数据科学》 

Data Science at the Command Line

本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OSX,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。

目录及试读:

目录 

前言

第1章  简介

网络数据采集技术入门书——《Python网络数据采集》 

Web Scraping with Python: Collecting Data from the Modern Web

“用python3讲一个完整的数据爬取和清洗的过程”

不断提供开源代码示例来展示网络数据采集常用手段,剖析网络表单安全措施,完成大数据采集任务

本书共两部分,第一部分讲网络数据采集的基本原理,并重点介绍全书都要用到的几个 Python 库。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。也提供了许多常用的参考资料来补充更多的信息。

目录及试读:

目录 

译者序

前言

第一部分 创建爬虫

第 1 章 初见网络爬虫


数据清洗入门与实践——《干净的数据》

Clean Data

真实示例讲解,真实项目实践

教你掌握高效数据清洗方法,为数据挖掘提供便利,让用户更好地体验大数据价值

本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。

目录及试读:

目录

前言 

第 1 章 为什么需要清洗数据

讲解互联网数据挖掘基本原理和方法——《社会媒体挖掘》 

Social Media Mining: An Introduction

集成了近年来社会媒体、社会网络分析以及数据挖掘的前沿成果,旨在提供一种简单的参考或一个起点,帮助研究者快速、全面地了解社会媒体挖掘的基础知识。

本书整合了社会媒体、社会网络分析以及数据挖掘的相关知识,为学生、从业者、研究人员和项目经理理解社会媒体挖掘的基础知识和潜能,提供了一个方便的平台。本书介绍了社会媒体数据独有的问题,并阐述了网络分析以及数据挖掘中的基本概念、新出现的问题和有效的算法。

目录及试读:

目录

译者序

第1章 引言

数据挖掘入门——《Python数据挖掘入门与实践》 

Learning Data Mining with Python

使用python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。

本书介绍了数据挖掘的基础知识、基本工具和实践方法,并附有大量代码示例。采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。也涉及神经网络、深度学习、大数据处理等内容。

目录及试读:

目录 

译者序

前言

第 1 章 开始数据挖掘之旅


了解数据分析全貌 ——《Python数据分析实战》

Python Data Analytics: Data Analysis and Science using PANDAs, matplotlib and the Python Programming Language

三个真实Python数据分析案例,将理论付诸实践

了解Python在信息处理、管理和检索方面的强大功能

学会如何利用Python及其衍生工具处理、分析数据

本书示例颇丰,在学习过程中,若能打开IPython Notebook,一点点跟着作者比划,想必新人也能出师,而有一定水平的开发者则可将其作为案头常备的参考书,以便节省不少查阅文档的时间。

本书还没上市,估计也在九月初左右上市,试读请点击题目上的书名。

一本为Spark初学者准备的书——《Spark快速大数据分析》  

Learning Spark: Lightning-Fast Big Data Analytics

国内第一本Spark图书,Spark开发者出品

让你快速掌握用 Spark 收集、计算、简化和保存海量数据的方法

学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题

“这本书不是简单地教开发者如何使用 Spark,而是更深入介绍了 Spark 的内部构成,并通过各种实例展示了如何优化大数据应用。我向大家推荐这本书,或更具体点,推荐这本书里提倡的优化方法和思路,相信它们能帮助你创建出更好的大数据应用。”

目录及试读:

目录 

推荐序 

译者序 

 

前言 

第 1 章 Spark 数据分析导论 



Spark实用手册——《Spark高级数据分析》  

Advanced Analytics with Spark

Cloudera公司数据科学家团队携手打造

内容强调实例,涵盖大规模数据分析中最常用的算法、数据集和设计模式。

“与许多书籍只着重描述最终方案不同,本书作者在介绍案例时把解决问题的整个过程也展现了出来。在介绍一个主题时,并不是一开始就给出最终方案,而是先给出一个最初并不完善的方案,然后指出方案的不足,引导读者思考并逐步改进,最终得出一个相对完善的方案。这体现了工程问题的解决思路,也体现了大数据分析是一个迭代的过程,这样的论述方式更能激发读者的思考,这一点实在难能可贵。”

目录及试读:

目录 

推荐序


前言

第 1 章 大数据分析


腾讯专家首次分享Spark最佳实践——《Spark最佳实践》 

UCloud季昕华、Databricks连城,阿里胡熠,棒米科技武泽胜,腾讯肖磊\靳志辉\徐羽等联袂推荐

基于真实数据,用案例分析全面解读大数据应用设计

循序渐进地介绍Spark的基本概念、核心思想、部署、开发,并提供多个典型场景的解决方案

Spark已有所知的读者可以更深入地了解其运行机制及精髓

全书共分8章,外加一篇附录。前4章介绍Spark本身,包括部署、工作机制、内核等。全书的重点在第5章~第8章,每章不但深入浅出地介绍Spark的一个功能模块,而且包含一个实战项目,项目利用国内互联网的真实数据为案例,搭建一个产品和平台输出。这些例子每个都可以是一个独立的大项目。

目录及试读:

目录

序  一

序  二

前  言


还有《学习R》 《大数据:互联网大规模数据挖掘与分布式处理(第2版)》 《数据挖掘导论(完整版)》 机器学习和数据库等等各种大数据相关的书,由于¥%#%&%@#¥@¥#@,小编先整理了以上这些,如果大家需要小编以后再接着整理。

最后的最后推荐给大家一本非技术数据分析的书。

《精益数据分析》

Lean Analytics: Use Data to Build a Better Startup Faster

精益系列丛书,《精益创业》作者埃里克·莱斯主编

本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了30多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。

目录及试读:

目录 

第 1 章 我们都在说谎 


推荐阅读更多精彩内容