什么是数据科学？

-- 未来属于将数据转化为产品的公司和人员。

网络上充满了“数据驱动的应用程序”。几乎所有的电子商务应用程序都是数据驱动的应用程序。Web前端后面有一个数据库，中间件与许多其他数据库和数据服务（信用卡处理公司，银行等）进行通信。但仅仅使用数据并不是我们所说的“数据科学”。数据应用程序从数据本身获取其价值，并因此创建更多数据。它不仅仅是一个包含数据的应用程序; 这是一个数据产品。数据科学可以创建数据产品。

Web上早期的数据产品之一是CDDB数据库。CDDB的开发人员意识到任何CD都有一个独特的签名，基于CD上每个轨道的确切长度（样本中）。Gracenote建立了一个轨道长度数据库，并将其与专辑元数据（轨道标题，艺术家，专辑标题）数据库相结合。如果您曾经使用过iTunes来翻录CD，那么您已经利用了这个数据库。在它做任何其他事情之前，iTunes会读取每首曲目的长度，将其发送到CDDB，然后取回曲目标题。如果您有一张不在数据库中的CD（包括您自己制作的CD），则可以为未知专辑创建一个条目。虽然这听起来很简单，但它具有革命性：CDDB将音乐视为数据而不是音频，并为此创造了新的价值。他们的业务根本不同于销售音乐，分享音乐，或分析音乐品味（尽管这些也可以是“数据产品”）。CDDB完全源于将音乐问题视为数据问题。

Google是创建数据产品的大师。以下是一些例子：

谷歌的突破是意识到搜索引擎可以使用除页面上文本之外的输入。谷歌的PageRank算法是最先使用页面外部数据的算法之一，特别是指向页面的链接数量。跟踪链接使Google搜索变得更加有用，PageRank一直是公司成功的关键因素。
拼写检查并不是一个非常棘手的问题，但通过建议对拼写错误的搜索进行更正，并观察用户点击的响应，谷歌使其更加准确。他们建立了一个常见的拼写错误字典，它们的修正以及它们发生的背景。
语音识别一直是一个难题，但仍然很难。但谷歌通过使用他们收集的语音数据取得了巨大进步，并且能够将语音搜索集成到他们的核心搜索引擎中。
在2009年猪流感疫情期间，谷歌能够通过跟踪流感相关主题的搜索来跟踪流行病的进展。

image.png

谷歌并不是唯一知道如何使用数据的公司。Facebook和LinkedIn使用友谊关系的模式来建议您可能知道或应该知道的其他人，有时候会有可怕的准确性。亚马逊保存您的搜索，将您搜索的内容与其他用户搜索的内容相关联，并使用它来创建令人惊讶的合适推荐。这些建议是“数据产品”，有助于推动亚马逊更传统的零售业务。他们之所以出现，是因为亚马逊了解到一本书不仅仅是一本书，一台相机不仅仅是一台相机，一个顾客不仅仅是一个顾客; 客户生成可以挖掘并投入使用的“数据耗尽”踪迹，摄像头是一个数据云，可以与客户的行为相关联，他们每次访问网站时都会留下这些数据。

将大多数这些应用程序连接在一起的线程是从用户收集的数据提供了附加价值。无论该数据是搜索术语，语音样本还是产品评论，用户都处于反馈循环中，他们在这些循环中为他们使用的产品做出贡献。这是数据科学的开始。

在过去几年中，可用的数据量激增。无论我们是在谈论网络服务器日志，推文流，在线交易记录，“公民科学”，来自传感器，政府数据或其他来源的数据，问题都在于找不到数据，它正在弄清楚如何处理它。而且不只是公司使用他们自己的数据，或者是用户贡献的数据。混搭来自多个来源的数据越来越普遍。“ R中的数据混搭“通过县治安官办公室的公开报告，提取地址并使用雅虎将地址转换为纬度和经度，然后使用地理数据将取消抵押品赎回权放置在地图上（另一个数据源），分析费城县的抵押丧失抵押品赎回权，并按邻域，估值，邻里人均收入和其他社会经济因素对它们进行分组。

今天每家公司，每个创业公司，每个非营利组织，每个希望吸引社区的项目网站面临的问题是如何有效地使用数据 - 不仅仅是他们自己的数据，而是所有可用和相关的数据。有效地使用数据需要不同于传统统计的东西，其中商务套装中的精算师执行晦涩但相当明确的分析。数据科学与统计学的区别在于数据科学是一种整体方法。我们越来越多地在野外寻找数据，数据科学家参与收集数据，将其按照易于处理的形式，使其讲述故事，并将这些故事呈现给其他人。

为了了解所需的技能，让我们看一下数据生命周期：它来自何处，如何使用它以及它的去向。

数据从何而来

数据无处不在：您的政府，您的网络服务器，您的业务合作伙伴，甚至您的身体。虽然我们没有淹没在数据海洋中，但我们发现几乎所有东西都可以（或已经）进行了检测。在O'Reilly，我们经常将来自Nielsen BookScan的出版业数据与我们自己的销售数据，公开的亚马逊数据，甚至是就业数据相结合，以了解出版业正在发生的事情。Infochimps和Factual等网站提供对许多大型数据集的访问，包括气候数据，MySpace活动流和体育赛事的游戏日志。Factual邀请用户更新和改进其数据集，其中涵盖了内分泌学家和远足径等各种主题。

image.png

IBM首批商用磁盘驱动器之一。它有5 MB的容量，存放在一个大小与豪华冰箱大小相当的机柜中。相比之下，32 GB的microSD卡尺寸约为5/8 x 3/8英寸，重量约为0.5克。
我们目前使用的大部分数据都是Web 2.0的直接后果，以及应用于数据的摩尔定律。网络让人们在网上花费更多时间，并随时随地留下数据。移动应用程序留下了更丰富的数据记录，因为其中许多都是通过地理位置注释，或涉及视频或音频，所有这些都可以挖掘。销售点设备和常客购物卡可以捕获您的所有零售交易，而不仅仅是您在线交易。如果我们无法存储它，所有这些数据都将毫无用处，这就是摩尔定律的用武之地。自80年代初以来，处理器速度从10 MHz增加到3.6 GHz - 增加360（不包括字长和内核数量的增加）。但是我们已经看到每个级别的存储容量都有更大的增长。内存从$ 1,000 / MB变为大约25美元/ GB - 价格减少约40000，更不用说减小尺寸和提高速度。日立在1982年制造了第一个千兆字节的磁盘驱动器，重约250磅; 现在太字节驱动器是消费类设备，32 GB microSD卡重约半克。无论您是查看每克位数，每美元位数还是原始容量，存储都可以跟上CPU速度的增长步伐。

应用于数据的摩尔定律的重要性不仅仅是极客烟火。数据会扩展以填充您必须存储的空间。存储空间越多，您可以找到的数据就越多。每当您在网上冲浪，在Facebook上与朋友交谈或在当地超市购物时，您留下的数据都会被精心收集和分析。增加存储容量需要在分析和使用该数据时提高复杂性。这是数据科学的基础。

那么，我们如何使这些数据有用呢？任何数据分析项目的第一步是“数据调节”，或将数据置于可用的状态。我们看到更多数据采用更易于使用的格式：Atom数据馈送，Web服务，微格式和其他更新技术以直接机器消耗的格式提供数据。但旧式的屏幕刮擦并没有死亡，也不会死亡。许多“野生数据”来源非常混乱。它们不是表现良好的XML文件，所有元数据都很合适。“ R中的数据混搭”中使用的止赎数据“由费城县治安官办公室张贴在公共网站上。此数据显示为HTML文件，可能是从电子表格自动生成的。如果您曾经见过Excel生成的HTML，那么您知道处理它会很有趣。

数据调节可能涉及使用Beautiful Soup等工具清理凌乱的HTML，使用英语和其他语言解析纯文本的自然语言处理，甚至让人类进行肮脏的工作。您可能正在处理一系列数据源，所有数据源都以不同的形式存在。如果有一套标准的工具来完成这项工作会很好，但事实并非如此。要进行数据调节，你必须为任何事情做好准备，并且愿意使用从古代Unix实用程序（如awk）到XML解析器和机器学习库的任何东西。脚本语言，如Perl 和Python，是必不可少的。

解析数据后，您就可以开始考虑数据的质量了。数据经常丢失或不协调。如果缺少数据，您是否只是忽略了缺失点？这并不总是可行的。如果数据不协调，您是否认为行为不当的数据出现了问题（毕竟设备出现故障），或者说不协调的数据是在讲述自己的故事，这可能更有趣？据报道，臭氧层消耗的发现被推迟，因为自动数据收集工具丢弃的读数太低 ¹。在数据科学中，你拥有的通常是你将获得的。获取“更好”的数据通常是不可能的，除了处理手头的数据之外你别无选择。

如果问题涉及人类语言，理解数据会为问题增加另一个维度。负责管理O'Reilly数据分析小组的Roger Magoulas最近在数据库中搜索需要地理定位技能的Apple职位列表。虽然这听起来像一个简单的任务，但诀窍是在苹果行业不断发展的许多工作岗位中消除了“苹果”的歧义。要做得好，你需要了解职位发布的语法结构; 你需要能够解析英语。这个问题越来越频繁出现。尝试使用Google趋势来弄清楚Cassandra 数据库或Python发生了什么语言，你会发现问题。谷歌已经为许多关于大型蛇的网站编制了索引。消除歧义绝非易事，但像Natural Language Toolkit 库这样的工具可以使它更简单。

当自然语言处理失败时，您可以用人类智能取代人工智能。这就是像亚马逊的Mechanical Turk这样的服务进入的地方。如果你可以将你的任务分成大量易于描述的子任务，你可以使用Mechanical Turk的市场来获得廉价劳动力。例如，如果您正在查看工作列表，并想知道哪些来自Apple，那么您可以让真正的人进行分类，每个大约0.01美元。如果你已经使用单词“Apple”将设置减少到10,000个帖子，那么付给人类0.01美元来分类它们只需花费100美元。

大规模处理数据

我们都听过很多关于“大数据”的消息，但“大”真的是一个红色的鲱鱼。石油公司，电信公司和其他以数据为中心的行业长期以来拥有庞大的数据集。随着存储容量的不断扩大，今天的“大”肯定是明天的“中等”和下周的“小”。我听过的最有意义的定义是：“大数据”是指数据本身的大小成为问题。我们正在讨论数据问题，从千兆字节到数千兆字节的数据。在某些时候，处理数据的传统技术已经失去了作用。

我们试图用不同的数据做什么？根据Jeff Hammerbacher ²（@hackingdata）的说法，我们正在尝试构建信息平台或数据空间。信息平台与传统数据仓库类似，但不同。它们公开了丰富的API，旨在探索和理解数据，而不是传统的分析和报告。它们接受所有数据格式，包括最杂乱的数据格式，并且随着对数据变化的理解，它们的模式也会发展。

大多数构建数据平台的组织都发现有必要超越关系数据库模型。传统的关系数据库系统在这种规模上不再有效。管理大量数据库服务器的分片和复制既困难又缓慢。提前定义模式的需要与多个非结构化数据源的实际情况相冲突，在您分析数据之前，您可能不知道什么是重要的。关系数据库旨在实现一致性，以支持复杂的事务，如果任何一组复杂的操作失败，这些事务都可以轻松回滚。虽然坚如磐石的一致性对许多应用程序至关重要，但我们在此讨论的分析并不是必需的。如果你有1,010或1，你真的在乎吗？012 Twitter粉丝？Precision具有吸引力，但在大多数数据驱动的财务以外的应用程序中，这种诱惑具有欺骗性。大多数数据分析都是比较性的：如果你问北欧的销售增长是否快于对南欧的销售增长，你并不担心年增长率为5.92％和5.93％之间的差异。

为了有效地存储大量数据集，我们已经看到出现了一种新的数据库。这些通常被称为NoSQL数据库或非关系数据库，但这两个术语都不是非常有用。他们通过告诉你它们不是什么来将基本不同的产品组合在一起。其中许多数据库是Google BigTable和Amazon Dynamo的逻辑后代，旨在分布在多个节点上，提供“最终一致性”但不是绝对一致性，并且具有非常灵活的架构。虽然有二十几种产品可供使用（几乎所有产品都是开源的），但一些领导者已经确立了自己的地位：

Cassandra：在Facebook开发，在Twitter，Rackspace，Reddit和其他大型网站上使用。Cassandra专为高性能，可靠性和自动复制而设计。它具有非常灵活的数据模型。一家新创业公司Riptano提供商业支持。
HBase：Apache Hadoop项目的一部分，以Google的BigTable为蓝本。适用于分布在数千个节点上的超大型数据库（数十亿行，数百万列）。与Hadoop一起，Cloudera提供商业支持。

但是，存储数据只是构建数据平台的一部分。数据仅在您可以使用它时才有用，并且大量数据集会出现计算问题。谷歌推广了MapReduce 方法，这基本上是一种分而治之的策略，用于在极大的计算集群中分配极大的问题。在“映射”阶段，编程任务被分成许多相同的子任务，然后分布在许多处理器上; 然后通过单个reduce任务组合中间结果。事后看来，MapReduce似乎是谷歌最大问题的明显解决方案，创造了大量搜索。在数千个处理器中分发搜索很容易，然后将结果合并到一组答案中。不太明显的是，MapReduce已被证明可广泛应用于从搜索到机器学习的许多大数据问题。

最流行的MapReduce开源实现是Hadoop项目。雅虎声称他们已经构建了世界上最大的生产Hadoop应用程序，其中10,000个核心运行Linux，将其带入了中心舞台。许多关键的Hadoop开发人员都在Cloudera找到了一个提供商业支持的家。通过为其EC2集群提供预配置的Hadoop映像，亚马逊的Elastic MapReduce使Hadoop更容易投入工作，而无需投资Linux机架。您可以根据需要分配和取消分配处理器，仅在您使用它们时付费。

Hadoop远远超出了简单的MapReduce实现（其中有几个）; 它是数据平台的关键组成部分。它结合了HDFS，这是一个分布式文件系统，专为大型数据集的性能和可靠性要求而设计; HBase数据库; Hive，它允许开发人员使用类似SQL的查询来探索Hadoop数据集; 一种名为Pig的高级数据流语言; 和其他组件。如果有什么可以被称为一站式信息平台，Hadoop就是它。

Hadoop在实现“敏捷”数据分析方面发挥了重要作用。在软件开发中，“敏捷实践”与更快的产品周期，开发人员和消费者之间更密切的交互以及测试相关联。传统的数据分析受到极长的周转时间的限制。如果您开始计算，它可能无法完成数小时甚至数天。但是Hadoop（尤其是Elastic MapReduce）可以轻松构建可以快速对长数据集执行计算的集群。更快的计算使得更容易测试不同的假设，不同的数据集和不同的算法。与客户协商以确定您是否提出正确的问题更容易，并且可以追求有趣的可能性，否则您将因缺乏时间而放弃。

Hadoop本质上是一个批处理系统，但Hadoop Online Prototype（HOP）是一个支持流处理的实验项目。Hadoop在数据到达时处理数据，并在（接近）实时提供中间结果。近实时数据分析可以在Twitter等网站上实现趋势主题等功能。这些功能只需要软实时; 关于趋势主题的报告不需要毫秒精度。与推特上的粉丝数量一样，“热门话题”报告只需要在五分钟内甚至一小时内呈现。据希拉里·梅森（@hmason），在数据科学家bit.ly ，可以预先计算大部分计算，然后在实时MapReduce中使用其中一个实验来获得可呈现的结果。

机器学习是数据科学家的另一个重要工具。我们现在期望Web和移动应用程序包含推荐引擎，构建推荐引擎是一个典型的人工智能问题。您不必查看许多现代Web应用程序，即可查看分类，错误检测，图像匹配（Google Goggles和SnapTell背后）甚至是人脸检测 - 一个不明智的移动应用程序可让您通过手机拍摄某人的照片，以及使用在线提供的照片查找该人的身份。Andrew Ng的机器学习课程是斯坦福大学最受欢迎的计算机科学课程之一，有数百名学生（强烈推荐这个视频）。

有许多可用于机器学习的库：Python中的PyBrain，Java中的Elefant，Weka和Mahout （耦合到Hadoop）。谷歌刚刚宣布了他们的预测API，它通过RESTful接口公开他们的机器学习算法供公众使用。对于计算机视觉，OpenCV 库是事实上的标准。

Mechanical Turk也是工具箱的重要组成部分。机器学习几乎总是需要“训练集”，或者用于开发和调整应用程序的大量已知数据。土耳其人是开发训练集的绝佳方式。一旦你收集了你的训练数据（可能是来自Twitter的大量公共照片），你就可以让人类以低成本对它们进行分类 - 可能将它们分类为类别，可能围绕面孔，汽车或任何你感兴趣的东西画圆圈。这是一种很好的方法，可以以几美分的成本对几千个数据点进行分类。即使是相对较大的工作也只需几百美元。

虽然我没有强调传统统计数据，但建立统计模型在任何数据分析中都起着重要作用。根据Mike Driscoll（@dataspora）的说法，统计数据是“数据科学的语法”。“让数据连贯地说话是至关重要的。”我们都听到过吃腌菜导致死亡的笑话，因为每个死去的人都吃过咸菜。如果你理解相关意味着什么，这个笑话就行不通了。更重要的是，很容易注意到Nutshell中的R广告比另一个产生的转化次数多2％。但需要统计数据才能知道这种差异是否显着，或者只是随机波动。数据科学不只是关于数据的存在，还是猜测数据可能意味着什么; 它是关于测试假设并确保您从数据中得出的结论是有效的。统计数据在从传统商业智能（BI）到了解Google广告竞价的工作方式中发挥着重要作用。统计已成为一项基本技能。它不会被机器学习和其他学科的新技术所取代; 它补充了他们。

虽然有许多商业统计软件包，但开源R语言及其全面的软件包库CRAN是一个必不可少的工具。虽然R是一种奇怪而古怪的语言，特别是对于具有计算机科学背景的人来说，它接近于为大多数统计工作提供“一站式购物”。它具有出色的图形设施; CRAN包括用于多种数据的解析器; 更新的扩展将R扩展到分布式计算。如果有一个工具为统计工作提供端到端的解决方案，那就是它。

解释结果

一张图片可能价值也可能不值千言万语，但一张图片肯定值一千个数字。大多数数据分析算法的问题是它们生成一组数字。要了解数字的含义，他们真正讲述的故事，您需要生成图表。Edward Tufte的定量信息视觉显示是数据可视化的经典之作，也是实践数据科学的人的基础文本。但这并不是我们在这里真正关心的问题。可视化对于数据科学家的每个阶段都至关重要。据Martin Wattenberg 所说（@wattenberg，Flowing Media的创始人），可视化是数据调节的关键：如果您想了解数据有多糟糕，请尝试绘制数据。可视化通常也是分析的第一步。希拉里·梅森说，当她获得一个新的数据集时，她首先要制作十几个或更多的散点图，试图了解可能有趣的内容。一旦您获得了数据可能含义的一些提示，您可以通过更详细的分析进行跟进。

有许多用于绘制和呈现数据的包。GnuPlot非常有效; R采用了相当全面的图形包; Casey Reas和Ben Fry的Processing 是最先进的，特别是如果你需要创建动画来展示事物随时间的变化。在IBM的Many Eyes中，许多可视化都是完整的交互式应用程序。

Nathan Yau的FlowingData博客是寻找创意可视化的好地方。我最喜欢的一个是沃尔玛成长动画随着时间的推移。这是“艺术”的一个地方：不仅仅是可视化本身的美学，还有你如何理解它。它看起来像整个身体的癌症传播？或流感病毒通过人群传播？使数据讲述其故事不仅仅是呈现结果的问题; 它涉及建立连接，然后返回到其他数据源来验证它们。成功的零售连锁店是否像流行病一样蔓延？如果是这样，这是否会让我们对经济如何运作有新的见解？这不是几年前我们甚至可以提出的问题。计算能力不足，数据全部锁定在专有资源中，处理数据的工具不足。这是我们现在经常提出的那种问题。

数据科学家

数据科学需要从传统计算机科学到数学到艺术的各种技能。Jeff Hammerbacher描述了他在Facebook（可能是面向消费者的网络资产的第一个数据科学小组）组建的数据科学小组，他说：

......在任何一天，团队成员都可以在Python中创建多阶段处理管道，设计假设测试，使用R对数据样本执行回归分析，为Hadoop中的某些数据密集型产品或服务设计并实现算法，或者将我们的分析结果传达给组织的其他成员³

你在哪里找到这个多才多艺的人？LinkedIn（@dpatil）的首席科学家DJ Patil表示，最好的数据科学家往往是“硬科学家”，特别是物理学家，而不是计算机科学专业。物理学家拥有强大的数学背景，计算技能，并且来自一个学科，在这个学科中，生存取决于从数据中获取最多。他们必须考虑大局，这个大问题。当您花费大量资金来生成数据时，如果数据不像您想要的那样干净，您就不能将数据丢弃。你必须让它讲述它的故事。你需要一些创造力，因为当数据讲述的故事不是你认为它所说的那样。

科学家们也知道如何将大问题分解为更小的问题。Patil描述了在LinkedIn创建群组推荐功能的过程。很容易将其变成一个高仪式的开发项目，需要花费数千小时的开发人员时间，加上数千小时的计算时间来完成LinkedIn会员的大量关联。但这个过程的工作方式完全不同：它始于一个相对较小，简单的程序，该程序查看成员的个人资料并相应地提出建议。问问题，你去康奈尔大学吗？那么您可能想加入康奈尔校友会。然后它逐渐扩展。除了查看个人资料外，LinkedIn的数据科学家还开始关注成员参加的活动。然后在书籍成员的图书馆里。结果是一个有价值的数据产品，分析了一个庞大的数据库 - 但它从来没有被设想过。它开始很小，并且迭代地增加了价值。这是一个敏捷，灵活的过程，逐步建立起来，而不是一次性处理大量数据。

这是Patil所谓的“数据jiujitsu”的核心 - 使用较小的辅助问题来解决难以解决的大问题。CDDB是数据jiujitsu的一个很好的例子：通过直接分析音频流识别音乐是一个非常困难的问题（虽然不是无法解决的 - 例如见midomi）。但是，CDDB工作人员创造性地使用数据来解决一个更容易处理的问题，这个问题给了他们相同的结果。根据轨道长度计算签名，然后在数据库中查找该签名，这非常简单。

创业是另一个难题。Patil首次轻率回答“当你聘请数据科学家时，你在寻找什么样的人？”是“你会成立公司的人。”这是一个重要的见解：我们正在进入建立在产品上的时代数据。我们还不知道这些产品是什么，但我们知道获奖者将是找到这些产品的人和公司。希拉里梅森得出了同样的结论。她在bit.ly担任科学家的工作是真正研究bit.ly正在产生的数据，并找出如何从中构建有趣的产品。新兴数据行业中没有人试图建立2012年日产Stanza或Office 2015; 他们都在努力寻找新产品。除了是物理学家，数学家，程序员和艺术家，

数据科学家将企业家精神与耐心，逐步建立数据产品的意愿，探索能力以及迭代解决方案的能力相结合。它们本质上是跨学科的。他们可以解决问题的所有方面，从最初的数据收集和数据调整到得出结论。他们可以在框外思考，提出新的方法来查看问题，或者处理非常广泛定义的问题：“这里有很多数据，你可以用它做些什么？”

未来属于了解如何成功收集和使用数据的公司。谷歌，亚马逊，Facebook和LinkedIn都采用了他们的数据流，并使其成为他们成功的核心。他们是先锋，但像bit.ly这样的新公司正在追随他们的道路。无论是挖掘您的个人生物学，从数百万旅行者的共享体验构建地图，还是研究人们传递给他人的URL，下一代成功的企业都将围绕数据构建。

最后编辑于：2019.08.11 15:55:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

什么是数据科学？

数据从何而来

大规模处理数据

解释结果

数据科学家

推荐阅读更多精彩内容