Kafka落选！InfoWorld最佳开源数据平台奖公布

AI 前线导读：一年一度由世界知名科技媒体 InfoWorld 评选的 Bossie Awards 于 9 月 26 日公布，本次 Bossie Awards 评选出了最佳数据库与数据分析平台奖、最佳软件开发工具奖、最佳机器学习项目奖等多个奖项。在最佳开源数据库与数据分析平台奖中，Spark 和 Beam 再次入选，连续两年入选的 Kafka 这次意外滑铁卢，取而代之的是新兴项目 Pulsar；这次开源数据库入选的还有 PingCAP 的 TiDB。

Bossie Awards 是知名英文科技媒体 InfoWorld 针对开源软件颁发的年度奖项，根据这些软件对开源界的贡献，以及在业界的影响力评判获奖对象，由 InfoWorld 编辑独立评选，目前已经持续超过十年，是 IT 届最具影响力和含金量奖项之一。

一起来看看接下来你需要了解和学习的数据库和数据分析工具有哪些。

现如今，没有什么东西能够比数据更大的了！我们有比以前多得多的数据，我们有更多方式来存储和分析数据：SQL 数据库、NoSQL 数据库、分布式 OLTP 数据库、分布式 OLAP 平台、分布式混合 OLTP/OLAP 平台。2018 年数据库和数据分析平台方面的 Bossie 大奖获得者也包括了流式处理方面的创新者。

Apache Spark

尽管新的产品层出不穷，Apache Spark 在数据分析领域仍然占据着举足轻重的地位。如果你需要从事分布式计算、数据科学或者机器学习相关的工作，就使用 Apache Spark 吧。Apache Spark 2.3 在二月份发布，它依然着重于开发、集成并加强它的 Structured Streaming API。另外，新版本中添加了 Kubernetes 调度程序，因此在容器平台上直接运行 Spark 变得非常简单。总体来说，现在的 Spark 版本经过调整和改进，似乎焕然一新。

AI 前线相关报道：

Spark 2.3 重磅发布：欲与 Flink 争高下，引入持续流处理

Spark 的危机与机遇：未来必然是 AI 框架倒推数据处理框架

Apache Pulsar

Apache Pulsar 最初由雅虎开发，后来进入 Apache 孵化器，最近正式毕业，成为 Apache 顶级项目。Pulsar 旨在取代 Apache Kafka 多年的主宰地位。Pulsar 在很多情况下提供了比 Kafka 更快的吞吐量和更低的延迟，并为开发人员提供了一组兼容的 API，让他们可以很轻松地从 Kafka 切换到 Pulsar。

Pulsar 的最大优点在于它提供了比 Apache Kafka 更简单明了、更健壮的一系列操作功能，特别在解决可观察性、地域复制和多租户方面的问题。在运行大型 Kafka 集群方面感觉有困难的企业可以考虑转向使用 Pulsar。

AI 前线相关报道：

Apache Pulsar 晋升顶级项目，打造实时时代的数据中台

为什么已有 Kafka，我们最终却选择了 Apache Pulsar？

开源实时数据处理系统 Pulsar：一套搞定 Kafka+Flink+DB

Apache Beam

多年来，批处理和流式处理之间的差异正在慢慢缩小。批次数据变得越来越小，变成了微批次数据，随着批次的大小接近于一，也就变成了流式数据。有很多不同的处理架构也正在尝试将这种转变映射成为一种编程范式。

Apache Beam 就是谷歌提出的解决方案。Beam 结合了一个编程模型和多个语言特定的 SDK，可用于定义数据处理管道。在定义好管道之后，这些管道就可以在不同的处理框架上运行，比如 Hadoop、Spark 和 Flink。当为开发数据密集型应用程序而选择数据处理管道时（现如今还有什么应用程序不是数据密集的呢？），Beam 应该在你的考虑范围之内。

AI 前线 Beam 技术专栏文章（持续更新ing）：

Apache Beam 实战指南 | 基础入门

Apache Beam 实战指南 | 手把手教你玩转 KafkaIO 与 Flink

Apache Solr

尽管大家都认为 Apache Solr 是基于 Lucene 索引技术而构建的搜索引擎，但它实际上是面向文本的文档数据库，而且是一个非常优秀的文档数据库。不管你是要“大海捞针”，还是要运行空间信息查询，Solr 都可以帮上忙。

Solr 7 系列目前已经发布了，新版本在运行更多分析查询的情况下仍然能保证闪电般的速度。你可以加入很多文档，不到一秒钟就能返回结果。它还改进了对日志和事件数据的支持。灾备（CDCR）现在也是双向的。Solr 全新的自动扩展功能简化了集群负载增长时的扩展操作。

JupyterLab

JupyterLab 是新一代的 Jupyter，一个基于 Web 的 notebook 服务器，颇受全世界数据科学家的喜爱。经过三年开发，JupyterLab 完全改变了人们对 notebook 的理解，支持对单元格进行拖放重新排布、标签式的 notebook、实时预览 Markdown 编辑，以及改良的扩展系统，与 GitHub 等服务的集成变得非常简单。预计在 2018 年底，JupyterLab 将发布 1.0 稳定版。

KNIME 分析平台

KNIME 分析平台是用来创建数据科学应用程序和服务的开源软件。它提供了可拖放的图形界面，用来创建可视化工作流，还支持 R 和 Python 脚本、机器学习，支持和 Apache Spark 连接器。KNIME 目前有大概 2000 个模块可用作工作流的节点。

KNIME 还提供了商业版，商业版旨在提升生产效率和支持协作。不过，开源版 KNIME 分析平台并不存在人为限制，可以处理包含数亿行数据的项目。

CockroachDB

CockroachDB 是基于事务性和一致性键值存储而构建的分布式 SQL 数据库。它的设计目标是能够在磁盘、机器、机架甚至是数据中心的故障中存活下来，最小化延迟中断，不需要人工干预。CockroachDB v1.13 曾经获得过五星的高分，虽然仍然缺少很多功能，不过现在情况有所改变。

四月份发布的 CockroachDB v2.0 版本有了明显的性能改进，通过添加对 JSON（和其他类型）的支持扩展了与 PostgreSQL 的兼容性，还提供了生产环境的跨区域集群管理功能。CockroachDB v2.1 的路线图中包含了基于成本的查询优化器（用于查询性能的改进）、相关子查询（ORM）、更好地支持模式变更以及企业版产品的加密。

Vitess

Vitess 是通过分片实现 MySQL 水平扩展的数据库集群系统，主要使用 Go 语言开发。Vitess 将 MySQL 的很多重要功能与 NoSQL 数据库的扩展性结合在一起。它的内置分片功能可以让用户在不需要给应用程序添加分片逻辑的情况下对数据库进行扩展。Vitess 从 2011 年开始就是 YouTube 数据库基础设施的核心组件，它已经发展到成千上万个 MySQL 节点。

Vitess 并没有使用标准的 MySQL 连接，因为这会消耗很多 RAM，也会限制每个节点的连接数量。它使用了更有效的基于 gRPC 的协议。另外，Vitess 会自动重写会损害数据库性能的查询，通过缓存机制来调解查询，防止相同的查询同时进入数据库。

TiDB

TiDB 是一款兼容 MySQL、支持混合事务和分析处理（HTAP）的分布式数据库。它基于事务性键值存储而构建，提供全面的水平扩展性（通过增加节点）以及持续可用性。大多数早期的 TiDB 用户都在中国，因为 TiDB 的开发者在北京。TiDB 的源代码主要用 Go 语言编写。

TiDB 的底层是 RocksDB，RocksDB 是 Facebook 的日志结构键值数据库引擎，用 C++ 编写，因此能获得最好的性能。RocksDB 上面是 Raft 共识层、事务层，然后是支持 MySQL 协议的 SQL 层。

AI 前线技术干货：

TiDB 在 360 金融贷款实时风控场景应用

YugaByte DB

YugaByte DB 结合了分布式 ACID 事务、多区域部署、对 Cassandra 和 Redis API 的支持，对 PostgreSQL 的支持即将推出。相对 Cassandra 而言，YugaByte 是强一致性，而 Cassandra 时最终一致性。YugaByte 的基准测试也比开源的 Cassandra 要好，但比商用的 Cassandra 要差一些，而 DataStax Enterprise 6 具备可调一致性。YugaByte 相当于快速、具有更强一致性的分布式 Redis 和 Cassandra。它可以对单个数据库进行标准化处理，比如将 Cassandra 数据库和 Redis 缓存结合在一起。

Neo4j

Neo4j 图形数据库在处理相关性网络的任务时，执行速度比 SQL 和 NoSQL 数据库更快，但图模型和 Cypher 查询语言需要进行专门的学习。最近，俄罗斯 Twitter 流氓分析、ICIJ 的 Panama Papers 分析以及 Paradise Papers 的分析指出，Neo4j 是非常有价值的。

经过 18 年的开发，Neo4j 已经成为了一个成熟的图数据库平台，可以在 Windows、MacOS、Linux、Docker 容器、VM 和集群中运行。即使是 Neo4j 的开源版本也可以处理很大的图，而在企业版中对图的大小没有限制。（开源版本的 Neo4j 只能在一台服务器上运行。）

AI 前线相关报道：

图数据库真的比关系数据库更先进吗？

InfluxDB

InfluxDB 是没有外部依赖的开源时间序列数据库，旨在处理高负载的写入和查询，在记录指标、事件以及进行分析时非常有用。它可以运行在 MacOS、Docker、Ubuntu/Debian、Red Hat/CentOS 和 Windows 平台上。它提供了一个内置的 HTTP API 和 SQL 风格的查询语言，并旨在提供实时的查询响应（100 毫秒之内）。

欢迎学Java和大数据的朋友们加入java架构交流：736925717

加群链接：https://jq.qq.com/?_wv=1027&k=5XXrrMk

群内提供免费的架构资料还有：Java工程化、高性能及分布式、高性能、深入浅出。高架构。性能调优、Spring，MyBatis，Netty源码分析和大数据等多个知识点高级进阶干货的免费直播讲解可以进来一起学习交流哦

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,569评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,499评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,271评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,087评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,474评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,670评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,911评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,636评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,397评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,607评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,093评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,418评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,074评论 3赞 237
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,092评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,865评论 0赞 196
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,726评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,627评论 2赞 270

Kafka落选！InfoWorld最佳开源数据平台奖公布

推荐阅读更多精彩内容