本文适用于Kafka broker 0.8.2.1及更高版本。 这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法...
Logstash是一个具有实时管线能力的开源数据收集引擎。在ELK Stack中,通常选择更轻量级的Filebeat收集日志,然后将日志输出到L...
钉钉开放平台传送门:https://open.dingtalk.com 我司使用钉钉作为内部通讯工具,基本上大家在电脑和手机上都开着,消息可以第...
注:1. 本文链接中,包含[]的为已翻译的文档链接,不包含的为官方文档链接。2. 涉及到编程语言的部分,以翻译Scala的部分为主 Spark概...
正则表达式是用于找出数据中模式的字符串。任何字符串都可以使用.r方法转换为正则表达式。 在上面例子中,numberPattern是一个Regex...
介绍 概述 Apache Flume是一个分布式的,可靠的,高可用的系统,用于高效地从多个不同的数据源收集,汇总及迁移大量日志数据到集中的数据储...
动态分区插入 前面的示例中,用户必须知道对哪个分区插入数据,并且一条insert语句只能插入一个分区。如果想要加载到多个分区,需要使用多条ins...
查询和插入数据 Hive查询操作参见文档Select,插入操作参见文档Inserting data into Hive Tables from ...
概述 总体来说,每个Spark应用程序都包含一个驱动程序,运行了用户的main函数并且在集群上执行多种并行操作。Spark提供的主要抽象就是弹性...