240 发简信
IP属地:江西
  • [译]Spark Streaming + Kafka集成指南

    本文适用于Kafka broker 0.8.2.1及更高版本。 这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法...

  • Logstash filter插件开发

    Logstash是一个具有实时管线能力的开源数据收集引擎。在ELK Stack中,通常选择更轻量级的Filebeat收集日志,然后将日志输出到L...

  • Python实现钉钉发送报警消息

    钉钉开放平台传送门:https://open.dingtalk.com 我司使用钉钉作为内部通讯工具,基本上大家在电脑和手机上都开着,消息可以第...

  • [译]Spark 2.1.0官方文档翻译

    注:1. 本文链接中,包含[]的为已翻译的文档链接,不包含的为官方文档链接。2. 涉及到编程语言的部分,以翻译Scala的部分为主 Spark概...

  • [译]Scala正则表达式模式

    正则表达式是用于找出数据中模式的字符串。任何字符串都可以使用.r方法转换为正则表达式。 在上面例子中,numberPattern是一个Regex...

  • Resize,w 360,h 240
    [译]Flume1.7.0用户手册(一)

    介绍 概述 Apache Flume是一个分布式的,可靠的,高可用的系统,用于高效地从多个不同的数据源收集,汇总及迁移大量日志数据到集中的数据储...

  • [译]Hive学习指南(五)

    动态分区插入 前面的示例中,用户必须知道对哪个分区插入数据,并且一条insert语句只能插入一个分区。如果想要加载到多个分区,需要使用多条ins...

  • [译]Hive学习指南(四)

    查询和插入数据 Hive查询操作参见文档Select,插入操作参见文档Inserting data into Hive Tables from ...

  • [译]Spark编程指南(一)

    概述 总体来说,每个Spark应用程序都包含一个驱动程序,运行了用户的main函数并且在集群上执行多种并行操作。Spark提供的主要抽象就是弹性...

个人介绍
steanxy的大数据之旅