240 发简信
IP属地:北京
  • Canal同步MySQL到MySQL历史/全量数据的同步方式

    canal同步全量数据,存在部分数据无法同步到目标mysql,且同步时间长,容易中断等问题;鉴于此,采用mysql间表数据同步方式实现快速准确的...

  • Canal同步MySQL数据无法将UPDATE类型数据更新到目标MySQL的解决方案

    update类型的数据无法更新到目标库,通过追踪源码,发现同步源库的binlog日志中UPDATE类型的old参数为null,导致跳出更新程序,...

  • Resize,w 360,h 240
    Canal同步MySQL数据到MySQL并实时同步到ClickHouse

    同步业务MySQL数据到实时仓库ClickHouse的数据流转过程如下: 上述在大数据MySQL中转数据的目的,是为了精准同步某张表的数据到大数...

  • Resize,w 360,h 240
    词频/TFIDF两种方式统计词云图

    1.数据预处理 对数据提取中文,分词,并去除停用词。 2.词频/TFIDF统计 2.1 词频统计 2.2 TFIDF统计 这里采用TFIDF计算...

  • Resize,w 360,h 240
    Metabase与CBoard差异化分析说明

    这里的CBoard是在原生态CBoard基础上进行二次开发之后的BI工具,以下内容将其称为Mydata。 相似点 1.可以下载查询出的数据。 2...

  • 使用Python监控Hive和Clickhouse仓库数据

    此程序用于Clickhouse和Hive数据的监控,Clickhouse数据的监控通过jdbc方式实现,Hive数据的监控通过调用subproc...

  • Resize,w 360,h 240
    Clickhouse实现多个数组求差集功能

    上述[1,2]和[2,3]分别表示要求差集的数组数据函数解释:arrayIntersect表示多个数组求交集arrayConcat表示连接多个数...

  • Spark中删除Hdfs路径

    第一种方式 该方式存在Hdfs主备切换之后上述删除操作无效的情况。 第二种方式

  • 文本命名实体提取并格式化

    背景介绍 有一批不同分类的标题数据,每个标题中有不同的命名实体,需要提取每个分类的标题模板。所以,这里对标题进行命名实体提取并格式化处理形成标题...

个人介绍
专注于大数据,数据挖掘,自然语言处理领域研究