shigen坚持更新文章的博客写手,擅长Java、python、vue、shell等编程语言和各种使用程序、脚本的开发。记载生长,共享认知,留住感动。

mysql-es-synchronizer

项目介绍

mysql-es-synchronizer, 一款开源的轻量级MySQL数据增量同步到elasticsearch东西,只需简略的装备即可完成增量的数据同步。

装备文件

MySQL和elasticsearch 的装备基本和官方的 spring-boot-starter-xxx 的装备类似

spring:
 # MySQL数据库衔接信息
  datasource:
   url: jdbc:mysql://shigen.com:3306/demo?characterEncoding=UTF-8&serverTimezone=Asia/Shanghai&autoReconnect=true&useSSL=false
   driver-class-name: com.mysql.cj.jdbc.Driver
   username: root
   password: xxxx
 # elasticsearch相关装备 
  elasticsearch:
  # elasticsearch集群
   uris:
    - http://localhost:9200
  # elasticsearch账号暗码
   username: elastic
   password: 123456

# 同步相关装备
sync:
 # 需求同步的sql查询语句,此处的 :sql_last_value是一个固定值
  sql: select id, username, password, nickname, email, phone, gender, birthday, address, create_time, update_time from demo.user_info where update_time > :sql_last_value order by update_time asc
 # sql数据偏移量记载的文件地址
  sql_last_value_file: mysql/last_id.txt
 # 同步的定时使命
  cron: 0 * * * * *

中间件版别

  • MySQL 5.7+
  • elasticsearch 7.2.0

其它的elasticsearch版别还在连续的测试接入中

同步原理

从文件中读取前次同步的时刻,假如未读取到正确的时刻,则默许从 1970-01-01 08:00:00 (东八区元年)开始。再根据数据中的字段 update_time 做为条件,查询在前次同步时刻之后更新的数据。此刻再将查询出的数据列表转化成json格式,批量插入到elasticsearch中。

和其它主流东西比照

特性 Canal Logstash mysql-es-synchronizer
数据同步方法 根据 MySQL binlog 实时解析 能够运用 JDBC、Logstash-input-jdbc 等插件进行实时同步 能够运用JDBC完成实时同步
支撑的数据源 仅支撑 MySQL 支撑多种联系型数据库、NoSQL 数据库等 现在仅支撑 MySQL
装备灵活性 需求装备 Canal Server 和 Destination 经过装备文件定义输入、过滤、输出等管道 需求装备装备文件
支撑的数据转化功用 提供简略的字段映射和格式转化功用 支撑丰富的过滤、映射、计算等功用
社区活跃度 在 MySQL 数据同步范畴较为活跃 在数据同步范畴有着广泛的使用和社区支撑
性能 高性能,合适大规模数据同步 杰出的性能,但在大规模数据同步时可能需求优化

常见问题

我的MySQL数据库没有字段 update_time 怎么办

在进行初度开发时, shigen 就考虑到了这个问题,选用的方法是 MySQL 的存储进程,下边是数据表的设计:

CREATE TABLE IF NOT EXISTS `user_info`
(
  `id`     int(11)   NOT NULL AUTO_INCREMENT COMMENT '用户 ID,主键',
  `username`  varchar(50) NOT NULL COMMENT '用户名,唯一索引',
  `password`  varchar(255) NOT NULL COMMENT '加密后的暗码',
  `nickname`  varchar(50)      DEFAULT NULL COMMENT '用户昵称',
  `email`    varchar(100)     DEFAULT NULL COMMENT '邮箱地址',
  `phone`    varchar(20)      DEFAULT NULL COMMENT '手机号码',
  `gender`   tinyint(4)  NOT NULL DEFAULT '0' COMMENT '性别:0 代表未知,1 代表男性,2 代表女人',
  `birthday`  date         DEFAULT NULL COMMENT '出生日期',
  `address`   varchar(200)     DEFAULT NULL COMMENT '联系地址',
  `create_time` datetime   NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创立时刻',
  PRIMARY KEY (`id`),
  UNIQUE KEY `username` (`username`)
) ENGINE = InnoDB
 DEFAULT CHARSET = utf8mb4 COMMENT ='用户信息表';

定义存储进程

现在咱们只需求在所有的表中添加字段 update_time 并设置成更新触发。在查询东西中运转创立存储进程的代码:

-- 创立存储进程
DELIMITER //
CREATE PROCEDURE add_update_time_column(
  IN dbName VARCHAR(255)
)
BEGIN
  DECLARE done INT DEFAULT FALSE;
  DECLARE tableName VARCHAR(255);
  DECLARE cur CURSOR FOR SELECT table_name FROM information_schema.tables WHERE table_schema = dbName;
  DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = TRUE;
​
  OPEN cur;
   read_loop: LOOP
    FETCH cur INTO tableName;
    IF done THEN
      LEAVE read_loop;
    END IF;
​
    SET @columnExists = (SELECT COUNT(*) FROM information_schema.columns WHERE table_schema = dbName AND table_name = tableName AND column_name = 'update_time');
​
    IF @columnExists = 0 THEN
      SET @alterSql = CONCAT('ALTER TABLE ', tableName, ' ADD COLUMN update_time DATETIME NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时刻'');
      PREPARE stmt FROM @alterSql;
      EXECUTE stmt;
      DEALLOCATE PREPARE stmt;
    END IF;
  END LOOP;
​
  CLOSE cur;
END //
DELIMITER ;

调用

需求注意的是:存储进程咱们定义成了类似于函数的形式,它的参数之一就是 dbName

call add_update_time_column('demo');

删除存储进程

DROP PROCEDURE IF EXISTS add_update_time_column;

为什么不选用开源的ORM结构来便利数据的查询展现

其实提到这个问题,确实咱们很喜欢偷闲,像 mybatis-pluseasy-es 这类的ORM结构,只需求直接调用封装好的接口,轻松完成数据的查询转化,而作者这里运用的是原生的 JDBC 。可是作为中间件,咱们更介意的性能,在 shigen 的文章EasyExcel完成杂乱数据导入顶用到了原生的JDBC。

在后期,也会逐渐的脱节 spring-boot-starter-jdbcspring-boot-starter-data-elasticsearch 的依靠,选用原生的方法取得数据库的衔接和操作。

后期迭代的方向

封装开箱即用的自定义 starter

后期完成开箱即用的 starter ,只需求导入 starter 并在装备文件中略微装备即可完成在项目中的运用。

支撑多个SQL查询同步

对标 canallogstash ,完成多个SQL查询的数据同步。

跋文

现在想到的就这么多,初度测验开源,也期望伙伴们多多支撑。您的主张我也会仔细的采纳,共同推进项目的优化和开源生态的持续发展。也可关注GitHub取得更多的开源项目。


以上就是今日共享的全部内容了,觉得不错的话,记得点赞 在看 关注支撑一下哈,您的鼓舞和支撑将是shigen坚持日更的动力。一起,shigen在多个平台都有文章的同步,也能够同步的阅读和订阅:

平台 账号 链接
CSDN shigen01 shigen的CSDN主页
知乎 gen-2019 shigen的知乎主页
shigen01 shigen的主页
腾讯云开发者社区 shigen shigen的腾讯云开发者社区主页
微信大众平台 shigen 大众号名:shigen

测验开源一款mysql-es数据同步东西

shigen一起,每天不一样!