就事论事系列-记录一次诡异的数据丢失的问题

事件背景

我们的业务中,有一部分数据需要对外提供查询服务。由于数据量比较大,并且要提供多维度查询的功能,我们将此数据存放到了ElasticSearch搜索系统中。为了提高数据的可靠性,防止数据单点,我们存了一份数据在物理机集群中,由物理机集群提供主要服务。同时也存了一份数据在虚拟机上,拟当物理机出现问题时通过虚拟机提供服务。
值得一提的是,我们这两个备份采用的是完全不同的策略。
对于物理机的数据,我们是通过在业务程序运行过程中,实时更改时通过消息队列的方式推送到ES集群的索引中。而虚拟机的数据,则是通过我们公司自研的数据抽取工具,在数据更新后,即时抽取binlog的方式将数据同步到虚拟机集群中。


数据冗余备份

业务改造

在以上的背景下,我们在近期的一个版本中,我们对一份存于MySql的业务数据进行分表操作。该业务随着时间增长,其数据量已经达到一个量级,并且考虑到后期还是会不断增长,我们对该数据基于业务主键 OrderNo 进行了hash取模分表,分解成了100张表。

数据分表

我们的上线策略是

第一步:新建100张分表
第二步:在代码中,对于数据的写入使用双写策略,即同时写入原始大表和分表,而读取操作则通过系统开关控制是读取大表还是分表。同时主动推送搜索系统的队列保持不变。
第三步:版本上线的当天晚上,我们通过定时任务的方式,将原始数据全量按逻辑存入分表中。
第四步:后续一个版本中,改变虚拟机集群抽取数据的数据源为分表。

第二第三步分开是为保证在一条链路稳定以后,再切另外一条链路。确保数据割接的稳定性。保证生产始终存在一条有效服务的链路。

同时我们对于数据保障还提供了诸多的维护工具,比如:

  • 主表、分表查询比对页面
  • 批量、单条按条件同步页面
  • 主表数据推送搜索
  • 分表数据推送搜索

这些工具主要是为了防止一旦数据出现问题,随时可以通过这些运维工具,对错误进行修正。

问题的发生和解决

发生

数据改造上线前,我们做了如此多的细致工作,发布前我们还经过了上线策略评审,一切万事俱备,发布当晚,我们很高兴地看到,数据迁移一切正常。业务验证也没有问题。
但是,第二天,产品就收到业务的反馈说,某些数据在前台无法查到。我们要了一条业务的数据,
通过后台查询,看到我们的数据库中是存在的。此时,我们根据业务提供的条件查询了搜索系统。发现物理机的集群上,这条数据不存在,而虚拟机上这条数据是存在的。起初以为是偶然现象,可能是数据通过消息队列推送到物理机集群时丢失了些数据。
幸好我们同步工具,我们通过同步工具将数据同步了一下,告知产品和业务验证,发现数据有了,以为事情结束,问题告一段落。

再次发生

过了没多久,产品又通知我们有一批这样的数据,还是同样的情况。
此时我们就开始怀疑,到底,是不是我们动到了业务中推送搜索这段代码。此时果断考虑需要将服务线路切换到虚拟机提供服务。在跟领导报备后,通过切换开关的方式,将业务查询切换到虚拟机,业务上恢复正常。

排查问题

此时我们开始进行一步步地问题排查的过程。
首先我们分两路来代码上是否有变化
看业务代码,发现我们的业务代码除了数据源上的改动,根本没有动过将数据发送搜索系统这段逻辑。经过多个开发人员反复确认,的确没有变化。
看搜索系统的同步存储代码,由于业务上对搜索系统本身没有改造,其实很明确的知道当前这个版本是没有改动的,这时只能细细查看是否有未知的Bug。反复确认后,认为没有问题。
经过前面俩个步骤的定位,没有找到问题所在。我们又将目光投向消息中间件平台,经过了解,消息平台表示没有发生平台性的问题,也没有遇到过我们这样的情况。
再将目光转向日志,我们后台打开debug日志后,查看,所有数据都是收到的,并且也是经过处理的。
因此给我们的结论是,我们的数据没有丢失?

矛盾

现状:我们的数据丢失了
结论:我们的数据没有丢失

真让人摸不着头脑啊

客官:您认为还有什么可能。

再次排查

此时我们从这次改造本身去考虑问题,这次改造的是数据,当数据从一个表分解到100个表中去了以后,有什么变化?
从业务上讲,业务数据是没有变化的。
唯一变化的是数据的自增主键
此时,我们的小伙伴从代码中看出了端倪,在物理机的同步程序中,所有的数据是根据表的主键ID进行更新的。在原表中,主键ID的自增值已经到了500W,而分表以后,自增主键每个表中最大值也才4W多。也就是 我们的数据被覆盖了,当数据分布到各个分表中了以后,我们的唯一主键就不再是表的ID了。继续使用数据库ID进行数据更新,则产生的数据会因为主键ID的问题被相互覆盖。
我们在测试环境中已验证,果然没错。

数据被覆盖

解决问题

找到了问题,我们便知道该怎么做了。
我们修改了同步数据逻辑中的更新条件,改成了根据业务唯一主键 OrderNo进行更新。同时,将被覆盖的数据进行了一次定量的更新。最后,问题得以解决

总结

这次的问题发生的很出乎意料,但分析下来,这个问题也是必然的,在系统开发过程中,某些点没有想到,就一定会发生一些问题。作为开发,我们不要害怕发生问题,当问题发现以后,要迅速响应和及时解决。好在这次问题的发生和解决,没有带来很大的影响,还是归功于,我们在系统设计过程中,对于未知的风险做了足够的应对方案。

物理机和虚拟机的双备份方案,保证了业务上任何时候都不至于不可用。
两种同步方案使用不同的数据源,分先后两个版本切,保证在一个方案有问题的情况下,第二个方案仍然可用。
遇到问题时及时地切换,保证业务不受影响。

就事论事:在有可能会分库分表的业务中,一旦分库分表以后,自增id就不再是该数据的唯一主键。必须有一个全局性的唯一主键才行。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容