京东MySQL数据库主从切换自动化

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介:

1. 产生背景

随着京东业务的高速增长,数据的重要性对于京东来说重要程度不说自明,在信息时代,数据有着比人们更大的力量,数据库的价值可见一斑,数据库的存在为人们提供了更快的查询,那么为了更好地做到数据库的高可用,保证持续提供服务,简化DBA操作,节省数据库故障切换的时间,故开发此数据库主从切换自动化系统。

2. 实现原理

此系统基于MHA做数据库切换,结合京东数据库切换的特点,定制自己的切换系统。MHA(Master High Availability)目前在MySQL高可用方面是一个相对成熟的解决方案,它由日本DeNA公司Yoshinori Matsunobu开发,是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中,MHA能做到在0~30秒之内自动完成数据库的故障切换操作,并且在进行故障切换的过程中,MHA能在最大程度上保证数据的一致性,同时最大化挽回故障发生后的数据,结合zabbix监控报警,以达到真正意义上的高可用。三重检测,保证切换无误:zabbix检测,任务创建时检测,MHA检测。

3. 实现功能

此系统实现了死切(从库故障切换及回切,主库故障切换),活切(主库活切及主库回切),做到自动化、自助化、可视化切换。

4. 具体实现

4.1. 死切(故障切换)

当Zabbix自动监控系统检测到数据库故障时,会自动调故障切换程序,然后判断是主库故障,还是从库故障,分情况处理,所有的故障信息都可在DBS系统上查看

4.1.1 主库故障:

先在DBS系统上创建切换任务,另外DBA也可在故障切换页面批量添加故障主库IP,创建切换任务。然后相应DBA执行切换按钮,则会判断各种情况

4.1.1.1切换重要步骤及原则

l 探活,探活检测机制由select方式改为insert方式,这样可以包含实例夯住和硬盘只读的情况,如果没有存活的从库,则放弃本次操作并邮件和短信通知DBA手动处理。

l 选择新主库,先本地(先物理机后DOCKER,先连接数少,后QPS负载低),后异地(先物理机后DOCKER,先连接数少,后QPS负载低)原则选择目标实例

l 调MHA接口进行故障切换故障系统信息变更

a.MHA会优先使用上一步选出的从库做为新主库,否则会使用最新数据的从库提升为新主库,然后将所有其他的从库重新指向新主库。之后会调用域名切换接口,将原来故障主库下的域名,全部指向到新的主库IP上。如果MHA切换失败或MHA有告警信息,或者有域名未切换成功,都会使用邮件和短信通知DBA人工处理。

b.当MHA故障切换结束后,系统会将新主库的mysql.cnf配置文件中的read_only=1删除,并在新主库上执行reset salve all或stop slave指令。

c.调用zabbix主机改名接口,修改故障主库及新主库在zabbix监控系统中的名称。

d. 由于域名切换后非实时生效,存在时延,因此系统会对域名生效进行检查,如果2分钟内未生效,则会进行提示,需要DBA进行人工确认。

e. 最后,在资产库中更新集群信息,修改主从关系并进行数据库状态变更,更新故障信息表。同时,发送邮件和短信通知DBA故障切换完成。

f.活切可以支持多集群同时切换。

4.1.1.2 举例

例如有一主四从的集群,主库 10.66.66.66:3366故障,需要切换,如下:

clip_image001

1.Zabbix自动创建任务,然后DBA执行切换

clip_image003

2.选目标实例

假如例子中的4个从都是存活的,那么在此处会比较根据先本地,选出10.66.66.68:3366,10.66.66.69:3366,然后查连接数,都相同,则去查QPS,

然后比较QPS,选出QPS负载低的10.66.66.69:3366作为目标实例。

clip_image005

3.切换完成结果

clip_image007

4.切换的详细信息

clip_image009

4.1.2从库故障(系统自动完成):
4.1.2.1 切换原则

判断是否宕机实例没有域名,宕机实例设置为手动切换,宕机实例所在集群无其他正常运行实例,这些情况下会给相应的DBA发邮件及短信报警,需要DBA手动处理;

其他情况故障系统会自动处理,根据先本地(连接数少,QPS负载低),后异地(连接数少,QPS负载低)原则选择目标实例,进行域名切换,切换成功或失败都会发邮件及短信告知相应的DBA;

切换成功的从库,相应的DBA可以回切该实例。

4.1.2.2 举例

例如有一主四从的集群,从库 10.88.88.89:3366故障,需要切换,如下:

clip_image010

zabbix会自动创建任务,并根据先本地后异地,然后查连接数,QPS原则,确定目标实例为10.88.88.88:3366,然后自动切换,DBA会在切换任务列表查看切换结果,鼠标悬停执行状态会显示切换的具体信息

clip_image012

切换成功的任务会显示回切按钮,可以执行回切

DBA执行回切,系统会创建回切任务,并可以查看回切的具体信息

clip_image014

4.2活切(一般运维停机切换)
4.2.1 批量创建任务:

输入项目里的任一IP,就可以查出该项目下的所有可用集群,然后勾选想要切换的集群,提交批量创建任务。

创建任务时可选择目标实例是本地,还是异地。然后先对目标实例探活,再根据先物理机后DOCKER,先查连接数少,后查QPS负载低的原则推荐实例。如果有异常会提示。

另外可选择切换后新主库是否为read only

4.2.2任务切换

点击切换,会批量切换本次任务,并可以进入子任务查看具体切换的每个步骤,及MHA执行的每个步骤,切换完成,会等待2分钟去校验域名是否真实切换。

切换后会有前后架构的对比。

可以kill旧主库的所有应用链接。

4.2.3 举例

有个Mysql_test项目下有2个集群,如下

集群1

clip_image015

集群2

clip_image016

1. 批量创建任务

选择原则根据先本地后异地,先物理机后Docker,先连接数后QPS原则,

10.66.66.66:3366选择目标主库为:10.88.88.89:3366

clip_image018

10.66.55.55:3366选择目标主库为:10.88.99.91:3366

clip_image020

2. 批量执行切换

clip_image022

切换子任务详细信息,可查看到每个子任务的切换结果及执行步骤,前后架构

clip_image024

clip_image026

5. 总结

该系统不管是死切,还是活切,都已服务化,接口化,都只需最多2步(创建任务,执行切换)就可完成切换,也可以完全自动化切换(需要业务方同意,因为有些业务数据库故障后需要业务方确认切换),也可以把活切做成流程化交给业务方自助切换。目前该系统已经运行良好,极大的节省了DBA时间,更好地做到数据库的高可用,保证持续提供服务,简化DBA操作,节省数据库故障切换的时间,为京东的数据库保驾护航。

image


本文转自 lover00751CTO博客,原文链接:http://blog.51cto.com/wangwei007/1890607,如需转载请自行联系原作者



相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
18天前
|
Kubernetes Cloud Native 关系型数据库
提升数据安全与性能,掌握Helm一键部署MySQL 8.0主从技巧
【4月更文挑战第9天】提升数据安全与性能,掌握Helm一键部署MySQL 8.0主从技巧
78 0
|
18天前
|
关系型数据库 MySQL 开发工具
MySQL5.7主从配置(Docker)
MySQL5.7主从配置(Docker)
745 0
|
18天前
|
SQL 关系型数据库 MySQL
解决MySQL主从慢同步问题的常见的解决方案:
解决MySQL主从慢同步问题的方法有很多,以下是一些常见的解决方案: 1. 检查网络连接:确保主从服务器之间的网络连接稳定,避免网络延迟或丢包导致数据同步缓慢。 2. 优化数据库配置:调整MySQL的配置参数,如增大binlog文件大小、调整innodb_flush_log_at_trx_commit等参数,以提高主从同步性能。 3. 检查IO线程和SQL线程状态:通过SHOW SLAVE STATUS命令检查IO线程和SQL线程的状态,确保它们正常运行并没有出现错误。 4. 检查主从日志位置:确认主从服务器的binlog文件和位置是否正确,避免由于错误的日志位置导致同步延迟。 5.
218 1
|
18天前
|
SQL 关系型数据库 MySQL
MySQL-主从架构的搭建
MySQL-主从架构的搭建
70 0
|
5天前
|
监控 数据挖掘 API
京东商品API接口:电商数据自动化的钥匙
京东商品API接口为电商领域带来了巨大的便利和潜力。通过本篇文章,读者应该能够了解如何使用京东商品API接口,并通过示例代码学习如何实际调用API获取商品数据。 随着技术的不断发展,京东商品API接口将继续为电商自动化、数据分析和市场研究提供支持,帮助商家和开发者在竞争激烈的市场中保持领先。我们鼓励读者继续探索和学习,充分利用京东商品API接口带来的机遇。
|
18天前
|
关系型数据库 MySQL Linux
服务器Linux系统配置mysql数据库主从自动备份
这是一个基本的配置主从复制和设置自动备份的指南。具体的配置细节和命令可能因您的环境和需求而有所不同,因此建议在操作前详细阅读MySQL文档和相关资源,并谨慎操作以避免数据丢失或不一致。
42 3
|
18天前
|
关系型数据库 MySQL Linux
本地虚拟机centos7通过docker安装主从mysql5.7.21
本地虚拟机centos7通过docker安装主从mysql5.7.21
42 0
|
18天前
|
SQL 关系型数据库 MySQL
【简单无脑】自动化脚本一键安装虚拟机下的MySQL服务
该文章提供了在虚拟机上安装MySQL服务的简化方法,特别是针对新手。作者提供了一个自动化脚本`install_mysql.sh`,使得安装过程更简单。用户需要下载`install.rpm`资源,将其放在指定目录下,然后创建并编辑脚本文件,将提供的代码粘贴进去,通过`chmod u+x`授权,最后运行脚本`./install_mysql.sh [rpm文件路径]`来安装MySQL。文章还附有相关图片说明。
57 1
【简单无脑】自动化脚本一键安装虚拟机下的MySQL服务
|
18天前
|
SQL 缓存 关系型数据库
MySQL常见问题解决和自动化安装脚本
这篇内容包含了两个主要部分:解决MySQL登录问题和处理GPG密钥问题。当MySQL密码正确但无法登录时,可以通过执行SQL命令`ALTER USER`和`flush privileges`来修改和重置密码。对于MySQL安装时的GPG密钥错误,首先需要强制删除旧的MySQL仓库包,导入新的GPG公钥,然后安装MySQL服务器。如果遇到GPG检查错误,可以使用`--nogpgcheck`参数忽略检查来安装。最后,提供了一个自动化安装MySQL的脚本,用于检查旧版本、卸载残留、安装MySQL8并启动服务。
31 1
MySQL常见问题解决和自动化安装脚本
|
18天前
|
SQL 运维 监控
如何做数据库自动化运维
【5月更文挑战第5天】IT运维中的DBA面临诸多挑战,包括库表设计规范落地困难、SQL审核繁琐、数据提取需求频繁、资源管理和监控复杂。为解决这些问题,引入数据库自动化运维平台至关重要。该平台实现SQL审核自动化,确保语句规范和安全,支持数据提取的自助服务,强化元数据管理,提供一键资源部署,并进行全面的数据库监控。这样,DBA的角色转变为平台管理者,提高效率,规范化流程,减轻工作负担。