[MySQL Patch]自动处理备库错误

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

转载请署名:印风

————————————————–

备库因为某些错误停止时有发生,最常见的错误就是”HA_ERR_KEY_NOT_FOUND”和 “HA_ERR_FOUND_DUPP_KEY”.这既有可能是主备切换导致的,也可能是MySQL Bug导致的

通常有两种办法来处理备库错误:

1). 设置 “sql_slave_skip_counter”来忽略错误.
2).set slave_exec_mode = “idempotent”来处理 “HA_ERR_FOUND_DUPP_KEY” (overwritten the record) 和”HA_ERR_KEY_NOT_FOUND”(简单的忽略掉错误).

这两种方法都可能导致主备不一致

如果你使用的是innodb存储引擎,并且使用的是ROW模式复制,那我们就可以fix这个Bug。

很久之前我写了一个工具(http://code.google.com/p/relay-fetch/,下面的slave_error_handler文件夹)可以用来处理这个问题。

以下的patch则通过修改代码,为slave_exec_mode增加新的选项SMART,来自动处理。

思想很简单

1) HA_ERR_KEY_NOT_FOUND
UPDATE_ROWS_EVENT: 先写记录的’Before Image’ ,然后再update
DELETE_ROWS_EVENT: 先写后删 , 或者直接忽略错误

2)HA_ERR_FOUND_DUPP_KEY
WRITE_ROWS_EVENT: overwrite the record

对UPDATE_ROWS_EVENT导致的重复键错误暂不做处理。

以下patch基于Percona Server 5.5.18:

 

Index: /PS5518/branches/PS-r1086-slave-auto-fix/sql/log_event.cc
===================================================================
— /PS5518/branches/PS-r1086-slave-auto-fix/sql/log_event.cc (revision 1136)
+++ /PS5518/branches/PS-r1086-slave-auto-fix/sql/log_event.cc (revision 1180)
@@ -8750,6 +8750,7 @@
applying the event in the replace (idempotent) fashion.
*/
if ((slave_exec_mode == SLAVE_EXEC_MODE_IDEMPOTENT) ||
+ (slave_exec_mode == SLAVE_EXEC_MODE_SMART) ||
(m_table->s->db_type()->db_type == DB_TYPE_NDBCLUSTER))
{
/*
@@ -8829,6 +8830,7 @@
m_table->next_number_field=0;
m_table->auto_increment_field_not_null= FALSE;
if ((slave_exec_mode == SLAVE_EXEC_MODE_IDEMPOTENT) ||
+ (slave_exec_mode == SLAVE_EXEC_MODE_SMART) ||
m_table->s->db_type()->db_type == DB_TYPE_NDBCLUSTER)
{
m_table->file->extra(HA_EXTRA_NO_IGNORE_DUP_KEY);
@@ -9124,7 +9126,9 @@
Write_rows_log_event::do_exec_row(const Relay_log_info *const rli)
{
DBUG_ASSERT(m_table != NULL);
– int error= write_row(rli, slave_exec_mode == SLAVE_EXEC_MODE_IDEMPOTENT);
+
+ int error= write_row(rli, slave_exec_mode == SLAVE_EXEC_MODE_IDEMPOTENT ||
+ slave_exec_mode == SLAVE_EXEC_MODE_SMART);

if (error && !thd->is_error())
{
@@ -9662,7 +9666,19 @@
Delete the record found, located in record[0]
*/
error= m_table->file->ha_delete_row(m_table->record[0]);
+ } else if ( (slave_exec_mode == SLAVE_EXEC_MODE_SMART) &&
+ (error == HA_ERR_KEY_NOT_FOUND)) {
+ tmp_disable_binlog(rli->sql_thd);
+ error = m_table->file->ha_write_row(m_table->record[0]) ||
+ m_table->file->rnd_pos_by_record(m_table->record[0]);
+
+ reenable_binlog(rli->sql_thd);
+ if (!error)
+ error = m_table->file->ha_delete_row(m_table->record[0]);
+ else
+ error = HA_ERR_KEY_NOT_FOUND;
}
+
return error;
}

@@ -9782,6 +9798,17 @@
int error= find_row(rli);
if (error)
{
+ if ((slave_exec_mode == SLAVE_EXEC_MODE_SMART) &&
+ (error == HA_ERR_KEY_NOT_FOUND)) {
+ tmp_disable_binlog(rli->sql_thd);
+ error = m_table->file->ha_write_row(m_table->record[0]) ||
+ m_table->file->rnd_pos_by_record(m_table->record[0]);
+ reenable_binlog(rli->sql_thd);
+ if (error)
+ error = HA_ERR_KEY_NOT_FOUND;
+ }
+
+ if (error) {
/*
We need to read the second image in the event of error to be
able to skip to the next pair of updates
@@ -9789,6 +9816,7 @@
m_curr_row= m_curr_row_end;
unpack_current_row(rli);
return error;
+ }
}

/*
Index: /PS5518/branches/PS-r1086-slave-auto-fix/sql/sql_class.h
===================================================================
— /PS5518/branches/PS-r1086-slave-auto-fix/sql/sql_class.h (revision 1136)
+++ /PS5518/branches/PS-r1086-slave-auto-fix/sql/sql_class.h (revision 1180)
@@ -90,6 +90,7 @@
enum enum_log_warnings_suppress { log_warnings_suppress_1592 };
enum enum_slave_exec_mode { SLAVE_EXEC_MODE_STRICT,
SLAVE_EXEC_MODE_IDEMPOTENT,
+ SLAVE_EXEC_MODE_SMART,
SLAVE_EXEC_MODE_LAST_BIT};
enum enum_slave_type_conversions { SLAVE_TYPE_CONVERSIONS_ALL_LOSSY,
SLAVE_TYPE_CONVERSIONS_ALL_NON_LOSSY};
Index: /PS5518/branches/PS-r1086-slave-auto-fix/sql/sys_vars.cc
===================================================================
— /PS5518/branches/PS-r1086-slave-auto-fix/sql/sys_vars.cc (revision 1136)
+++ /PS5518/branches/PS-r1086-slave-auto-fix/sql/sys_vars.cc (revision 1180)
@@ -1962,7 +1962,7 @@
DEFAULT(FALSE));

#ifdef HAVE_REPLICATION
-static const char *slave_exec_mode_names[]= {“STRICT”, “IDEMPOTENT”, 0};
+static const char *slave_exec_mode_names[]= {“STRICT”, “IDEMPOTENT”, “SMART”,0};
static Sys_var_enum Slave_exec_mode(
“slave_exec_mode”,
“Modes for how replication events should be executed. Legal values ”

 

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
关系型数据库 MySQL API
Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
【2月更文挑战第14天】DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
59 8
|
2月前
|
分布式计算 DataWorks 关系型数据库
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
30 4
|
4月前
|
存储 关系型数据库 MySQL
MySQL库的操作『增删改查 ‖ 编码问题 ‖ 备份与恢复』
MySQL库的操作『增删改查 ‖ 编码问题 ‖ 备份与恢复』
51 0
|
8天前
|
SQL 关系型数据库 MySQL
用MySQL创建公司资料库表格
创建了员工、分支、客户及工作关系的数据库表格。员工与分支间有works_with表记录销售数据,外键关联并处理删除操作(set null或cascade)。插入数据后,通过SQL查询获取员工、客户信息,使用聚合函数、通配符、联合查询和JOIN操作。子查询用于复杂条件筛选。数据库设计确保了数据完整性和参照完整性。
14 0
|
10天前
|
关系型数据库 MySQL
MySQL全局库表查询准确定位字段
information_schema.COLUMNS 详细信息查询
199 4
|
1月前
|
关系型数据库 MySQL API
Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决
Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决
|
5月前
|
存储 关系型数据库 MySQL
MySQL中库/表/字段/主键/用户操作示例与详解
MySQL中库/表/字段/主键/用户操作示例与详解
106 0
|
3月前
|
关系型数据库 MySQL 数据库
『 MySQL数据库 』数据库基础之库的基本操作
『 MySQL数据库 』数据库基础之库的基本操作
|
3月前
|
存储 关系型数据库 MySQL
MySQL - 高效的设计MySQL库表
MySQL - 高效的设计MySQL库表
41 0