应用开发实践之关系型数据库(以MySql为例)小结

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介:

应用开发实践之关系型数据库(以MySql为例)小结

本文主要是对目前工作中使用到的DB相关知识点的总结,应用开发了解到以下深度基本足以应对日常需求,再深入下去更偏向于DB本身的理论、调优和运维实践。
不在本文重点关注讨论的内容(可能会提到一些):

具体的DQL、DML、DDL、DCL等语法
基础性的概念,如主键、索引、存储过程(注:阿里巴巴规范中禁止使用存储过程)等
联合查询,我个人不太喜欢在应用中写过于复杂的SQL,性能和后续维护容易出现问题
可能会用到的具体DB特性,如oracle的DATA GUARD
有一些属于基础知识或语法但是常用的信息,也会列一下,如join的用法。
一、基础

  1. ACID
    DB的四大特性,这里简单概括下不具体展开。

原子性(Atomicity):事务操作中的多条SQL,要么全部成功要么全部失败,失败后回滚不对原有数据造成任何影响。
一致性(Consistency):事务开始前和结束后,数据库的完整性没有被破坏。如触发器、约束、级联回滚
隔离性(Isolation):多个事务支持并发读写。具体隔离级别见后文。
持久性(Durability):事务结束后,修改是永久的,不丢失。

  1. 范式
    这里展开讲比较复杂,实践中很少用到,一般满足1NF即可。

高一级必满足低一级。

1NF:每个属性都不可再分,即表的列是最原子的
2NF:在1NF基础上,消除非主属性对键的部分依赖。这里不解释非主属性和键的含义,可以简单认为是指不存在列A可以通过列B来获取,如“学生姓名-学号”这种y=f(x)的函数关系。
3NF:在2NF的基础之上,消除了非主属性对于码的传递函数依赖
BCNF:对于关系模式R,如果每一个函数依赖的决定因素都包含键,则R属于BCNF范式
有兴趣可以参考:范式通俗理解:1NF、2NF、3NF和BNCF
二、事务

  1. 事务的隔离级别
    3.1 读现象

读现象是伴生于不同的隔离级别出现的。读现象的场景都是在多个事务并发执行的前提下可能出现的:

脏读 —— 一个事务读取了另一个未提交事务执行过程中的数据。此时另一个事务可能会由于提交失败而回滚。
不可重复读 —— 一个事务执行过程中多次查询同一条数据但返回了不同查询结果。这说明在事务执行过程中,数据被其他事务修改并提交了。
幻读 —— 事务1先行查询了某种数据,在修改或插入提交之前,事务2对此类数据进行了插入或删除并提交,导致了事务1对预期结果的数量变化。
3.2 隔离级别
未提交读(read uncommited):允许另外一个事务可以看到这个事务未提交的数据。
提交读(read commited):保证一个事务提交后才能被另外一个事务读取,而不能读取未提交的数据。
可重复读(repeatable read):保持读锁和写锁一直到事务提交,但不提供范围锁,因此不能避免幻读。
可序列化(serializable):代价最高但最可靠的事务隔离级别,事务被处理为顺序执行。
3.3 隔离级别与读现象
不同的隔离级别可以防止读现象。

隔离级别 脏读 不可重复读 幻影读
未提交读 可能发生 可能发生 可能发生
提交读 - 可能发生 可能发生
可重复读 - - 可能发生
可序列化 - - -
注:为什么提交读不能避免不可重复读?假设A事务需要读取两次变量a,第一次读取时a=10,执行过程中a被事务B修改变成了20,那么A第二次读时a与第一次的结果不同。

3.4 查看DB的隔离级别
// 查看当前会话
select @@tx_isolation;
// 查看当前系统
select @@global.tx_isolation;
MySql 5.7.14-ALISQL版默认是提交读。

  1. 事务传播性(Spring)
    在多个含有事务方法的相互调用时,事务如何在这些方法间传播。

spring支持7种事务传播行为:

propagation_requierd:如果当前没有事务,就新建一个事务;否则加入到这个已有事务中,这是最常见的选择。
propagation_supports:支持当前事务,如果没有当前事务,就以非事务方法执行。
propagation_mandatory:使用当前事务,如果没有当前事务,就抛出异常。
propagation_required_new:新建事务,如果当前存在事务,把当前事务挂起。
propagation_not_supported:以非事务方式执行操作,如果当前存在事务,就把当前事务挂起。
propagation_never:以非事务方式执行操作,如果当前事务存在则抛出异常。
propagation_nested:如果当前存在事务,则在嵌套事务内执行。如果当前没有事务,则执行与propagation_required类似的操作
Spring默认是propagation_requierd。
为了便于理解,将以上几种传播行为分类:

传播性的类型 当前不在事务中 当前在事务中 备注
propagation_requierd 新建一个事务 加入到当前事务 最常见的选择
propagation_supports 非事务执行 加入当前事务
propagation_mandatory 抛异常 加入当前事务
propagation_required_new 新建事务 挂起当前事务
propagation_not_supported 非事务执行 挂起当前事务
propagation_never 非事务执行 抛异常
propagation_nested 新建事务 嵌套事务内执行
事务挂起
指当前方法不再受所属的事务控制直到该方法结束。比如A方法起了一个事务,调用B方法时B挂起事务,那么B的所有DB操作都不再受A方法的事务控制,直到B执行结束。

事务嵌套
嵌套的事务可以独立于当前事务提交或回滚。

三、性能与优化

  1. 执行计划
    确认SQL在实际执行时的执行情况,如是否走上索引、走了哪个索引、扫描行数、执行顺序(如多个select级联查询)

查看方式
explain XXX
解读
MySql: MySQL_执行计划详细说明

  1. 索引相关
    6.1 聚集/非聚集索引

聚集索引:逻辑上和物理上都是连续的,如主键,一般一个表只有一个聚集索引
非聚集索引:逻辑上是连续的但物理上不是
以Mysql的InnoDB为例:
主键是聚集索引。
唯一索引、普通索引、前缀索引等都是二级索引(辅助索引)。

结合B+树的知识,对于聚集索引,索引数据和存储数据是在一起的,比如id-age这个记录。
对于非聚集索引,只有索引数据,定位具体的记录需要通过索引来找,也即通过索引找到id,再通过id找到id-age这条记录。

6.2 覆盖索引
查询条件和结果全部在一个索引中,MySql不需要通过二级索引查到主键后再查一遍数据就可以返回查询数据。覆盖索引可以大大提升查询效率,举例

select a, b from table_x where c = XXX order by d;
其中a、b、c、d全部在索引中,那么这就是覆盖索引。

对于做不到覆盖索引的查询,查到主键后还要回到数据表中把数据查询出来,则称为__回表__。

6.3 索引有序性
对于联合索引,建立(a, b, c)相当于建立(a), (a,b), (a,b,c)。
在这个索引下,遵循”最左前缀原理“,即先按a排序,再按b排序,最后按c排序。
如果缺失了前一列,如where b = xxx,则走不上索引。
如果某一列不是等值匹配,如where a>10 and b = 1,则只能部分走上索引,b走不上索引。非等值匹配有<、>、!=、IN、LIKE等。

更完整的可以参考mysql组合索引的有序性

6.4 创建了索引但没有走上的原因
使用了<、>、!=、IN、LIKE等(非最左的like,也即like 'xxx%'是可以的)
使用or连接查询子句
预期使用联合索引,但实际上没有按照最左前缀原理排序(见上文7.3节)
字符串类型没有使用引号
全表扫描比走索引快
where子句中包含了函数或表达式
为什么你创建的数据库索引没有生效,索引失效的条件!

  1. 行锁和表锁
    select...for update,走上索引(含主键)是行锁,没走上就是表锁。但是如果索引匹配过多,也会变成表锁。

[转载&整理&链接]mysql 通过测试'for update',深入了解行锁、表锁、索引

  1. 索引的B+树
    https://www.cnblogs.com/tiancai/p/9024351.html

https://www.jianshu.com/p/9bd572b0a0d4
https://www.jianshu.com/p/23524cc57ca4

简单概括一下:
B树的中间节点和叶子节点都有不止一个关键字(key)。B树出现的目的是减少磁盘臂移动的开销从而,尽量减少读写的次数。
B+树与B树的不同在于,B+树的数据都在叶子节点上,中间件节点没有数据。
应用:由于B树最左前缀匹配的特性,如果用左模糊查询(like "%xxx")是走不上索引的。

四、应用开发

  1. 分页查询
    查询第N页(下标从1开始)数据,每页大小PageSize

// 先获取符合条件的总数
select count(1) from tableA where XXX
// 查询该页
// 偏移量,可选 offset = (pageSize-1) * N
// 行数 rows = pageSize
select row1, ..., rowN from tableA where XXX limit offset, rows

  1. Join
    10.1 语法

SELECT Table1.Row1, Table1.Row2, Table2.Row1
FROM Table1
INNER JOIN Table2
ON Table1.Row2 = Table2.Row2
ORDER BY Table1.Row1
10.2 种类
inner join( = join),都匹配才返回
left join,左表全返回不管右表有没有匹配
right join,右表全返回不管左表有没有匹配
full join,全返回,左表右表无论对方匹配都返回所有行

  1. MyBatis缓存
    MyBatis缓存分为两级:一级缓存,SqlSession级别;二级缓存,SqlSessionFactory级别。和通常命名习惯相反,二级缓存的作用范围大于一级缓存,原因是,SqlSession是由SqlSessionFactory创建的。

MyBatis默认开启一级缓存,不开启二级缓存。一级缓存生效于同一个SqlSession,当这个session没有做任何update操作且查询完全相同时,会返回一样的数据。
此时,在并发环境下,很有可能会发生这种情况:在一台服务器A上连续查询两次,两次属于同一个SqlSession;中间另一个服务器B对表做了更新,A看到的第二次查询结果仍然是旧的。

关于缓存的细节,如如何判断“同一次查询”、缓存有效期、SqlSession原理,可以自行查阅。推荐mybatis中文官网,有很多原理的介绍。
在实践中,spring和mybatis整合以后每次查询都会刷新sqlSession,即一级缓存是无效的。
MyBatis缓存系列
单独提一下,二级缓存的readOnly默认为false,同一条数据在内存中每个对象都是独立的,可修改相互不影响。可参考如何理解Mybatis二级缓存配置中的readOnly?

  1. mybatis和hibernate
    我在工作中绝大多数时间都用mybatis+spring/springboot写持久层,只有一个应用因为使用SpringDataJPA才对hibernate才做了一些了解。

看了一些资料,了解到二者在写法以外,性能的差别主要在于多表查询这个场景,hibernate会比mybatis慢一些,原因是

hibernate为了保证POJO的数据完整性,需要将关联的数据加载,需要额外地查询更多的数据。

MyBatis和Hibernate相比,优势在哪里? - 郑沐兴的回答 - 知乎
此外,JPA如果想运行原生sql,可以使用EntityManager。

  1. 水平扩展与垂直扩展
    13.1 水平扩展——分库分表一般思路

按某一字段将一张表分片,如userId。分片方式:
第X位到Y位的值
字段hash值
特殊值特殊处理,如某KA(Key Account关键客户)数据量较大,单独一个分表
13.2 水平扩展——历史库
按日期定时同步迁移及清理线上数据
查询需要根据日期路由到线上库或历史库

13.3 水平扩展——按业务拆表
按业务,已处理数据及未处理数据拆分。如已受理未申请单和已完结申请单分开保存。

13.4 垂直扩展
提供更多、更强、容量更大的硬件资源。

13.5 FailOver
在计算机术语中,故障转移(英语:failover),即当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们工作。 故障转移(failover)与交换转移操作基本相同,只是故障转移通常是自动完成的,没有警告提醒手动完成,而交换转移需要手动进行。 ——wiki

FailOver是从应用层面做的,不是单纯DB层面。

13.5.1 背景
单库架构,一旦库挂掉整个服务不可用;
主备架构,切换时有时间延迟;
FailOver从分布上来看仍然是主备架构,但是增加了系统自动切换恢复能力。

13.5.2 思想
和去IOE是一致的,用大量相对廉价的硬件,拆分服务,减少单点,提升整体的可用性。

13.5.3 交互模式
仅举两个最典型的例子,具体场景需要结合硬件能力和应用架构综合分析。

13.5.3.1 记账型
特点:

主备准实时同步,Failover库平时不做读写
主备库表结构一致,Failover库不一定和主备库的表一致(可能会少一些不需要用到的表)
账户型数据保持最终一致性即可
方案:

按比列拆表拆库,降低单个库挂掉时影响用户数
正常工作时,主备准实时同步,Failover库不读写
主库发生异常时,切换到备库读,Failover库记录操作信息。同时,业务操作尽量分流到不依赖相关库到支路上。
主库恢复时,不再写入Failover,将Failover库和主库内容做merge,回写主库,主库再同步备库
注:可以采取双写、基于读库(上文中所述,利用oracle的data guard、mysql的replication等)、异步消息等保证主备一致。

13.5.3.2 交易流水型
特点:

数据保证创建,不保证推进。即交易下单失败,重新下单
failover库交易号与主库通过某些位隔离,不重复
方案:

和“记账型”类似,Failover库数据推进业务完成即可
可以不回写failover期间的数据,依赖中间件读failover库中数据
13.6 读写分离
为了解决读大于多于写的场景下数据库瓶颈的一种架构模式。同样需要结合具体业务不能生搬硬套。
主要是一写多读的架构,在主库挂掉的场景下有可能需要考虑使用paxos算法来决定新的主库。
在做读写分离前,可以先考虑缓存是否能解决当前场景的问题。

五、运维

  1. binlog
    记录DB操作(不含查询)及其他执行信息的二进制日志。

可以参考下面两篇文章简单了解下。
【原创】研发应该懂的binlog知识(上)
【原创】研发应该懂的binlog知识(下)

六、其他话题

  1. 零碎的话题
    想起来就补一些。

15.1 列的默认值
对于有默认值的非空列,如果在insert语句中指明了这一列且值为null,插入仍然会报错,此时不会取默认值。让该列取默认值的方式是,不让该列出现在insert语句中。

15.2 索引下推
MySql5.6做的优化之一,可以在like查询中提高性能。利用查询子句中能确定的查询条件,减少一次查询匹配到的索引,从而减少回表查询的数据。

  1. 延伸话题
    可以自行研究的话题,限于笔者接触范围和篇幅,不展开来写。

索引建立实践,是否越多越好,应该怎么选择索引列
hibernate和mybaits的区别,最大区别是mybatis需要手写sql,用一定的工作量更大的灵活性,利于优化和多表联合查询
redo log、undo log,与DB本身的分离
以下内容可能被滥用,我在实际工作中几乎没有用到,有兴趣可以自行了解。
触发器
union
视图
全表扫描时发生的filesort原理
附:”点评“ 《阿里巴巴JAVA开发手册》之MySql规范部分
开发中遵守一些事先约定好的规范,有助于提升研发效率(无论是个人还是团队内部或团队之间),避免犯一些重复错误,也有助于后续的维护。对于《阿里巴巴JAVA开发手册》中的规范,限于篇幅并没有写明原因,笔者基于自己的开发经验进行一些点评,供参考。
本来是想针对《阿里巴巴JAVA开发手册》MySql规范部分这一部分补一下点评的,但是发现前两天新出的泰山版已经补上很多说明,没必要一一点评,直接下载来看就好:https://files.cnblogs.com/files/wuyuegb2312/《Java开发手册(泰山版)》.pdf.zip

可以看出,前面一部分有很多规范都是和Java OOP相关联的。对于部分条目,是之前没注意到的,单独拉出来点评下。

count(*)和count(1)
【强制】不要使用 count(列名)或 count(常量)来替代 count(),count()是 SQL92 定义的标
准统计行数的语法,跟数据库无关,跟 NULL 和非 NULL 无关。
说明:count(*)会统计值为 NULL 的行,而 count(列名)不会统计此列为 NULL 值的行。

官方文档提到,InnoDB下count(*)和count(1)是没有区别的:

InnoDB handles SELECT COUNT() and SELECT COUNT(1) operations in the same way. There is no performance difference.
但考虑到其他实现对count()有优化(如MyISAM,前提是没有WHERE和GROUP BY子句,直接取缓存的总数),再考虑到用其他DB的情况,统一起见一直用count(*)就好了。
更详细的分析可以看 为什么阿里巴巴禁止使用 count(列名)或 count(常量)来替代 count(*)

禁用外键
【强制】不得使用外键与级联,一切外键概念必须在应用层解决。
说明:(概念解释)学生表中的 student_id 是主键,那么成绩表中的student_id 则为外键。如果更新学生表中的 student_id,同时触发成绩表中的 student_id 更新,即为级联更新。外键与级联更新适用于单机低并发,不适合分布式、高并发集群;级联更新是强阻塞,存在数据库更新风暴的风险;外键影响数据库的插入速度。

禁止使用外键,在本例中并不是不允许在成绩表中存放student_id字段,只是不设置成为外键即可,更新由应用层来做。

原文地址https://www.cnblogs.com/wuyuegb2312/p/11956714.html

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
0
0
0
15
分享
相关文章
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
代码采纳率从 22% 到 33%,通义灵码辅助数据库智能编码实践
通义灵码本质上是一个AI agent,它已经进行了大量的优化。然而,为了更完美或有效地调用模型的潜在能力,我们在使用时仍需掌握一些技巧。通常,大多数人在使用通义灵码时会直接上手,这是 AI agent 的一个优势,即 zero shot 使用,无需任何上下文即可直接使用通义灵码的能力。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
docker拉取MySQL后数据库连接失败解决方案
通过以上方法,可以解决Docker中拉取MySQL镜像后数据库连接失败的常见问题。关键步骤包括确保容器正确启动、配置正确的环境变量、合理设置网络和权限,以及检查主机防火墙设置等。通过逐步排查,可以快速定位并解决连接问题,确保MySQL服务的正常使用。
372 82
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
容器技术实践:在Ubuntu上使用Docker安装MySQL的步骤。
通过以上的操作,你已经步入了Docker和MySQL的世界,享受了容器技术给你带来的便利。这个旅程中你可能会遇到各种挑战,但是只要你沿着我们划定的路线行进,你就一定可以达到目的地。这就是Ubuntu、Docker和MySQL的灵魂所在,它们为你开辟了一条通往新探索的道路,带你亲身感受到了技术的力量。欢迎在Ubuntu的广阔大海中探索,用Docker技术引领你的航行,随时准备感受新技术带来的震撼和乐趣。
101 16
缓存与数据库的一致性方案,Redis与Mysql一致性方案,大厂P8的终极方案(图解+秒懂+史上最全)
缓存与数据库的一致性方案,Redis与Mysql一致性方案,大厂P8的终极方案(图解+秒懂+史上最全)

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等