MySQL范式与反模式
第一范式
每列都保持原子性。
举个例子,活动表(活动编码,活动名称,活动地址),假设这个场景中,活动地址可以细分为国家、省份、城市、市区、位置,那么就没有达到第一范式。
第二范式
非主属性不部分依赖于候选码。
举个例子,版本表(版本编码,版本名称,产品编码,产品名称),其中主键是(版本编码,产品编码),这个场景中,数据库设计并不符合第二范式,因为产品名称只依赖于产品编码。存在部分依赖。所以,为了使其满足第二范式,可以改造成两个表:版本表(版本编码,产品编码)和产品表(产品编码,产品名称)。
第三范式
非主属性不传递依赖于候选码。
举个例子,订单表(订单编码,顾客编码,顾客名称),其中主键是(订单编码),这个场景中,顾客编码、顾客名称都完全依赖于主键,因此符合第二范式,但是顾客名称依赖于顾客编码,从而间接依赖于主键,所以不能满足第三范式。为了使其满足第三范式,可以拆分两个表:订单表(订单编码,顾客编码)和顾客表(顾客编码,顾客名称),拆分后的数据库设计,就可以完全满足第三范式的要求了。
值得注意的是,第二范式的侧重点是非主键列是否完全依赖于主键,还是依赖于主键的一部分。第三范式的侧重点是非主键列是直接依赖于主键,还是直接依赖于非主键列。
反模式
范式可以避免数据冗余,减少数据库的空间,减轻维护数据完整性的麻烦。
然而,通过数据库范式化设计,将导致数据库业务涉及的表变多,并且可能需要将涉及的业务表进行多表连接查询,这样将导致性能变差,且不利于分库分表。因此,出于性能优先的考量,可能在数据库的结构中需要使用反模式的设计,即空间换取时间,采取数据冗余的方式避免表之间的关联查询。至于数据一致性问题,因为难以满足数据强一致性,一般情况下,使存储数据尽可能达到用户一致,保证系统经过一段较短的时间的自我恢复和修正,数据最终达到一致。
需要谨慎使用反模式设计数据库。一般情况下,尽可能使用范式化的数据库设计,因为范式化的数据库设计能让产品更加灵活,并且能在数据库层保持数据完整性。
有的时候,提升性能最好的方法是在同一表中保存冗余数据,如果能容许少量的脏数据,创建一张完全独立的汇总表或缓存表是非常好的方法。举个例子,设计一张“下载次数表”来缓存下载次数信息,可使在海量数据的情况下,提高查询总数信息的速度。
另外一个比较典型的场景,出于扩展性考虑,可能会使用 BLOB 和 TEXT 类型的列存储 JSON 结构的数据,这样的好处在于可以在任何时候,将新的属性添加到这个字段中,而不需要更改表结构。但是,这个设计的缺点也比较明显,就是需要获取整个字段内容进行解码来获取指定的属性,并且无法进行索引、排序、聚合等操作。因此,如果需要考虑更加复杂的使用场景,更加建议使用 MongoDB 这样的文档型数据库。
MySQL 中 VARCHAR
与 CHAR
的区别?VARCHAR(50)
中的 50 代表的涵义?
- CHAR 是一种固定长度的类型,如果插入长度小于定义长度,则用空格填充
- CARCHAR 则是一种可变长度的类型,如果插入长度小于定于长度,还是按照实际长度存储。
- VARCHAR(50) 中 50 的涵义最多存放 50 个字符。VARCHAR(50) 和 (200) 存储 hello 所占空间一样,但后者在排序时会消耗更多内存,因为 ORDER BY col 采用 fixed_length 计算 col 长度(memory引擎也一样)。
INT(11)
中的 11 代表什么涵义?
INT(11)
中的 11 ,不影响字段存储的范围,代表字符的显示宽度。
索引的类型(InnoDB)有哪些?
索引,都是实现在存储引擎层的。主要有六种类型:
- 主键索引
- 外键索引
- 唯一索引
- 普通索引
- 联合索引
- 全文索引
MySQL语句中需要注意走不走索引的一些情况
不走索引
- 在 WHERE 子句中使用 表达式 比如
WHERE id % 2=0
- LIKE 查询 前 %
- 联合索引不满足前缀原则
有可能走索引,有可能不走,MySQL会比较怎执行效率高
- 在 WHERE 子句中使用
!=
- 在 WHERE 子句中使用
<>
- 在 WHERE 子句中使用
OR
- 在 WHERE 子句中使用
IN
什么是索引的最左匹配特性?
当 B+Tree 的数据项是复合的数据结构,比如索引 (name, age, sex) 的时候,B+Tree 是按照从左到右的顺序来建立搜索树的。
比如当 (张三, 20, F) 这样的数据来检索的时候,B+Tree 会优先比较 name 来确定下一步的所搜方向,如果 name 相同再依次比较 age 和 sex ,最后得到检索的数据。
但当 (20, F) 这样的没有 name 的数据来的时候,B+Tree 就不知道下一步该查哪个节点,因为建立搜索树的时候 name 就是第一个比较因子,必须要先根据 name 来搜索才能知道下一步去哪里查询。
比如当 (张三, F) 这样的数据来检索时,B+Tree 可以用 name 来指定搜索方向,但下一个字段 age 的缺失,所以只能把名字等于张三的数据都找到,然后再匹配性别是 F 的数据了。
这个是非常重要的性质,即索引的最左匹配特性。
事务的特性?
- 原子性 Atomicity :一个事务(transaction)中的所有操作,或者全部完成,或者全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被恢复(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。即,事务不可分割、不可约简。
- 一致性 Consistency :在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设约束、触发器、级联回滚等。
- 隔离性 Isolation :数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执行时由于交叉执行而导致数据的不一致。事务隔离分为不同级别,包括读未提交(Read uncommitted)、读提交(read committed)、可重复读(repeatable read)和串行化(Serializable)。
- 持久性 Durability :事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。
事务的并发问题有哪些?
实际场景下,事务并不是串行的,所以会带来如下三个问题:
- 脏读:事务 A 读取了事务 B 更新的数据,然后 B 回滚操作,那么 A 读取到的数据是脏数据。
- 不可重复读:事务 A 多次读取同一数据,事务 B 在事务 A 多次读取的过程中,对数据作了更新并提交,导致事务 A 多次读取同一数据时,结果不一致。
- 幻读:系统管理员 A 将数据库中所有学生的成绩从具体分数改为 ABCDE 等级,但是系统管理员 B 就在这个时候插入了一条具体分数的记录,当系统管理员 A 改结束后发现还有一条记录没有改过来,就好像发生了幻觉一样,这就叫幻读。
小结:不可重复读的和幻读很容易混淆,不可重复读侧重于修改,幻读侧重于新增或删除。解决不可重复读的问题只需锁住满足条件的行,解决幻读需要锁表。
MySQL 事务隔离级别会产生的并发问题?
事务定义了四种事务隔离级别,不同数据库在实现时,产生的并发问题是不同的。
不同的隔离级别有不同的现象,并有不同的锁定/并发机制,隔离级别越高,数据库的并发性就越差。
- READ UNCOMMITTED(读未提交):事务中的修改,即使没有提交,对其他事务也都是可见的。
会导致脏读
- READ COMMITTED(读提交):事务从开始直到提交之前,所做的任何修改对其他事务都是不可见的。
会导致不可重复读。这个隔离级别,也可以叫做“不可重复读”。
- REPEATABLE READ(可重复读):一个事务按相同的查询条件读取以前检索过的数据,其他事务插入了满足其查询条件的新数据。产生幻行。
会导致幻读
- SERIALIZABLE(串行化):强制事务串行执行。
不会产生上述问题
MySQL 查询执行顺序?
1 | (1) SELECT |
MySQL 锁机制
- 通过事务隔离级别和MVCC,保证没有脏读和不可重复读
- InnoDB默认使用行锁
- 一般情况的查询,我们基本使用快照读,即不加锁读。
UPDATE
语句和DELETE
语句执行的时候,使用的是当前读,即加锁。
什么是MVCC
多版本并发控制(MVCC),是一种用来解决读-写冲突的无锁并发控制,也就是为事务分配单向增长的时间戳,为每个修改保存一个版本,版本与事务时间戳关联,读操作只读该事务开始前的数据库的快照。 这样在读操作不用阻塞写操作,写操作不用阻塞读操作的同时,避免了脏读和不可重复读。
索引原理(InnoDB)
InnoDB索引底层数据结构是基于B+树实现的。