注册

MySQL Join原理

Join的类型

  1. left join,以左表为驱动表,以左表作为结果集基础,连接右表的数据补齐到结果集中
  1. right join,以右表为驱动表,以右表作为结果集基础,连接左表的数据补齐到结果集中
  1. inner join,结果集取两个表的交集
  1. full join,结果集取两个表的并集
    1. mysql没有full join,union取代
    2. union与union all的区别为,union会去重
  1. cross join 笛卡尔积
    1. 如果不使用where条件则结果集为两个关联表行的乘积
    2. 与,的区别为,cross join建立结果集时会根据on条件过滤结果集合
  1. straight_join
    1. 严格根据SQL顺序指定驱动表,左表是驱动

Join原理

本质上可以理解为嵌套循环的操作,驱动表作为外层for循环,被驱动表作为内层for循环。根据连接组成数据的策略可以分为三种算法。

Simpe Nested-Loop Join

  1. 连接比如有A表,B表,两个表JOIN的话会拿着A表的连表条件一条一条在B表循环,匹配A表和B表相同的id 放入结果集,这种效率是最低的。

Index Nested-Loop Join

  1. 执行流程(磁盘扫描)
    1. 从表t1中读入一行数据 R;
    2. 从数据行R中,取出a字段到表t2里进行树搜索查找
    3. 取出表t2中满足条件的行,跟R组成一行,作为结果集的一部分;
    4. 重复执行步骤1到3,直到表t1的末尾循环结束。
  1. 而对于每一行R,根据a字段去表t2查找,走的是树搜索过程。

Block Nested-Loop Join

  1. mysql使用了一个叫join buffer的缓冲区去减少循环次数,这个缓冲区默认是256KB,可以通过命令show variables like 'join_%'查看
  2. 其具体的做法是,将第一表中符合条件的列一次性查询到缓冲区中,然后遍历一次第二个表,并逐一和缓冲区的所有值比较,将比较结果加入结果集中
  3. 只有当JOIN类型为ALL,index,rang或者是index_merge的时候才会使用join buffer,可以通过explain查看SQL的查询类型。

Join优化

  1. 为了优化join算法采用Index nested-loop join算法,在连接字段上建立索引字段
  2. 使用数据量小的表去驱动数据量大的表
  3. 增大join buffer size的大小(一次缓存的数据越多,那么外层表循环的次数就越少)
  4. 注意连接字段的隐式转换与字符编码,避免索引失效

作者:在下uptown
链接:https://juejin.cn/post/7225797036041764921
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

0 个评论

要回复文章请先登录注册