一、join的执行过程：

对于下表：

CREATE TABLE `t2` (
  `id` int(11) NOT NULL,
  `a` int(11) DEFAULT NULL,
  `b` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `a` (`a`)
) ENGINE=InnoDB;

drop procedure idata;
delimiter ;;
create procedure idata()
begin
  declare i int;
  set i=1;
  while(i<=1000)do
    insert into t2 values(i, i, i);
    set i=i+1;
  end while;
end;;
delimiter ;
call idata();

create table t1 like t2;
insert into t1 (select * from t2 where id<=100)
//这两个表都有一个主键索引id和一个索引a，字段b上无索引。存储过程idata()往表t2里插入了1000行数据，在表t1里插入的是100行数据。

1、Index Nested-Loop Join：

<1>、语句：

对于语句：select * from t1 straight_join t2 on (t1.a=t2.a);让MySQL使用固定的连接方式执行查询，这样优化器只会按照指定的方式去join。在这个语句里，t1 是驱动表，t2是被驱动表。

<2>、语句的explain结果：

可以看到，在这条语句里，被驱动表t2的字段a上有索引，join过程用上了这个索引，因此这个语句的执行流程是这样的：

从表t1中读入一行数据 R；
从数据行R中，取出a字段到表t2里去查找；
取出表t2中满足条件的行，跟R组成一行，作为结果集的一部分；
重复执行步骤1到3，直到表t1的末尾循环结束。

这个过程是先遍历表t1，然后根据从表t1中取出的每行数据中的a值，去表t2中查找满足条件的记录。在形式上，这个过程就跟写程序时的嵌套查询类似，并且可以用上被驱动表的索引，所以称之为“Index Nested-Loop Join”，简称NLJ。

<3>、执行流程：

对驱动表t1做了全表扫描，这个过程需要扫描100行；
而对于每一行R，根据a字段去表t2查找，走的是树搜索过程。由于构造的数据都是一一对应的，因此每次的搜索过程都只扫描一行，也是总共扫描100行；
所以，整个执行流程，总扫描行数是200。

<4>、总结：

(1)、能不能使用“join”？

假设不使用join，那就只能用单表查询。查询过程如下：

执行select * from t1;，查出表t1的所有数据，这里有100行；
循环遍历这100行数据：
- 从每一行R取出字段a的值$R.a；
- 执行select * from t2 where a=$R.a；
- 把返回的结果和R构成结果集的一行。

可以看到，在这个查询过程，也是扫描了200行，但是总共执行了101条语句，比直接join多了100次交互。除此之外，客户端还要自己拼接SQL语句和结果。显然，这么做还不如直接join好。

(2)、如何选择驱动表？

在这个join语句执行过程中，驱动表是走全表扫描，而被驱动表是走树搜索。
假设被驱动表的行数是 $M$ 。每次在被驱动表查一行数据，要先搜索索引a，再搜索主键索引。每次搜索一棵树近似复杂度是以2为底的M的对数，记为 $log_2M$ ，所以在被驱动表上查一行的时间复杂度是 $2*log_2M$ 。
假设驱动表的行数是N，执行过程就要扫描驱动表N行，然后对于每一行，到被驱动表上匹配一次。因此整个执行过程，近似复杂度是 $N + N*2*log_2M$ 。显然， $N$ 对扫描行数的影响更大，因此应该让小表来做驱动表。

(3)、结论：

使用join语句，性能比强行拆成多个单表执行SQL语句的性能要好；
如果使用join语句的话，需要让小表做驱动表。

需要注意这个结论的前提是“可以使用被驱动表的索引”。

2、Simple Nested-Loop Join：

<1>、语句：

对于语句select * from t1 straight_join t2 on (t1.a=t2.b);,由于表t2的字段b上没有索引，因此每次到t2去匹配的时候，就要做一次全表扫描。

<2>、如果继续执行上面的流程:

如果只看结果的话，这个算法是正确的，而且这个算法也有一个名字，叫做“Simple Nested-Loop Join”。
那么这个SQL请求就要扫描表t2多达100次，总共扫描 $100*1000=100000$ 行。

3、Block Nested-Loop Join：

<1>、对于语句`select * from t1 straight_join t2 on (t1.a=t2.b);`,算法执行流程：

把表t1的数据读入线程内存join_buffer中，由于这个语句中写的是select *，因此是把整个表t1放入了内存；
扫描表t2，把表t2中的每一行取出来，跟join_buffer中的数据做对比，满足join条件的，作为结果集的一部分返回。

<2>、流程图示：

<3>、语句explain结果：

可以看到，在这个过程中，对表t1和t2都做了一次全表扫描，因此总的扫描行数是1100。由于join_buffer是以无序数组的方式组织的，因此对表t2中的每一行，都要做100次判断，总共需要在内存中做的判断次数是：100*1000=10万次。
前面说过，如果使用Simple Nested-Loop Join算法进行查询，扫描行数也是10万行。因此，从时间复杂度上来说，这两个算法是一样的。但是， Block Nested-Loop Join算法的这10万次判断是内存操作，速度上会快很多，性能也更好。

<4>、驱动表的选择：

(1)、当t1是小表时：

假设小表的行数是N，大表的行数是M，那么在这个算法里：

两个表都做一次全表扫描，所以总的扫描行数是M+N；
内存中的判断次数是M*N。

可以看到，调换这两个算式中的M和N没差别，因此这时候选择大表还是小表做驱动表，执行耗时是一样的。

(2)、当t1是大表时：

要是表t1是一个大表，join_buffer放不下，join_buffer的大小是由参数join_buffer_size设定的，默认值是256k。如果放不下表t1的所有数据话，策略很简单，就是分段放。把join_buffer_size改成1200，再执行：
select * from t1 straight_join t2 on (t1.a=t2.b);

执行过程就变成了：

扫描表t1，顺序读取数据行放入join_buffer中，放完第88行join_buffer满了，继续第2步；
扫描表t2，把t2中的每一行取出来，跟join_buffer中的数据做对比，满足join条件的，作为结果集的一部分返回；
清空join_buffer；
继续扫描表t1，顺序读取最后的12行数据放入join_buffer中，继续执行第2步。

流程图也就变成这样：

图中的步骤4和5，表示清空join_buffer再复用。

此时的驱动表选择判断依据：

假设，驱动表的数据行数是 $N$ ，需要分K段才能完成算法流程，被驱动表的数据行数是 $M$ 。
注意，这里的 $K$ 不是常数， $N$ 越大 $K$ 就会越大，因此把 $K$ 表示为 $λ*N$ ，显然λ的取值范围是 $(0,1)$ 。
所以，在这个算法的执行过程中：

扫描行数是 $N+λ*N*M$ ；
内存判断 $N*M$ 次。

显然，内存判断次数是不受选择哪个表作为驱动表影响的。而考虑到扫描行数，在 $M$ 和 $N$ 大小确定的情况下， $N$ 小一些，整个算式的结果会更小。所以，应该让小表当驱动表。

当然，在 $N+λ*N*M$ 这个式子里， $λ$ 才是影响扫描行数的关键因素，这个值越小越好。刚刚说了 $N$ 越大，分段数 $K$ 越大。那么 $N$ 固定的时候，什么参数会影响 $K$ 的大小（也就是 $λ$ 的大小）呢?答案是join_buffer_size。join_buffer_size越大，一次可以放入的行越多，分成的段数也就越少，对被驱动表的全表扫描次数就越少。这就是为什么些建议如果join语句很慢，就把join_buffer_size改大。

二、总结：

1、能不能使用join语句？

如果可以使用Index Nested-Loop Join算法，也就是说可以用上被驱动表上的索引，其实是没问题的；
如果使用Block Nested-Loop Join算法，扫描行数就会过多。尤其是在大表上的join操作，这样可能要扫描被驱动表很多次，会占用大量的系统资源。所以这种join尽量不要用。

所以在判断要不要使用join语句时，就是看explain结果里面，Extra字段里面有没有出现“Block Nested Loop”字样。

2、如果要使用join，应该选择大表做驱动表还是选择小表做驱动表？

如果是Index Nested-Loop Join算法，应该选择小表做驱动表；
如果是Block Nested-Loop Join算法：
- 在join_buffer_size足够大的时候，是一样的；
- 在join_buffer_size不够大的时候（这种情况更常见），应该选择小表做驱动表。

所以，总是应该使用小表做驱动表。所谓的“小表”，就是说在决定哪个表做驱动表的时候，应该是两个表按照各自的条件过滤，过滤完成之后，计算参与join的各个字段的总数据量，数据量小的那个表，就是“小表”，应该作为驱动表。

MySQL实战45讲Day33----join的使用情景

MySQL实战45讲Day33----join的使用情景

一、join的执行过程：

1、Index Nested-Loop Join：

<1>、语句：

<2>、语句的explain结果：

<3>、执行流程：

<4>、总结：

(1)、能不能使用“join”？

(2)、如何选择驱动表？

(3)、结论：

2、Simple Nested-Loop Join：

<1>、语句：

<2>、如果继续执行上面的流程:

3、Block Nested-Loop Join：

<1>、对于语句`select * from t1 straight_join t2 on (t1.a=t2.b);`,算法执行流程：

<2>、流程图示：

<3>、语句explain结果：

<4>、驱动表的选择：

(1)、当t1是小表时：

(2)、当t1是大表时：

此时的驱动表选择判断依据：

二、总结：

1、能不能使用join语句？

2、如果要使用join，应该选择大表做驱动表还是选择小表做驱动表？

MySQL实战45讲Day33----join的使用情景

一、join的执行过程：

1、Index Nested-Loop Join：

<1>、语句：

<2>、语句的explain结果：

<3>、执行流程：

<4>、总结：

(1)、能不能使用“join”？

(2)、如何选择驱动表？

(3)、结论：

2、Simple Nested-Loop Join：

<1>、语句：

<2>、如果继续执行上面的流程:

3、Block Nested-Loop Join：

<1>、对于语句select * from t1 straight_join t2 on (t1.a=t2.b);,算法执行流程：

<2>、流程图示：

<3>、语句explain结果：

<4>、驱动表的选择：

(1)、当t1是小表时：

(2)、当t1是大表时：

此时的驱动表选择判断依据：

二、总结：

1、能不能使用join语句？

2、如果要使用join，应该选择大表做驱动表还是选择小表做驱动表？

<1>、对于语句`select * from t1 straight_join t2 on (t1.a=t2.b);`,算法执行流程：