MYSQL中的NOT IN和NOT EXISTS不一样的时候

原文链接:Database Zone

对于MySQL, “NOT IN”和”NOT EXISTS”是一样的原理吗?不全是,在处理null时就出现意外了。

当你想对两个表进行差集操作的时候,可以配合子查询,使用NOT EXISTSNOT INNOT IN 更加显得清晰、简单。如今的数据库系统都会将这两种查询方式优化成相同的执行计划获得类似的结果,处理外部和内部查询相关性。

有个很重要的区别是,如果在子查询的结果里返回了NULL,NOT IN 子句会执行失败,因为NULL和任何值都不相等。除了这个,NOT INNOT EXISTS 应该就没什么区别了,另外,NOT IN vs. NOT EXISTS vs. LEFT JOIN / IS NULL: MySQL
文章和评论有相关比较,可以参考一下。

这篇文章就要来说说NOT IN 慢得如蜗牛的一个例子了,nulls是罪魁祸首。

下面有两个表,追综用户点击流的数据,包括登陆用户和匿名用户,其中EVENTS.USER_ID可以是null的。当用户不为null的时候,次级索引(USER_ID列)是占很大基数的。

create table USERS
(
  ID    integer auto_increment primary key,
  ...
)
create table EVENTS
(
  ID      integer auto_increment primary key,
  TYPE    smallint not null,
  USER_ID integer
  ...
)
create index EVENTS_USER_IDX on EVENTS(USER_ID);

现在使用NOT IN从这个两个表中检索出没有特定事件的用户,并且保证null不会出现在子查询返回的结果里,查询长这样:

select  ID
from    USERS
where   ID in (1, 7, 2431, 87142, 32768)
and     ID not in
        (
        select  USER_ID
        from    EVENTS
        where   TYPE = 7
        and     USER_ID is not null
        );

在我的测试结果集中,USERS表有100,000行记录,EVENTS表有10,000,000记录,EVENTS大约75%的USER_ID是null的。在我i7处理器、12G的内存、SSD固态硬盘的笔记本里执行了两分钟,oh,my god,简直不能接受啊。

来使用NOT EXISTS 看看吧:

select  ID
from    USERS
where   ID in (1, 7, 2431, 87142, 32768)
and     not exists
        (
        select  1
        from    EVENTS
        where   USER_ID = USERS.ID
        and     TYPE = 7
        );

这个版本的sql语句执行了0.01秒,正是我所期待的。
来比较它们的执行计划,第一个是NOT IN的查询,第二个是NOT EXISTS的。
NOT IN

+----+--------------------+--------+------------+----------------+-----------------+-----------------+---------+------+------+----------+--------------------------+
| id | select_type        | table  | partitions | type           | possible_keys   | key             | key_len | ref  | rows | filtered | Extra                    |
+----+--------------------+--------+------------+----------------+-----------------+-----------------+---------+------+------+----------+--------------------------+
|  1 | PRIMARY            | USERS  | NULL       | range          | PRIMARY         | PRIMARY         | 4       | NULL |    5 |   100.00 | Using where; Using index |
|  2 | DEPENDENT SUBQUERY | EVENTS | NULL       | index_subquery | EVENTS_USER_IDX | EVENTS_USER_IDX | 5       | func |  195 |    10.00 | Using where              |
+----+--------------------+--------+------------+----------------+-----------------+-----------------+---------+------+------+----------+--------------------------+

NOT EXISTS

+----+--------------------+--------+------------+-------+-----------------+-----------------+---------+------------------+------+----------+--------------------------+
| id | select_type        | table  | partitions | type  | possible_keys   | key             | key_len | ref              | rows | filtered | Extra                    |
+----+--------------------+--------+------------+-------+-----------------+-----------------+---------+------------------+------+----------+--------------------------+
|  1 | PRIMARY            | USERS  | NULL       | range | PRIMARY         | PRIMARY         | 4       | NULL             |    5 |   100.00 | Using where; Using index |
|  2 | DEPENDENT SUBQUERY | EVENTS | NULL       | ref   | EVENTS_USER_IDX | EVENTS_USER_IDX | 5       | example.USERS.ID |   97 |    10.00 | Using where              |
+----+--------------------+--------+------------+-------+-----------------+-----------------+---------+------------------+------+----------+--------------------------+

两个执行计划内容都差不多: 都是从USERS表中选择数据行,然后使用嵌套循环连接(dependent subquery)从EVENTS表里查询出数据,都使用了EVENTS_USER_IDX索引在子查询中选择行,每一步都估算出相同的记录数。

但仔细看一下连接类型(join)——type列,NOT IN使用的是index_subquery, 然而NOT EXISTS使用的却是ref。再看一下ref列:NOT EXISTS明确和外部字段进行关联,NOT IN使用的是函数,这里发生了什么。

index_subquery连接类型表示MySQL会扫描索引去查找子查询的相关行,这也没有什么问题。EVENTS_USER_IDX 是“narrow”类型的:只有一列,所以引擎也不会读取大量的数据块去查到和外部询匹配的id。笔者我后边又使用很多的查询去测试这个索引,所有都在几百毫秒内返回了结果。

为了得到更多的信息,使用explain extended 查看NOT INsql 语句的执行计划,然后接着执行show warnings 看到如下内容:

/* select#1 */  select `example`.`USERS`.`ID` AS `ID` 
                from    `example`.`USERS` 
                where   ((`example`.`USERS`.`ID` in (1,7,2431,87142,32768)) 
                        and (not(
    (`example`.`USERS`.`ID`,
     (
      (
       (`example`.`USERS`.`ID`) in EVENTS on EVENTS_USER_IDX checking NULL where ((`example`.`EVENTS`.`TYPE` = 7) and (`example`.`EVENTS`.`USER_ID` is not null)) having 
        (`example`.`EVENTS`.`USER_ID`)))))))

对于on EVENTS_USER_IDX checking NULL 我不能找到一个合适的解释,我的理解是:优化器断定在它在执行一个IN的子查询,并且结果集中可以包含NULL,做这个决定的时候,它不考虑where子句中的null检查,结果就是从750万数据中检查USER_ID为null的记录,同时还有和外部查询关联匹配的记录。通过”检查(examine)”,笔者的意思是它将读取表行并应用not null的条件。再者,基于运行查询所花费的时间,我认为它为外部查询中的每个候选值执行了此操作。

因此,当你在一个可以为NULL的列上使用IN或者NOT IN 子查询时,可以好好想想使用EXISTSNOT EXISTS代替。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,907评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,546评论 1 289
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,705评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,624评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,940评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,371评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,672评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,396评论 0 195
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,069评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,350评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,876评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,243评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,847评论 3 231
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,004评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,755评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,378评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,266评论 2 259

推荐阅读更多精彩内容