MySQL源码:Range和Ref优化的成本评估-MySQL 튜토리얼-php.cn

在开始介绍index merge/ROR优化之前，打算先介绍MySQL是如何对range/ref做成本评估的。MySQL是基于成本(cost)模型选择执行计划，在多个range，全表扫描，ref之间会选择成本最小的作为最终的执行计划。仍然强烈建议先阅读登博的slide：《查询优化浅析》，文中较为详细的介绍MySQL在range优化时成本的计算。

本文将继续介绍range/ref执行计划选择的一些不容忽略的细节。希望看客能够通过此文能够了解更多细节。

0. 成本计算的总原则
1. range成本的计算与分析
- 1.1 range返回的记录数
- 1.2 CPU COST
- 1.3 IO COST
- 1.4 全表扫描的成本
- 1.5 关于range执行计划的分析
- 1.6 验证
- 1.7 一些限制
2. ref成本的计算与分析
- 2.1 ref返回的记录数
- 2.2 CPU COST
- 2.3 IO COST
- 2.4 全表扫描的成本
- 2.5 关于ref执行计划的分析
- 2.6 验证
3. 上面计算的局限性
4. 案例中使用的数据和表

0. 成本计算的总原则

MySQL的一个执行计划，有两部分成本，CPU成本(CPU COST)和IO成本(IO COST)。CPU COST是指查询出纪录后，需要做过滤等处理的时候的CPU消耗，IO COST是指，从存储引擎读取数据时需要做的IO消耗。

总成本＝ CPU COST + IO COST

补充说明：(1) IO成本计算不考虑缓存的影响。因为在优化器本身是无法预知需要的数据到底在内存中还是磁盘上。

1. range成本的计算与分析

MySQL使用一颗SEL_ARG的树形结构描述了WHERE条件中的range，如果有多个range，则使用递归的方式遍历SEL_ARG结构，在前面详细的介绍range的红黑树结构，以及MySQL如何遍历之。

接上文，这里将看看，遍历到最后，MySQL如何计算一个简单range的成本。

1.1 range返回的记录数

MySQL首先计算range需要返回都少纪录，通过函数check_quick_select返回对某个索引做range查询大约命中多少条纪录。

found_records= check_quick_select(param, idx, *key, update_tbl_stats);

로그인 후 복사

1.2 CPU COST

#define TIME_FOR_COMPARE   5    // 5 compares == one read
double cpu_cost= (double) found_records / TIME_FOR_COMPARE;

로그인 후 복사

1.3 IO COST

对于InnoDB的二级索引，且不是覆盖扫描：

found_read_time := number of ranges + found_records

로그인 후 복사

这里，found_records是主要部分，number of ranges表示一共有多少个range，这是一个修正值，表示IO COST不小于range的个数。

1.4 全表扫描的成本

具体的，对于InnoDB表，我们来看：

read_time= number of total page + （records / TIME_FOR_COMPARE + 1） + 1.1;

로그인 후 복사

对于InnoDB取值为：主键索引(数据)所使用的page数量(stat_clustered_index_size)

对于MyISAM取值为：stats.data_file_length/IO_SIZE + file->tables

1.5 关于range执行计划的分析

这里来看看，range的选择度(selectivty)大概为多少的时候，会放弃range优化，而选择全表扫描。下面时一个定量的分析：

(1) 假设总记录数为R；range需要返回的纪录数为r

(2) 假设该表的总页面数(IO COST)为P；单个页面纪录数为c

\[r+1\frac{r}{5} > P + \frac{R}{5} + 1 + 1.1 \]

\[ \frac{r}{R} > \frac{1}{6} + \frac{5}{6} * \frac{P}{R} + \frac{5.5}{6*R} \]

\[ \frac{r}{R} > \frac{1}{6} + \frac{5}{6} * \frac{1}{c} \frac{5.5}{6*R} \]

在我的测试案例中，P=4，R=1016 ，有

\[ \frac{r}{R} > 0.171 \]

也就是说这个案例中，如果选择度(selectivity)高于17.1%就会放弃range优化，而走全表扫描。这里纪录数超过1016*0.171＝173时将放弃range优化。

1.6 验证

MySQL通过函数check_quick_select返回range可能扫描的记录数，所以，这里通过对该函数设置断点，并手动设置返回值，通过此来验证上面对selectivity的计算，详细地：

(gdb) p head->file->stats.records
$1 = 1016
(gdb) p head->file->scan_time()
$3 = 4
(gdb) p 1016*(1.0/6+(5.0/6)*(4.0/1016)+5.5/(6*1016))
$43 = 173.58333333333329
(gdb) b check_quick_select
Breakpoint 5 at 0x679377: file opt_range.cc, line 7436.
(gdb) c
Continuing.
遇到断点：
(gdb) return 173
看到：
root@test 05:07:52>explain select * from users where reg_date >= '2012-09-20 12:00:00';
+----+-------------+-------+-------+---------------+-------------+---------+------+------+-------------+
| id | select_type | table | type  | possible_keys | key         | key_len | ref  | rows | Extra       |
+----+-------------+-------+-------+---------------+-------------+---------+------+------+-------------+
|  1 | SIMPLE      | users | range | ind_regdate   | ind_regdate | 9       | NULL |  173 | Using where |
+----+-------------+-------+-------+---------------+-------------+---------+------+------+-------------+
(gdb) return 174
看到
root@test 05:08:05>explain select * from users where reg_date >= '2012-09-20 12:00:00';
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+
| id | select_type | table | type | possible_keys | key  | key_len | ref  | rows | Extra       |
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+
|  1 | SIMPLE      | users | ALL  | ind_regdate   | NULL | NULL    | NULL | 1016 | Using where |
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+

로그인 후 복사

上面可以看到，如果range命中的记录数超过173的时候，就会放弃range，选择全表扫描。

1.7 一些限制

(1) 无论时InnoDB还是MyISAM的scan_time，range返回的记录数都不是精确值，而且对于InnoDB，总记录数也不是精确值，所以上面只是一个High level的预估。

(2) 上面案例中，条纪录很短，所以看到总page很少，实际情况，单条纪录更大，也就是上面的单个页面纪录数为c更小，所以通常选择度更高的时候，才会选择全表扫描。

2. ref成本的计算与分析

2.1 ref返回的记录数

ref优化的时候，计算返回的记录数从代码上来看要复杂很多，但是思想很简单。

思路：在range优化阶段，任何等值都会当作范围条件（参考1，参考2）。

对于kp1 = const and kp2 = const这类ref，MySQL将直接使用range优化时返回的结果，这个结果是通过存储引擎接口records_in_range返回。

还有一类较为特殊的ref，kp1 = const and kp2 > const，对于此类ref，range优化的时候，会使用两个索引列，但是ref只能用一个索引列。这时，ref首先根据索引统计信息(show index from users中Cardinality的值)预估。因为这里有range优化的值，还会做一次修正，因为range使用了更多的索引字段。修正逻辑为：如果发现索引统计信息太过保守(例如数据分布不均匀时，遇到一个热点)，这时会用range优化的值修正。

所以，返回的纪录数，使用如下代码获取：

records= keyinfo->rec_per_key[max_key_part-1]
if(records quick_rows[key]...)
  records= (double)table->quick_rows[key];

로그인 후 복사

2.2 CPU COST

CPU COST := records/(double) TIME_FOR_COMPARE;

로그인 후 복사

2.3 IO COST

ref在做IO成本评估的时候，基本同range相同，ref命中多少纪录则需要多少个IO COST。但是跟range优化打不同的是，这里做了一个修正(range优化并没有做)，也是IO COST最坏不会超过全表扫描IO消耗的3倍(或者总记录数除以10)，有下面的代码：

s->worst_seeks= min((double) s->found_records / 10,
                        (double) s->read_time*3);
IO COST := record_count*min(tmp,s->worst_seeks);

로그인 후 복사

这里record_count是前一次关联后的记录数。tmp是当前ref命中的记录数。这个修正的逻辑是很好理解的：即使加上索引扫描其io cost仍然是有限度的。因为range的评估并没有加上这个修正，所以就导致了一些奇怪的事情发生了，后面我们再详细分析这一点。

2.4 全表扫描的成本

简单版本(不考虑多表关联)：

scan_time() + s->records/TIME_FOR_COMPARE

로그인 후 복사

scan_time()为存储引擎返回的全表扫描IO次数；s->records为存储引擎维护的单表总纪录数。

复杂版本(有多表关联)：

假设前面关联后的纪录数为record_count，当前表的where条件将过滤后剩余3/4的纪录（不满足where条件的为1/4），并将这个值记为rnd_records。

(s->records - rnd_records)/TIME_FOR_COMPARE +
record_count * (rnd_records/TIME_FOR_COMPARE)

로그인 후 복사

这里假设将过滤1/4数据，实际代码中还将做一次修正，如果有range计算，假设其命中q条纪录，那么就认为将过滤s->records-q条纪录。

2.5 关于ref执行计划的分析

上面的分析，可以看到，ref成本有一部分是取min函数的，为了分析ref和全表扫描的临界条件，为了简化做下面的假设：

(1) scan_time()*3  records / 10
(2) scan_time()*3 
<p>第一个条件表示约30条纪录一个page；第二个条件是ref命中的记录数为总页面的3倍。</p>
<p>那么放弃ref全表扫描的条件是：</p>
<pre class="brush:php;toolbar:false">scan_time()*3 + r/5  > scan_time() + R/5
即：
scan_time()*2 > (R-r)/5
scan_time() > (R-r)/10
具体的：

로그인 후 복사

(1) 假设总记录数为R；ref需要返回的纪录数为r

(2) 假设该表的总页面数(IO COST)为P；单个页面纪录数为c

那么range的代价超过全表扫描代价，则有：

\[3*P + \frac{r}{5} > P + \frac{R}{5} \]

\[\frac{r}{R} > 1 - \frac{10*P}{R}\]

\[\frac{r}{R} > 1 - \frac{10}{c}\]

在我的测试案例中，P=6.4，R=900 ，有

\[ \frac{r}{R} > 0.929 \]

对于具体的案例，由于取整的问题，会和上面有小小的偏差：

3*((int)6.39) + r/5 > 6.39453125 + 900/5
r > 841.97

로그인 후 복사

2.6 验证

这里再通过gdb修改r的值来验证，因为ref命中纪录的预估是取range的计算值，所以：

gdb) set s->table->quick_rows[1]=841
(gdb) c
root@test 04:37:16>explain select * from users where reg_date = '2012-09-21 12:00:00';
+----+-------------+-------+------+---------------+-------------+---------+-------+------+-------------+
| id | select_type | table | type | possible_keys | key         | key_len | ref   | rows | Extra       |
+----+-------------+-------+------+---------------+-------------+---------+-------+------+-------------+
|  1 | SIMPLE      | users | ref  | IND_REGDATE   | IND_REGDATE | 9       | const |  841 | Using where |
+----+-------------+-------+------+---------------+-------------+---------+-------+------+-------------+
1 row in set (47.61 sec)
(gdb) set s->table->quick_rows[1]=842
(gdb) c
root@test 04:38:46>explain select * from users where reg_date = '2012-09-21 12:00:00';
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+
| id | select_type | table | type | possible_keys | key  | key_len | ref  | rows | Extra       |
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+
|  1 | SIMPLE      | users | ALL  | IND_REGDATE   | NULL | NULL    | NULL |  900 | Using where |
+----+-------------+-------+------+---------------+------+---------+------+------+-------------+

로그인 후 복사

另一个结论是，如果当条记录很小，单个页面的记录数很多的话，只有选择度(selectivity)非常高的时候，MySQL才会放弃ref，走全表扫描，这也是，Vadim在2006年吐槽MySQL的一点。

3. 上面计算的局限性

上面的推倒尝试介绍一些通用的情况，但是实际上优化器中计算ref/range的成本时，会有一些不同：

(1) 无论时InnoDB还是MyISAM的scan_time，range返回的记录数都不是精确值，而且对于InnoDB，总记录数也不是精确值，所以上面只是一个High level的预估

(3) 上面的计算，都不是覆盖扫描的情况，覆盖扫描的时候，成本计算与上面略有不同

(4) 上面都是使用gdb修改某些值的方式来验证。如果想通过创建一个表，够造某个索引的区分度/选制度，因为scan_time和返回的记录数都是预估的，这样的方式是不行的

4. 案例中使用的数据和表

CREATE TABLE `users` (
  `id` int(11) NOT NULL,
  `nick` varchar(32) DEFAULT NULL,
  `reg_date` datetime DEFAULT NULL,
  KEY `IND_NICK` (`nick`),
  KEY `IND_REGDATE` (`reg_date`),
  KEY `IND_ID` (`id`)
) ENGINE=MyISAM
for id in `seq 1 886`; \
do mysql -uroot test -e \
"insert into users values($id,char(round(ord('A') + rand()*(ord('z')-ord('A')))),\
'2012-09-21 12:00:00')"  ;done
for id in `seq 887 900`; \
do mysql -uroot test -e \
"insert into users values($id,char(round(ord('A') + rand()*(ord('z')-ord('A')))),\
'2012-09-20 12:00:00')"  ;done

로그인 후 복사

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1673

Cakephp 튜토리얼

1428

라라벨 튜토리얼

1333

PHP 튜토리얼

1277

C# 튜토리얼

1257

Related knowledge

LARAVEL 소개 예 Apr 18, 2025 pm 12:45 PM

Laravel은 웹 응용 프로그램을 쉽게 구축하기위한 PHP 프레임 워크입니다. 설치 : Composer를 사용하여 전 세계적으로 Laravel CLI를 설치하고 프로젝트 디렉토리에서 응용 프로그램을 작성하는 등 다양한 기능을 제공합니다. 라우팅 : Routes/Web.php에서 URL과 핸들러 간의 관계를 정의하십시오. 보기 : 리소스/뷰에서보기를 작성하여 응용 프로그램의 인터페이스를 렌더링합니다. 데이터베이스 통합 : MySQL과 같은 데이터베이스와 상자 외 통합을 제공하고 마이그레이션을 사용하여 테이블을 작성하고 수정합니다. 모델 및 컨트롤러 : 모델은 데이터베이스 엔티티를 나타내고 컨트롤러는 HTTP 요청을 처리합니다.

MySQL 및 Phpmyadmin : 핵심 기능 및 기능 Apr 22, 2025 am 12:12 AM

MySQL 및 Phpmyadmin은 강력한 데이터베이스 관리 도구입니다. 1) MySQL은 데이터베이스 및 테이블을 작성하고 DML 및 SQL 쿼리를 실행하는 데 사용됩니다. 2) PHPMYADMIN은 데이터베이스 관리, 테이블 구조 관리, 데이터 운영 및 사용자 권한 관리에 직관적 인 인터페이스를 제공합니다.

MySQL 대 기타 프로그래밍 언어 : 비교 Apr 19, 2025 am 12:22 AM

다른 프로그래밍 언어와 비교할 때 MySQL은 주로 데이터를 저장하고 관리하는 데 사용되는 반면 Python, Java 및 C와 같은 다른 언어는 논리적 처리 및 응용 프로그램 개발에 사용됩니다. MySQL은 데이터 관리 요구에 적합한 고성능, 확장 성 및 크로스 플랫폼 지원으로 유명하며 다른 언어는 데이터 분석, 엔터프라이즈 애플리케이션 및 시스템 프로그래밍과 같은 해당 분야에서 이점이 있습니다.

Laravel 프레임 워크 설치 방법 Apr 18, 2025 pm 12:54 PM

기사 요약 :이 기사는 Laravel 프레임 워크를 쉽게 설치하는 방법에 대한 독자들을 안내하기위한 자세한 단계별 지침을 제공합니다. Laravel은 웹 애플리케이션의 개발 프로세스를 가속화하는 강력한 PHP 프레임 워크입니다. 이 자습서는 시스템 요구 사항에서 데이터베이스 구성 및 라우팅 설정에 이르기까지 설치 프로세스를 다룹니다. 이러한 단계를 수행함으로써 독자들은 라벨 프로젝트를위한 탄탄한 토대를 빠르고 효율적으로 놓을 수 있습니다.

MySQL에서 외국 키의 목적을 설명하십시오. Apr 25, 2025 am 12:17 AM

MySQL에서 외국 키의 기능은 테이블 간의 관계를 설정하고 데이터의 일관성과 무결성을 보장하는 것입니다. 외국 키는 참조 무결성 검사 및 계단식 작업을 통해 데이터의 효과를 유지합니다. 성능 최적화에주의를 기울이고 사용할 때 일반적인 오류를 피하십시오.

MySQL 및 Mariadb를 비교하고 대조하십시오. Apr 26, 2025 am 12:08 AM

MySQL과 Mariadb의 주요 차이점은 성능, 기능 및 라이센스입니다. 1. MySQL은 Oracle에 의해 개발되었으며 Mariadb는 포크입니다. 2. MariaDB는 높은 하중 환경에서 더 나은 성능을 발휘할 수 있습니다. 3. Mariadb는 더 많은 스토리지 엔진과 기능을 제공합니다. 4.MySQL은 듀얼 라이센스를 채택하고 MariaDB는 완전히 오픈 소스입니다. 선택할 때 기존 인프라, 성능 요구 사항, 기능 요구 사항 및 라이센스 비용을 고려해야합니다.

SQL vs. MySQL : 둘 사이의 관계를 명확히합니다 Apr 24, 2025 am 12:02 AM

SQL은 관계형 데이터베이스를 관리하는 표준 언어이며 MySQL은 SQL을 사용하는 데이터베이스 관리 시스템입니다. SQL은 CRUD 작업을 포함한 데이터베이스와 상호 작용하는 방법을 정의하는 반면 MySQL은 SQL 표준을 구현하고 저장 프로 시저 및 트리거와 같은 추가 기능을 제공합니다.

MySQL : 데이터베이스, phpmyadmin : 관리 인터페이스 Apr 29, 2025 am 12:44 AM

MySQL 및 Phpmyadmin은 다음 단계를 통해 효과적으로 관리 할 수 있습니다. 1. 데이터베이스 작성 및 삭제 : Phpmyadmin을 클릭하여 완료하십시오. 2. 테이블 관리 : 테이블을 만들고 구조를 수정하고 인덱스를 추가 할 수 있습니다. 3. 데이터 작동 : 삽입, 업데이트, 데이터 삭제 및 SQL 쿼리 실행을 지원합니다. 4. 가져 오기 및 내보내기 데이터 : SQL, CSV, XML 및 기타 형식을 지원합니다. 5. 최적화 및 모니터링 : 최적화 가능한 명령을 사용하여 테이블을 최적화하고 쿼리 분석기 및 모니터링 도구를 사용하여 성능 문제를 해결하십시오.

See all articles

MySQL源码:Range和Ref优化的成本评估

0. 成本计算的总原则

1. range成本的计算与分析

1.1 range返回的记录数

1.2 CPU COST

1.3 IO COST

1.4 全表扫描的成本

1.5 关于range执行计划的分析

1.6 验证

1.7 一些限制

2. ref成本的计算与分析

2.1 ref返回的记录数

2.2 CPU COST

2.3 IO COST

2.4 全表扫描的成本

2.5 关于ref执行计划的分析

2.6 验证

3. 上面计算的局限性

4. 案例中使用的数据和表

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제