MySQL源码:JOIN顺序选择的复杂度-MySQL 튜토리얼-php.cn

1. 有限穷举

1.1 greedy_search

1.2 best_extension

1.3 简单的小结

1.4 复杂度分析

1.5 边界情形

2. 贪婪的MySQL

3. 开始前的排序

4. 函数调用栈

집

데이터 베이스

MySQL 튜토리얼

MySQL源码:JOIN顺序选择的复杂度

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:34 PM

join mysql 복잡성 소스 코드 선택하다 주문하다

在看MySQL优化器代码过程中，这应该是相对较简单/代码较清晰的部分了。MySQL优化器有两个自由度：单表访问方式，多表顺序选择。前文已经介绍过MySQL单表访问的一些考量(ref/range等)，本文将介绍JOIN在顺序选择上的复杂度分析。当有多个表需要JOIN的时候，M

在看MySQL优化器代码过程中，这应该是相对较简单/代码较清晰的部分了。MySQL优化器有两个自由度：单表访问方式，多表顺序选择。前文已经介绍过MySQL单表访问的一些考量(ref/range等)，本文将介绍JOIN在顺序选择上的复杂度分析。

当有多个表需要JOIN的时候，MySQL首先会处理两类特殊情况，一个是常数表，一个是由于外连接导致顺序依赖关系。前者总是放在关联的最前面，后者会在遍历的时候考虑。本文将忽略上面两点，从较宏观角度看JOIN顺序选择时候的复杂度。

在设置了参数prune_level(默认设置)后，MySQL使用"极其"贪婪的方式获取顺序。如果未设置，则使用了有限穷举获取"最优"的执行计划。

1. 有限穷举

有限穷举只在参数prune_level关闭时才使用，默认情况prune_level时打开的。所以，MySQL一般不这么做。如果只想了解prune_level打开的时候，直接跳过本节，参考贪婪的MySQL。

在关闭参数prune_level后，MySQL基本上就是穷举了，说"有限"是指，当关联表的数量超过63时(search_depth的默认值)，达到最大深度， MySQL将分多个阶段穷举。当关联表的数量较少的时候(小于search_depth)，MySQL会穷举所有可能，然后计算每个JOIN顺序的成本，选择成本最低的作为其执行计划。关于这部分的算法复杂度，在代码注释中有较为详细的描述，建议阅读函数greedy_search的注释先。下面是注释部分的两段伪代码，很好的描述了整个过程：

1.1 greedy_search

 4997     procedure greedy_search
 4998     input: remaining_tables
 4999     output: pplan;
 5000     {
 5001       pplan = ;
 5002       do {
 5003         (t, a) = best_extension(pplan, remaining_tables);
 5004         pplan = concat(pplan, (t, a));
 5005         remaining_tables = remaining_tables - t;
 5006       } while (remaining_tables != {})
 5007       return pplan;
 5008     }

로그인 후 복사

这里的(t , a)表示，每次best_extension返回下一个需要JOIN的表t，并且确定的访问方式是a。上面的代码中，执行计划的扩展由函数best_extension，初始pplan为空，do循环结束输出最终的执行计划。

1.2 best_extension

best_extension中调用函数best_extension_by_limited_search完成递归遍历，其输入是部分执行计划(pplan)和它的成本，函数目的是找到下一个关联的表。思路很简单，遍历所有剩余表，对每一个表，计算对应的"局部"最优执行计划，当然计算这个“局部”最优仍然是调用这个函数，所以这是一个深度优先的遍历。

伪代码(是不是又有人说我总贴代码了)：

 5171     @code
 5172     procedure best_extension_by_limited_search(
 5173       pplan in,             // in, partial plan of tables-joined-so-far
 5174       pplan_cost,           // in, cost of pplan
 5175       remaining_tables,     // in, set of tables not referenced in pplan
 5176       best_plan_so_far,     // in/out, best plan found so far
 5177       best_plan_so_far_cost,// in/out, cost of best_plan_so_far
 5178       search_depth)         // in, maximum size of the plans being considered
 5179     {
 5180       for each table T from remaining_tables
 5181       {
 5182         // Calculate the cost of using table T as above
 5183         cost = complex-series-of-calculations;
 5184
 5185         // Add the cost to the cost so far.
 5186         pplan_cost+= cost;
 5187
 5188         if (pplan_cost >= best_plan_so_far_cost)
 5189           // pplan_cost already too great, stop search
 5190           continue;
 5191
 5192         pplan= expand pplan by best_access_method;
 5193         remaining_tables= remaining_tables - table T;
 5194         if (remaining_tables is not an empty set
 5195             and
 5196             search_depth > 1)
 5197         {
 5198           best_extension_by_limited_search(pplan, pplan_cost,
 5199                                            remaining_tables,
 5200                                            best_plan_so_far,
 5201                                            best_plan_so_far_cost,
 5202                                            search_depth - 1);
 5203         }
 5204         else
 5205         {
 5206           best_plan_so_far_cost= pplan_cost;
 5207           best_plan_so_far= pplan;
 5208         }
 5209       }
 5210     }
 5211     @endcode

로그인 후 복사

一个说明：在每次遍历的时候，一旦发现成本大于当前的最优成本，则放弃，不再继续深入。

1.3 简单的小结

函数的输入：
	部分执行计划 partial plan
	N个剩余表
函数输出：
	当 N   search_depth，返回search_depth个表的最优执行计划，并合并到部分执行计划
		递归调用该函数，输入为：当前部分执行计划   剩余表N-depth

로그인 후 복사

1.4 复杂度分析

join-complex

所以，复杂度可能是O(N*N^search_depth/search_depth)。如果search_depth > N 那么算法的复杂度就是O(N!)。通常MySQL优化器分析的复杂度都是O(N!)。

1.5 边界情形

有两个比较极端的情况：

– 当需要JOIN的表的数量小于search_depth时，这里就退化为一个深度优先的穷举确定最优执行计划

– 当search_depth = 1的时候，函数退化为"极其"贪婪的算法，每次从当前的剩余的表中取一个成本最小的，来扩展当前的执行计划

剩余的情况就是介于上面两者之间。

2. 贪婪的MySQL

在打开了参数prune_level(默认开启)后，MySQL不再使用穷举的方式扩展执行计划，而是在剩余表中直接选取访问最少纪录数的表。按照MySQL手册上的描述是：根据经验来看，这种”educated guess”基本不会漏掉最优的执行计划，但是却可以大大(dramatically )缩小搜索空间。要是你怀疑漏掉了某个最优的执行计划，你可以考虑关闭参数试试，当然这会导致搜索空间增大，优化器执行时间偏长。

这个参数在深度优先搜索中起作用，在进行深度探索时，根据current_record_count和current_read_time，来确定，这是不是一个好的执行计划。(原本是需要递归调用计算成本确定)

下面是一个简单的伪代码描述：

场景：
pplan 			当前部分执行计划(初始为空) short for partial plan
N remaining table 	当前剩余表(初始化时，为除了常数表之外的所有表)
	这N表记为T[0] T[1] ... T[N-1]
计算代码：
Function best_extension(pplan,N)
Foreach T in T[0...N-1]
    let P(pplan,T) := add T to pplan
    let current_record_count := #row of P(pplan,T)
    let current_read_time := #read time of P(pplan,T)
    if [
         T is Not The First Table in T[0...N-1] AND
         current_record_count >= best_record_count AND
         current_read_time >= best_read_time
       ]
        "P(pplan,T) is a bad plan! SKIP it!!!!!!!"
    END
    let best_record_count := min(best_record_count, current_record_count )
    let best_read_time := min(best_read_time,current_read_time)
    best_extension(P(pplan,T),N-1);
END

로그인 후 복사

说明：

(1) 伪代码中未考虑依赖关系。第一个表的COST总是会计算出来。

(2) 面对pplan和T[0...N-1]时，只计算pplan与T[0],T[1]…T[N-1]的关联后各自的current_record_count，并以此为依据选择，pplan应该跟哪一个表JOIN。除了第一个表(搜索树的最左边的那各分支)会递推计算其代价，其他所有分支都只是蜻蜓点水般只计算一级，而不会深度递归计算。

(3) 这看起来这是一个非常激进的优化方式。

3. 开始前的排序

 4753   my_qsort(join->best_ref + join->const_tables,
 4754            join->tables - join->const_tables, sizeof(JOIN_TAB*),
 4755            straight_join ? join_tab_cmp_straight : join_tab_cmp);

로그인 후 복사

MySQL在开始确定JOIN顺序之前会根据每个表可能访问的纪录数，进行一次排序。这一步看似多余，但是当穷举搜索时，可以大大的减少执行计划需要探测的深度。

当评估某个执行计划的时候，如果某一步发现当前的cost已经大于最优的执行计划时，则立即退出评估。这意味着，如果最先找到最优的执行计划，那么需要做的评估将会少很多。如果某个表需要扫描的行数越少，那么可以初步认为越先使用越好。当然，因为这里的排序评估是没有使用JOIN条件的，所以，看起来需要扫描很多的，也可能加上JOIN以后只需要扫描很少的记录。

4. 函数调用栈

#0 best_access_path

#1 best_extension_by_limited_search

#2 greedy_search

#3 choose_plan

#4 make_join_statistics

#5 JOIN::optimize

原文地址：MySQL源码:JOIN顺序选择的复杂度, 感谢原作者分享。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1665

Cakephp 튜토리얼

1424

라라벨 튜토리얼

1321

PHP 튜토리얼

1269

C# 튜토리얼

1249

Related knowledge

LARAVEL 소개 예 Apr 18, 2025 pm 12:45 PM

Laravel은 웹 응용 프로그램을 쉽게 구축하기위한 PHP 프레임 워크입니다. 설치 : Composer를 사용하여 전 세계적으로 Laravel CLI를 설치하고 프로젝트 디렉토리에서 응용 프로그램을 작성하는 등 다양한 기능을 제공합니다. 라우팅 : Routes/Web.php에서 URL과 핸들러 간의 관계를 정의하십시오. 보기 : 리소스/뷰에서보기를 작성하여 응용 프로그램의 인터페이스를 렌더링합니다. 데이터베이스 통합 : MySQL과 같은 데이터베이스와 상자 외 통합을 제공하고 마이그레이션을 사용하여 테이블을 작성하고 수정합니다. 모델 및 컨트롤러 : 모델은 데이터베이스 엔티티를 나타내고 컨트롤러는 HTTP 요청을 처리합니다.

MySQL 및 Phpmyadmin : 핵심 기능 및 기능 Apr 22, 2025 am 12:12 AM

MySQL 및 Phpmyadmin은 강력한 데이터베이스 관리 도구입니다. 1) MySQL은 데이터베이스 및 테이블을 작성하고 DML 및 SQL 쿼리를 실행하는 데 사용됩니다. 2) PHPMYADMIN은 데이터베이스 관리, 테이블 구조 관리, 데이터 운영 및 사용자 권한 관리에 직관적 인 인터페이스를 제공합니다.

MySQL 대 기타 프로그래밍 언어 : 비교 Apr 19, 2025 am 12:22 AM

다른 프로그래밍 언어와 비교할 때 MySQL은 주로 데이터를 저장하고 관리하는 데 사용되는 반면 Python, Java 및 C와 같은 다른 언어는 논리적 처리 및 응용 프로그램 개발에 사용됩니다. MySQL은 데이터 관리 요구에 적합한 고성능, 확장 성 및 크로스 플랫폼 지원으로 유명하며 다른 언어는 데이터 분석, 엔터프라이즈 애플리케이션 및 시스템 프로그래밍과 같은 해당 분야에서 이점이 있습니다.

데이터베이스 연결 문제 해결 : Minii/DB 라이브러리 사용 실질적인 사례 Apr 18, 2025 am 07:09 AM

작은 응용 프로그램을 개발할 때 까다로운 문제가 발생했습니다. 가벼운 데이터베이스 운영 라이브러리를 신속하게 통합해야합니다. 여러 라이브러리를 시도한 후에는 기능이 너무 많거나 호환되지 않는다는 것을 알았습니다. 결국, 나는 내 문제를 완벽하게 해결하는 YII2를 기반으로 단순화 된 버전 인 Minii/DB를 발견했습니다.

Laravel 프레임 워크 설치 방법 Apr 18, 2025 pm 12:54 PM

기사 요약 :이 기사는 Laravel 프레임 워크를 쉽게 설치하는 방법에 대한 독자들을 안내하기위한 자세한 단계별 지침을 제공합니다. Laravel은 웹 애플리케이션의 개발 프로세스를 가속화하는 강력한 PHP 프레임 워크입니다. 이 자습서는 시스템 요구 사항에서 데이터베이스 구성 및 라우팅 설정에 이르기까지 설치 프로세스를 다룹니다. 이러한 단계를 수행함으로써 독자들은 라벨 프로젝트를위한 탄탄한 토대를 빠르고 효율적으로 놓을 수 있습니다.

MySQL 모드 해결 문제 : theliamysqlmodeschecker 모듈 사용 경험 Apr 18, 2025 am 08:42 AM

Thelia를 사용하여 전자 상거래 웹 사이트를 개발할 때 까다로운 문제가 발생했습니다. MySQL 모드가 제대로 설정되지 않아 일부 기능이 제대로 작동하지 않습니다. 약간의 탐색 후, 나는 theliamysqlmodeschecker라는 모듈을 발견했습니다.이 모듈은 Thelia가 요구하는 MySQL 패턴을 자동으로 수정하여 내 문제를 완전히 해결할 수 있습니다.

MySQL : 구조화 된 데이터 및 관계형 데이터베이스 Apr 18, 2025 am 12:22 AM

MySQL은 테이블 구조 및 SQL 쿼리를 통해 구조화 된 데이터를 효율적으로 관리하고 외래 키를 통해 테이블 간 관계를 구현합니다. 1. 테이블을 만들 때 데이터 형식을 정의하고 입력하십시오. 2. 외래 키를 사용하여 테이블 간의 관계를 설정하십시오. 3. 인덱싱 및 쿼리 최적화를 통해 성능을 향상시킵니다. 4. 데이터 보안 및 성능 최적화를 보장하기 위해 데이터베이스를 정기적으로 백업 및 모니터링합니다.

MySQL : 주요 기능 및 기능이 설명되었습니다 Apr 18, 2025 am 12:17 AM

MySQL은 웹 개발에 널리 사용되는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 주요 기능에는 다음이 포함됩니다. 1. 다른 시나리오에 적합한 InnoDB 및 MyISAM과 같은 여러 스토리지 엔진을 지원합니다. 2.로드 밸런싱 및 데이터 백업을 용이하게하기 위해 마스터 슬레이브 복제 기능을 제공합니다. 3. 쿼리 최적화 및 색인 사용을 통해 쿼리 효율성을 향상시킵니다.

See all articles

MySQL源码:JOIN顺序选择的复杂度

1. 有限穷举

1.1 greedy_search

1.2 best_extension

1.3 简单的小结

1.4 复杂度分析

1.5 边界情形

2. 贪婪的MySQL

3. 开始前的排序

4. 函数调用栈

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제