归并排序

实现原理

今天介绍比前面三种排序算法性能更好的排序算法 —— 归并排序。
该算法是利用分治思想解决问题的一个非常典型的应用,归并排序的基本思路就是先把数组一分为二,然后分别把左右数组排好序,再将排好序的左右两个数组合并成一个新的数组,最后整个数组就是有序的了。
所谓归并排序,指的是如果要排序一个数据序列,我们可以先把该序列从中间分成前后两部分,然后对这两部分分别做排序操作,再将排好序的两部分合并在一起,这样整个数据序列就都有序了。
运用递归法实现归并操作的主要步骤:

  1. 申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列。
  2. 设定两个指针,最初位置分别为两个已经排序序列的起始位置。
  3. 比较两个指针所指向的元素,选择较小的元素放入到合并空间,并将指针移动到下一位置。
  4. 重复步骤3直到某一指针到达序列尾,然后将另一序列剩下的所有元素直接复制到合并序列尾。

归并排序使用了分治思想,分治,顾名思义,就是分而治之,将一个大问题分解成小的子问题来解决。说到这里,可能你会联想起我们之前讲到的一个编程技巧 —— 递归,没错,归并排序就是通过递归来实现的。这个递归的公式是每次都将传入的待排序数据序列一分为二,直到变成不能继续分割的最小区间单元,然后将最小区间单元数据排序后合并起来,最终返回的就是排序好的数据序列了。图示如下:


动图演示

归并排序算法原理:

  • 申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列.
  • 设定两个指针,最初位置分别为两个已经排序序列的起始位置.
  • 比较两个指针所指向的元素,选择相对小的元素放入到合并空间,并移动指针到下一位置.
  • 重复上一步直到某一指针达到序列尾;
  • 将另一序列剩下的所有元素直接复制到合并序列尾.

Merge Sort

示例代码

通过上面的分析,我们知道归并=递归+合并,对应的 Go 实现代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
package main

import (
"fmt"
)

// 归并排序
func mergeSort(nums []int) []int {
if len(nums) <= 1 {
return nums
}

// 获取分区位置
p := len(nums) / 2
// 通过递归分区
left := mergeSort(nums[0:p])
right := mergeSort(nums[p:])
// 排序后合并
return merge(left, right)
}

// 排序合并
func merge(left []int, right []int) []int {
i, j := 0, 0
m, n := len(left), len(right)
// 用于存放结果集
var result []int
for {
// 任何一个区间遍历完,则退出
if i >= m || j >= n {
break
}
// 对所有区间数据进行排序
if left[i] <= right[j] {
result = append(result, left[i])
i++
} else {
result = append(result, right[j])
j++
}
}

// 如果左侧区间还没有遍历完,将剩余数据放到结果集
if i != m {
for ; i < m; i++ {
result = append(result, left[i])
}
}

// 如果右侧区间还没有遍历完,将剩余数据放到结果集
if j != n {
for ; j < n; j++ {
result = append(result, right[j])
}
}

// 返回排序后的结果集
return result
}

func main() {
nums := []int{4, 5, 6, 7, 8, 3, 2, 1}
sortedNums := mergeSort(nums)
fmt.Println(sortedNums)
}

运行上述代码,打印结果如下:

性能分析

最后我们来看下归并排序的性能:

  • 归并最后到底都是相邻元素之间的比较交换,并不会发生相同元素的相对位置发生变化,故是稳定性算法;
  • 时间复杂度是 O(nlogn),要优于冒泡排序和插入排序的 O(n2);
  • 归并排序需要额外的空间存放排序数据,不是原地排序,最多需要和待排序数据序列同样大小的空间,所以空间复杂度是 O(n)。

    归并排序的时间复杂度推导过程

    归并的思路时将一个复杂的问题 a 递归拆解为子问题 b 和 c,再将子问题计算结果合并,最终得到问题的答案,这里我们将归并排序总的时间复杂度设为 T(n),则 T(n) = 2*T(n/2) + n,其中 T(n/2) 是递归拆解的第一步对应子问题的时间复杂度,n 则是排序合并函数的时间复杂度(一个循环遍历),依次类推,我们可以推导 T(n) 的计算逻辑如下:
    1
    2
    3
    4
    5
    T(n) = 2*T(n/2) + n
    = 2*(2*T(n/4) + n/2) + n = 4*T(n/4) + 2*n
    = 4(2*T(n/8) + n/4) + 2*n = 8*T(n/8) + 3*n
    = ...
    = 2^k*T(n/2^k) + k*n
    递归到最后,$T(n/2^k)≈T(1)$,也就是 $n/2^k = 1,$,计算归并排序的时间复杂度,就演变成了计算 k 的值,$2^k = n$,所以 $k=log_2n$,我们把 k 的值带入上述 T(n) 的推导公式,得到:
    1
    T(n) = n*T(1) + n*log2n = n(C + log2n)
    注:上述公式中 2 是下标,即 $log_2n$。
    把常量和低阶忽略,所以 $T(n) = nlogn$。

    优化改进

    在规模较小时,合并排序可采用直接插入,避免递归调用; 在写法上,可以在生成辅助数组时,俩头小,中间大,这时不需要再在后边加俩个while循环进行判断,只需一次比完。 为了节省将元素复制到辅助数组作用的时间,可以在递归调用的每个层次交换原始数组与辅助数组的角色。

    总结

    归并排序和选择排序一样,归并排序的性能不受输入数据的影响,但表现比选择排序好的多,因为始终都是O(n log n)的时间复杂度。代价是需要额外的内存空间。

归并排序
https://www.chendujin.com/posts/1599bffe.html
作者
托马斯
发布于
2022年4月29日
许可协议