注:本文如涉及到代码,均经过Python 3.7实际运行检验,保证其严谨性。
本文阅读时间约为5分钟。
什么是顺序查找(Sequential Search)
如果数据项保存在如列表这样的集合中,我们会称这些数据项具有线性或者顺序关系。
在Python List中,这些数据项的存储位置称为下标(index),这些下标都是有序的整数,正向从固定的0开始,1、2、3、……,或者反向从固定的-1开始,-2、-3、……。
通过这些下标,我们就可以那招顺序来访问和查找数据项。这种技术称为顺序查找(Sequential Search)。
要确定列表中是否存在需要查找的数据项,首先从列表的第1个数据项开始,按照下标增长(index+1)的顺序,逐个比对数据项。如果到最后一个都未发现要查找的目标,那么表示查找失败。
一般的顺序查找算法的代码如下:
# 无序表查找的算法代码。
def sequentialSearch(alist, item):
pos = 0 # 初始位置index为0。
found = False
while pos < len(alist) and not found:
if alist[pos] == item:
found = True
else:
pos = pos + 1 # 下标逐渐增长。
return found
testlist = [1, 2, 32, 8, 17, 3, 9, 87]
print(sequentialSearch(testlist, 3))
print(sequentialSearch(testlist, 32))
<<<
False
True
<<<
顺序查找的算法分析
根据上述代码可知,要对查找算法进行分析,首先要确定其中的基本计算步骤。
回顾此前我们介绍过的算法分析的要点,这种基本计算步骤必须要足够简单,并且在算法中反复执行。
在查找算法中,这种基本计算步骤就是进行数据项的比对。
当前数据项等于还是不等于要查找的数据项,比对的次数决定了算法复杂度。
在顺序查找算法中,为了保证是讨论的通用的方法,需要假定列表中的数据项并没有按某种规则(如值的大小或字母顺序等)排列顺序,而是随机放置在列表中的各个位置;换句话说,数据项在列表中各处出现的概率是相同的。
在各数据项随机放置于列表的各个位置这种情况下,顺序查找的比对次数是多少呢?
这就要看数据项是否存在于列表当中了。
若数据项不存在于列表中,需要比对完所有的数据项(比对次数为n),才能得知结果。
若数据项存在于列表中,要比对的次数就比较复杂了:最好的情况是第一次比对就查找成功(比对次数为1),最坏的情况是查找到最后一个数据项才查找成功(比对次数为n)。
让我们着眼于数据项在列表中这种情况。若是如此,比对的一般情形如何?
考虑到前提是,数据项在列表中各个位置出现的概率是相同的,所以平均状况下,比对的次数是n/2。
所以,顺序查找的算法复杂度是O(n)。
有序顺序查找算法的复杂度
上面讨论的结论是建立在假定列表中的数据项是无序的这一前提之下的。
我们想进一步知道:
如果列表中的数据项是排好序的,顺序查找算法的复杂度又是怎样的呢?
此前我们在介绍基本结构有序表时介绍过顺序查找。当数据项存在于列表当中时,比对查找过程与无序表完全相同。不同之处在于,如果数据项不存在于列表当中,比对可以提前结束。
下图就是一个例子。
假设我们要在上图的列表当中寻找50这个数。当我们顺序查找到54时,依然没有找到50,那么,可以肯定50这个数不存在于这个列表当中。因此我们可以提前结束查找过程,而不必一一比对完剩下的数据项。
有序表的顺序查找算法相比无序表,多了一个提前停止的情况。代码如下:
# 有序表的查找代码。
def sequentialSearch(alist, item):
pos = 0 # 初始位置index为0。
found = False
stop = False # 相比无序表的顺序查找多出的部分。
while pos < len(alist) and not found and not stop:
if alist[pos] == item:
found = True
else:
if alist[pos] > item:
stop = True # 相比无序表查找,可以提前退出。
else:
pos = pos + 1 # 下标逐渐增长。
return found
就算法复杂度而言,有序表的顺序查找的算法复杂度依然是O(n)。
只是在数据项不存在的时候,有序表的查找能节省一些比对次数,但并不改变其数量级。
To be continued.