流畅的迭代器(二)

流畅的迭代器02.png

通过一个简单类的实现及优化过程,慢慢深入迭代的概念。

该类的主要功能如下:

  • 传入一段话
  • 可以迭代输出这段话的中所包含的每个词

迭代器版单词序列

通过前面那一节,我们大致知道迭代器是这样一个东西:

  • 实现无参数的 __next__ 方法,返回序列的下一个元素,如果没有下一个则抛出 StopIteration 异常。
  • 实现 __iter__ 方法,使得迭代器能够可迭代。

通过第一节和上面的知识,我们知道要实现迭代器版本的单词序列:

  1. 实现单词序列的 __iter__ 方法,在这个方法里面返回一个迭代器对象。
  2. 这个迭代器对象中实现 __next__ 方法和 __iter__ 方法。

思路明确了,开始写代码:

import re
import reprlib

RE_WORD = re.compile(r'\w+')


class Sentence(object):
    def __init__(self, text):
        self.text = text
        self.words = RE_WORD.findall(text)

    def __repr__(self):
        return 'Sentence(%s)' % reprlib.repr(self.text)

    def __iter__(self):
        return SentenceIterator(self.words)


class SentenceIterator(object):
    def __init__(self, words):
        self.words = words
        self.index = 0

    def __next__(self):
        try:
            word = self.words[self.index]
        except IndexError:
            raise StopIteration()
        self.index += 1
        return word

    def __iter__(self):
        return self

Sentence.__iter__ 返回一个迭代器对象,具体的迭代逻辑由这个迭代器的具体内容实现。

SentenceIterator 迭代器实现 __iter__ 方法,返回自身对象;__next__ 方法通过内部变量 self.index 记录状态值,每次获取下一个元素。

可能有人会想,我直接在 Sentence 类中把 __next__ 方法一并实现了岂不是省了一坨代码。如果这么做的话就违背了《设计模式:可复用面向对象软件的基础》中讲解迭代器设计模式时提到的“适用性”这一特性。

按照正常的做法,我们可以通过 iter(x) 函数生成 同一个 x 对象 的多份迭代器对象,之后想做多种遍历都可以很简单的操作。

但是如果我们把 __next__ 方法集成在了 Sentence 类里,iter(x) 返回的永远是同一个迭代器,无法实现其他遍历操作。

所以这里就把可迭代对象和迭代器区别开来。

生成器函数

上面迭代器版本的单词序列看起来已经很完美了。但,我们用的是世界上最好的语言——Python,所以我们有更优美的写法:

import re
import reprlib

RE_WORD = re.compile(r'\w+')


class Sentence:
    def __init__(self, text):
        self.text = text
        self.words = RE_WORD.findall(text)

    def __repr__(self):
        return 'Sentence(%s)' % reprlib.repr(self.text)

    def __iter__(self):
        for word in self.words:
            yield word

上面 Sentence.__iter__ 返回的迭代器对象是使用 yield 关键字定义的一个生成器对象。

看下面这段生成器代码片段:

In [1]: def gen_123():
   ...:     yield 1
   ...:     yield 2
   ...:     yield 3
   ...:

In [2]: g = gen_123()

In [3]: next(g)
Out[3]: 1

In [4]: next(g)
Out[4]: 2

In [5]: next(g)
Out[5]: 3

In [6]: next(g)
---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
<ipython-input-63-e734f8aca5ac> in <module>
----> 1 next(g)

StopIteration:

将生成器对象放入 next() 函数中,生成器对象会向前调用到下一个 yield 语句处,并把 yield 后面的值类似于 return 一样返回出来,当全部代码执行完毕时会抛出 StopIteration 异常。

可见生成器对象和迭代器对象都是 鸭子

所以说,Sentence.__iter__ 方法返回的生成器对象已经实现了迭代器 __iter____next__ 的接口。

总结

  1. 可迭代对象实现了 __iter__ 接口
  2. 迭代器不止实现 __iter__ 接口,还要实现 __next__ 接口
  3. 生成器内部已经实现了迭代器的接口

推荐阅读更多精彩内容

  • 本节课纲 可迭代对象 迭代器 生成器Python中内置的序列,如list、tuple、str、bytes、dict...
    郭_扬阅读 208评论 0 0
  • 迭代器模式:一种惰性获取数据项的方式,即按需一次获取一个数据项。 关于迭代器和生成器的区别:在Python社区中,...
    Zoulf阅读 180评论 0 0
  • 今天和老公去参加一个客户的婚礼,开始一段时间,老公对外界的反应和对新娘新郎的招呼都很到位,我只是跟着,觉得挺好 一...
    尚待挖掘的奥秘阅读 38评论 0 0
  • 后来有一次跟随母亲去只隔了一个村庄的舅舅家,后来因为刚下过雨,所以我就跟着表姐表哥采蘑菇。我们就在树林里绕来...
    魂归潇湘阅读 35评论 0 1
  • 过年的时候看了热播的《飞驰人生》,今天突然有感觉又看一遍,我个人感觉这个片子是个圆梦的过程,即是韩寒的圆梦,也是男...
    臧玉清阅读 293评论 1 3