自从PEP 255引入生成器以来,它就是 Python 中重要的一部分.
生成器允许你定义一个有迭代器行为的函数.
它允许程序猿更快,更简单并且以一个干净的方式创建一个迭代器.
那么什么是迭代器呢,你或许会问?
iterator迭代器是一个可以被迭代的(循环)对象。它可以抽象为一个装着数据同时有着可迭代对象的行为的容器。或许你已经每天在使用一些可迭代的对象:诸如字符串,列表,字典或其它名字的对象.
一个迭代器是一个实现了迭代器接口Iterator Protocol的类。这个接口为类提供了两个方法:__iter__和__next__.
嗯~回到上一步。你为什么想要创建一个迭代器呢?
节省内存空间
当实例化后,迭代器并不会计算它每一个项的值,他们只会等你访问这些项的时候采取计算。这也就是众所周知的惰性求值。
当你有一个非常大的数据集需要计算时,惰性求值是很有用处的。它允许你马上就能开始使用数据,尽管整个数据集还在计算中。
假设我们想要获得小于某个值的所有素数。
我们先定义一个函数,它可以检查一个数字是否为素数:
defcheck_prime(number): fordivisorinrange(2,int(number**0.5)+1): ifnumber%divisor==0: returnFalse returnTrue
然后,我们定义一个迭代器类,包含__iter__和__next__方法。
classPrimes: def__init__(self,max): self.max=max self.number=1 def__iter__(self): returnself def__next__(self): self.number+=1 ifself.number>=self.max: raiseStopIteration elifcheck_prime(self.number): returnself.number else: returnself.__next__()
Primes类通过给定一个值来实例化。如果下一个素数比值max还要大,迭代器就会抛出一个StopIteration异常来把迭代器停掉。
当我们请求迭代器中的下一个元素时,它会给number加 1 并检查这个数字是否为素数。如果不是,它会再次调用__next__直到number成为素数。一旦如此,迭代器就将这个数字返回。
通过使用迭代器,我们并不会在内存中创建一个包含很多素数的列表。相反,我们将会在每次请求下一个素数时才去生成它。
让我们来试一试:
primes=Primes(100000000000) print(primes) forxinprimes: print(x) ...... <__main__.Primesobjectat0x1021834a8> 2 3 5 7 11 ...
对Primes对象的每一次迭代都调用了__next__来生成下一个素数。
迭代器只可以被迭代一轮。如果你尝试再迭代primes一轮,它将不会返回任何值,表现得就像个空列表。
既然我们已经知道了什么是迭代器,以及怎么制作一个迭代器,我们接下来将继续来看看生成器。
生成器
回想下,生成器函数允许我们以一种更简单的方式来创建迭代器。
生成器给 Python 引入了yield声明。它用起来有点像return,因为它会返回一个值。
区别在于yield会保存函数的状态。在函数下一次被调用时,将会从其离开的地方继续执行,并且变量值也与它之前执行yield操作前相同。
如果把我们的Primes迭代器转换为生成器,它看起来会像这样:
defPrimes(max): number=1 whilenumber<max: number+=1 ifcheck_prime(number): yieldnumber primes=Primes(100000000000) print(primes) forxinprimes: print(x) ...... <generatorobjectPrimesat0x10214de08> 2 3 5 7 11
现在真是太 pythonic 了!我们还能再给力点吗?
当然!我们可以使用PEP 289中介绍的生成器表达式。
这相当于是生成器的列表推导式。它用起来与列表推导式相同,不过表达式由()包裹而不是[]。
下面的表达式可以代替我们上面的生成器函数:
primes=(iforiinrange(2,100000000000)ifcheck_prime(i)) print(primes) forxinprimes: print(x) ...... <generatorobject<genexpr>at0x101868e08> 2 3 5 7 11 ...
这就是 Python 生成器的美妙之处。
总结