python中的协程

并发描述的是一个程序是否被分成了多个可执行片段,使得每个片段都可以独立运行,不同执行片段通过通信来进行协调。

  1. 并发与并行
    首先应该明确的一点就是并发和并行的概念.并发是程序级的概念,描述的是一段程序里面可执行片段的多少,所以在程序中使用进程,线程,协程都能提高程序的并发性。而并行描述的是程序的计算过程,在同一时间内,该程序同时执行多个可执行片段。现代操作系统中的最小可执行单位是线程,你创建一个进程,操作系统实际执行单位也是该进程中的线程,也就是说只要你的计算机CPU是有多核的,而且你的程序被分成了多个线程或者进程,那每个CPU都会执行其中的一个线程 (没别的任务的情况下)这时候程序就是并行的。而协程只是一个线程中的一部分执行片段,所以单纯的使用协程并不能提高程序的并行性,只能提高单核CPU的并发性。下图表明在双核CPU的计算机下多线程和多协程的运行情况(python中因为GIL的存在是无法做到多线程的,图中只是理想情况下-。-)。


    多线程多协程代码的执行情况
  2. 协程的应用场景
    要了解 协程,首先要知道当cpu处理系统io操作时,会等待这些操作的完成,你可知道这短短的等待时间cpu可以执行多少命令,下面是node.js的创始人在一次演讲上展示的图。

    现在的电脑从不同的储存设备中读取数据的延迟(最后一列只是类比)

    当今的计算机cpu普遍性能可以达到2000000000次/秒,简单计算下从硬盘中取数据会让cpu什么都不干0.0025秒,那段时间本来可以执行5000000条指令啊-_-。于是就诞生了两种方法来防止io的阻塞。
    (1) 为每个会阻塞的操作单独创建一个线程,这样你取你的,我运行我的,就可以提高cpu的利用率
    (2)把每个会阻塞的操作变成一个异步调用,我先跑我的,等你取完了通知我再收拾你
    线程的切换有个问题,切换线程消耗的资源多,还有锁。其实最重要的是python因为gil的存在,对线程的支持十分有限。
    在第二种方法中可以分为异步回调和协程两种方式。这两者最大的区别是协程在内存中维护自身的运行状态和上下文,这样程序的逻辑流表现起来就非常简单,而异步回调则是通过在调用函数中注册回调函数,调用函数的运行状态通过回调函数返回。所以一般来说回调函数的实现都会比协程复杂(关于回调具体可以看http://blog.ometer.com/2011/07/24/callbacks-synchronous-and-asynchronous/

  3. python中的协程
    在python中协程的实现是通过yield来实现的,有些同学可能知道yield是用来把函数变成生成器的却不知道它也可以用于协程。其实仔细一想你就知道,yield命令其实会保存当前函数的上下文,然后返回一个数值给调用它的函数。再想想上面的协程实现,嘿嘿,懂了吧。

总的来说,协程作为一个程序级的实现,优化了程序io的性能,同时把异步回调的实现变成了同步,再加上python中asyncio库的支持,非常推荐大家去学习下。

推荐阅读更多精彩内容