Node的进程详解

本文主要讲解Node模块中与进程相关的几个知识点:Process、Child_Process和Cluster。

预备知识:进程和线程

进程(Proces):进程是一个具有一定独立功能的程序关于某个数据集合的一次运行活动。是资源(内存等)分配的最小单元。
线程(Thread):一个进程包含若干个线程,线程作为独立运行和独立调度的基本单位。同一进程下的线程共享该进程的内存资源。(线程比进程更轻量级,切换所产生的性能损耗更小)

Node的单线程机制

我们都说Node是单线程、异步的、事件驱动的语言,可是我们不禁疑惑,Node如果只有一个线程,那么它是如何实现异步机制以及事件机制呢?
实际上,Node单线程是指Node只有一个Js执行线程,Node并不是只有一个线程,node中存在着多种线程,包括:

  js引擎执行的线程
  定时器线程(setTimeout, setInterval)
  异步IO线程
  ...

Javascript的单线程是任务只在Js主线程上执行(即EventLoop),定时、IO等异步任务会交由特定线程去执行,执行完毕后会在Eventloop中添加任务。
Node的这种机制使其避免了过多的线程间切换带来的损耗,使Node特别适合IO密集型应用。
一个Node程序就是一个进程,我们可以通过Process模块获取当前Node进程的信息。
然而,如果Node线程执行计算密集型任务,就会导致程序的卡顿,所以,Node并不适合计算密集型操作;而且,当代处理器都是多核处理器,单线程的Node也无法充分利用处理器资源。所以,Node引入了child_process和cluster模块解决这一问题。

process模块

process模块用来与当前进程互动,可以通过全局变量process访问,不必使用require命令加载。它是一个EventEmitter对象的实例。
通过process可以获得进程的相关信息,并且可以对进程做出操作。

child_process

child_process 有四个方法:exec()、execFile()、spawn()、fork()。

  1. spawn : 子进程中执行的是非node程序,提供一组参数后,执行的结果以流的形式返回。
  2. execFile:子进程中执行的是非node程序,提供一组参数后,执行的结果以回调的形式返回。
  3. exec:子进程执行的是非node程序,传入一串shell命令,执行后结果以回调的形式返回,与execFile 不同的是exec可以直接执行一串shell命令。
  4. fork:子进程执行的是node程序,提供一组参数后,执行的结果以流的形式返回,与spawn不同,fork生成的子进程只能执行node应用。接下来的小节将具体的介绍这一些方法。
    在子进程中:
    通过process.on('message')和process.send()的机制来接收和发送消息。
    在父进程中:
    let child = child_process.fork()
    通过child.on('message')和child.send()的机制来接收和发送消息。

exec、execFile、spawn和fork执行的子进程都是默认异步的,子进程的运行不会阻塞主进程。除此之外,child_process模块同样也提供了execFileSync、spawnSync和execSync来实现同步的方式执行子进程。

预备知识:TCP Socket

我们知道TCP是面向连接的可靠传输协议,套接字(Socket)是TCP编程的接口。TCP是一个C/S(Client/Server)的协议,在服务端需要创建一个ServerSocket监听某个端口,客户端建立Socket请求ServerSocket建立连接,ServerSocket接收到请求后,决定是否Accept,如果接受连接,则创建一个Socket与客户端进行通信,两边的Socket就是通信的接口。
一个端口只能被一个应用(进程)监听。

cluster模块

cluster意为集群,表示多个Node进程构成的服务。cluster封装了child_process.fork方法创建node子进程.。利用cluster模块,我们可以创建多进程的Web服务器,充分利用多核处理器的计算资源。下面给出一个具体示例:

const cluster = require('cluster');
const http = require('http');
const numCPUs = require('os').cpus().length;

if (cluster.isMaster) {
  console.log(`主进程 ${process.pid} 正在运行`);

  // 衍生工作进程。
  for (let i = 0; i < numCPUs; i++) {
    cluster.fork();
  }

  cluster.on('exit', (worker, code, signal) => {
    console.log(`工作进程 ${worker.process.pid} 已退出`);
  });
} else {
  // 工作进程可以共享任何 TCP 连接。
  // 在本例子中,共享的是一个 HTTP 服务器。
  http.createServer((req, res) => {
    res.writeHead(200);
    res.end('你好世界\n');
  }).listen(8000);

  console.log(`工作进程 ${process.pid} 已启动`);
}

我们将master称为主进程,而worker进程称为工作进程,利用cluster模块,使用Node的cluster模块封装好的API、IPC通道和调度机制可以非常简单的创建包括一个master进程下HTTP代理服务器 + 多个worker进程多个HTTP应用服务器的架构。

我们可以看到多个子进程共同监听了同一端口,这是违背规则的,那么Node是如何实现的呢?
这是因为,子进程并没有创建ServerSocket作监听,而是交由父进程创建ServerSocket监听指定端口,接收到连接后创建Socket,而得到的请求会根据“指定的分发规则”通过IPC发送给子进程,子进程处理后的结果再通过IPC由父进程转发给请求方。

而cluster的请求分发策略有两种:
Round-Robin法:即轮询,依次循环将请求分配给子线程。
共享服务端socket方式:由操作系统进行调度。

https://www.cnblogs.com/fuchongjundream/p/3829508.html(进程和线程)
https://segmentfault.com/a/1190000016169207(node线程机制、child_process讲的好)
https://segmentfault.com/a/1190000007735211(child_process)
https://cnodejs.org/topic/596ffb9b3f0ab31540ed4b91(cluster机制讲的好)
https://www.cnblogs.com/pjc20/p/8047801.html(浅谈TCP socket)
https://blog.csdn.net/u010772673/article/details/58027943(什么是端口)

推荐阅读更多精彩内容