渲染流水线

概念化的流水线流程图如下:

概念化的渲染流水线.png

应用阶段 Application Stage

由CPU负责执行,开发者可完全控制。

主要任务如下:

  • 准备场景数据
    相机,视锥体,模型,光源等等。

  • 粗粒度剔除
    剔除不可见物体。

  • 设置每个物体的渲染状态
    材质,贴图,Shader等。最终输出下一阶段所需要的几何数据,即渲染图元(rendering primitives)。点,线,三角面等。

可分为三个步骤:

  • 将数据加载到显存中
    CPU将数据从硬盘加载到内存中,然后再将数据从内存加载到显存中,之后无用的数据会从内存中移除。
    显存速度比内存更快,而且显卡也没有访问内存的权限。

  • 设置渲染状态

  • 调用DrawCall
    CPU向GPU发起DrawCall命令,通知其绘制哪一个物体。然后GPU会直接从显存中读取对应物体的数据进行渲染操作。

几何阶段 Geometry Stage

由GPU负责执行,用于处理所有要绘制的物体的几何数据。主要任务是将顶点坐标变换到屏幕空间中,输出屏幕空间中的二维顶点坐标,深度值,着色等相关信息。

光栅化阶段 Rasterizer Stage

由GPU负责执行,使用几何阶段传递的数据来生成屏幕上的像素,并渲染出最终的图像。主要任务是决定每个渲染图元中的哪些像素应该被绘制在屏幕上。对逐顶点数据(如纹理坐标,顶点颜色等)进行插值,然后进行逐像素处理。

GPU流水线

GPU渲染流水线.png

几何阶段具体步骤:

顶点着色器 Vertex Shader

可编程。

  • 逐顶点坐标变换
    将坐标从模型空间转换到齐次裁剪空间(投影空间)。然后经过硬件透视除法后,得到归一化设备坐标(Normalized Device Coordinates,NDC).
float4 pos = mul(UNITY_MATRIX_MVP, i.vertex);

齐次裁剪空间坐标范围:
X[-1,1], Y[-1,1]
Z[-1,1] OpenGL/Unity
Z[0,1] DirectX

  • 逐顶点光照
  • 准备下一阶段需要的数据
曲面细分着色器

可选着色器,用于细分图元。

几何着色器

可选着色器,用于执行逐图元的着色操作,或用于生成更多的图元。

裁剪 Culling

可配置。剔除不在相机视野内的顶点,面片。
由于裁剪是在NDC下进行的,所以比较容易。

  • 在单位立方体内的图元被保留
  • 完全在单位立方体外的图元被丢弃
  • 部分在单位立方体内的图元被拆分
屏幕映射 Screen Mapping

不可控。把每个图元的NDC坐标转换到屏幕坐标系中。

屏幕坐标系是一个二维坐标系,长宽与显示器分辨率对应。
X[0, ScreenWidth]
Y[0, ScreenHeight]
Z 不变化,仍为NDC坐标中的Z值
OpenGL中屏幕坐标原点为左下角,DirectX中为左上角


光栅化阶段步骤:

三角形设置 Triangle Setup

不可控。计算每个三角面光栅化所需的信息,比如三角形边界像素的坐标信息,从而得到三角形边界的表示方式。

三角形遍历 Triangle Traversal

不可控。检查每个像素是否被一个三角网格所覆盖,如果被覆盖就会生成一个片元(fragment)。这个阶段也称为扫描变换(Scan Conversion)。

三角形遍历会使用上一个阶段的计算结果来判断一个三角形覆盖了哪些像素,并使用三角网格3个顶点的信息对整个覆盖区域的像素进行插值。比如对深度,UV,法线进行插值。每个像素对应的信息存储在一个片元中,然后组成一个片元序列来表示当前三角形光栅化所需要的信息。

片元着色器

可编程。实现逐片元的着色操作。输入为上一阶段对顶点信息进行插值得到的结果,输出为颜色值。最重要的操作为纹理采样,得到每个像素在纹理中对应的颜色值。

逐片元操作

可配置。主要任务有:
a. 使用模板测试,深度测试,决定每个片元的可见性
b. 如果通过测试,则混合颜色,否则丢弃

逐片元操作.png
  • 模板测试
    通常用于限制渲染的区域。例如渲染阴影,轮廓渲染等。
    无论测试结果是否成功,都可以对模板缓冲区进行操作。
Ref referenceValue
ReadMask readMask
WriteMask writeMask
Comp comparisonFunction
Pass stencilOperation
Fail stencilOperation
ZFail stencilOperation
模板测试流程图.png

https://docs.unity3d.com/Manual/SL-Stencil.html

  • 深度测试 DepthTest
    当模板测试成功后,才会进入深度测试阶段。
    只有深度测试成功才可以写入深度缓冲区,当然也可以设置通过了深度测试,但不写入深度值。
ZWrite Off/On  // 是否写入深度值
ZTest LEqual   // 深度比较操作
深度测试.png

https://docs.unity3d.com/Manual/SL-CullAndDepth.html

  • 混合 Blend
    当深度测试成功后,会进入颜色混合阶段。通过设置混合模式(即混合公式)将片元颜色与颜色缓冲中的颜色进行计算,输出新的颜色。

混合.png

双重颜色缓冲区(Dboule Buffering),在后置缓冲(Back Buffer)中渲染场景,等渲染完成后,再与前置缓冲区(Front Buffer)交换,这样避免了看到还没有渲染完的场景。

https://docs.unity3d.com/Manual/SL-Blend.html

注意:

正常情况下,引擎一般会在片元着色器之前进行模板测试与深度测试,以避免会被剔除的片元仍会参与片元着色做无用功。下图所示,Unity的DepthTest在Fragment Shader之前执行。

Unity渲染流水线

但是使用了AlphaTest时,模板测试与深度测试无法提前执行,还是会延时到片元操作阶段执行。这是因为:

  • AlphaTest在Geometry队列之后,Transparent队列之前渲染
  • AlphaTest与Geometry一样,都是从前至后渲染
  • 有一部分像素会被剔除,所以应该可以看到这些将要被剔除像素后面的物体,但如果在剔除前就使用深度测试,会导这些将被剔除像素后面的物体也被剔除(深度测试失败)。片元着色器中使用Clip命令进行剔除操作。

所以可以看出,AlphaTest是比较费性能的,多余的消耗主要在不能提前进行模板与深度测试,所以使用了AlphaTest的物体即使被遮挡了(被其它物体或被自身遮挡),还是会执行片元着色操作。

而且,使用AlphaTest的物体在屏幕上显示面积越大,消耗越多,因为片元着色操作次数与物体像素数成正比。

比如,场景中一颗大树的树叶使用了AlphaTest,而且树叶很多的话,那么所有树叶都会执行一次片元着色,无论它有没有被其它树叶遮挡住(因为此时深度测试在片元着色之后才会执行)。如果此时相机离树很近的话,消耗就更大了。

推荐阅读更多精彩内容