iOS音视频播放(Audio Unit播放音频+OpenGL ES绘制视频)

前言

相关文章:
使用VideoToolbox硬编码H.264
使用VideoToolbox硬解码H.264
使用AudioToolbox编码AAC
使用AudioToolbox播放AAC
HLS点播实现(H.264和AAC码流)
HLS推流的实现(iOS和OS X系统)
iOS在线音频流播放
Audio Unit播放PCM文件
Audio Unit录音(播放伴奏+耳返)
Audio Unit播放aac/m4a/mp3等文件
Audio Unit和ExtendedAudioFile播放音频
AUGraph结合RemoteI/O Unit与Mixer Unit

上面的文章介绍了音视频信息的加载和解析,在另外的《OpenGLES文集》也详细介绍了OpenGL如何绘制图像。
这次结合Audio Unit和OpenGL ES,分别加载多媒体文件的音频和视频信息并播放。

下面是做出来之后的效果图:
Audio Unit & OpenGL ES.gif

正文

整体思路

demo包括三大部分,分别是资源加载音频播放视频播放

  • 资源加载:是用AVURLAsset加载资源文件,再创建资源读取器AVAssetReader,然后附加音频读取接口mReaderAudioTrackOutput和视频读取接口mReaderVideoTrackOutput到资源读取器。
  • 音频播放 :从音频读取接口mReaderAudioTrackOutput加载音频信息得到CMSampleBuffer,用方法CMSampleBufferGetAudioBufferListWithRetainedBlockBuffer把音频数据转成AudioBufferList格式,再采用AudioUnit播放;
  • 视频播放:从视频读取接口mReaderVideoTrackOutput加载视频信息得到CMSampleBuffer,用方法CMSampleBufferGetImageBuffer把视频数据转成CVPixelBufferRef格式,再用OpenGL ES绘制图像;
    整体流程图

具体解析

1、资源加载

资源加载用的是AVFoundation提供的方法,先加载音视频的轨道信息。
然后初始化好音视频的格式信息outputSettingsoutputSettingsAVAssetReaderTrackOutput初始化的必要条件之一。

注意音轨和声道的区别,比如说在ktv唱歌的时候,通常伴奏是一个音轨,录到的人声是一个音轨,最后播放的时候进行混合。而声道我们常用声道数的概念,指的是声音播放时的扬声器数量。
音轨=AudioTrack
声道=AudioChannel

2、音频播放

音频播放功能用的是Audio Unit,其中的RemoteIO Unit只能接受PCM数据,故而要求读取出来的音频信息必须是PCM格式的,并且设置给Audio Unit的格式需要与outputSettings一致。

3、视频播放

视频播放其实就是图像信息的绘制,从资源我们可以读取到图像信息,再把图像传给已经封装好的LYOpenGLView类,就可以绘制图像。图像信息占用内存较为明显,需要注意内存的回收。

遇到的问题

1、确定Audio Unit音频格式

尝试加载资源文件的音频格式并设置给Audio Unit,但因为Audio Unit无法接受资源文件的格式(大多数文件的音频文件格式为AAC)。
解决方案是直接设置读取的音频格式信息为PCM,并且手动初始化ASBD,保证两端的格式一致。
如下,是资源文件的音频读取格式和手动初始化的格式:

    NSMutableDictionary *outputSettings = [NSMutableDictionary dictionary];
    [outputSettings setObject:@(kAudioFormatLinearPCM) forKey:AVFormatIDKey];
    [outputSettings setObject:@(16) forKey:AVLinearPCMBitDepthKey];
    [outputSettings setObject:@(NO) forKey:AVLinearPCMIsBigEndianKey];
    [outputSettings setObject:@(NO) forKey:AVLinearPCMIsFloatKey];
    [outputSettings setObject:@(YES) forKey:AVLinearPCMIsNonInterleaved];
    [outputSettings setObject:@(44100.0) forKey:AVSampleRateKey];
    [outputSettings setObject:@(1) forKey:AVNumberOfChannelsKey];
    
    AudioStreamBasicDescription inputFormat;
    inputFormat.mSampleRate = 44100;
    inputFormat.mFormatID = kAudioFormatLinearPCM;
    inputFormat.mFormatFlags = kAudioFormatFlagIsSignedInteger | kAudioFormatFlagIsNonInterleaved;
    inputFormat.mFramesPerPacket = 1;
    inputFormat.mChannelsPerFrame = 1;
    inputFormat.mBytesPerPacket = 2;
    inputFormat.mBytesPerFrame = 2;
    inputFormat.mBitsPerChannel = 16;
    self.fileFormat = inputFormat;
2、音视频同步

demo中存在两个变量self.mAudioTimeStampself.mVideoTimeStamp,分别表示音频播放和视频播放的时间戳。
其中音频播放进度由Audio Unit驱动,视频播放进度由CADisplayLink驱动,为了保证视频进度不超过音频进度,添加了if (self.mVideoTimeStamp < self.mAudioTimeStamp)的判断。
但在模拟器运行的时候,视频的解析比音频解析的速度小很多,造成较为明显的不同步。
在真机运行的时候,这种现象有明显的改进。
目前还没找到较好的同步方式,如果有知道请指教。

总结

本文没有扩展更多的音频和视频知识,通过结合三个部分知识,组成基本的音视频播放流程。
由于时间原因,所做的技术预研无法尽善尽美,代码没有很好的打磨。
demo更多是实践某些想法,如果代码存在问题,恳请指出,帮助你我他少踩一些坑。

推荐阅读更多精彩内容