H264 帧内压缩帧间压缩的区别

转摘于简书：合肥懒皮

参考
知乎视频拍摄时帧内压缩和帧间压缩的区别
 知乎李超 H264基本原理
 【H.264/AVC视频编解码技术详解】十六：帧内预测编码的基本原理

一、宏块（Macroblock）。

1.宏块
宏块就是，把视频的每一帧（相当于一张图片）划分成16*16的小块，一块一块的依次压缩，而不是对整张图片一起压缩。这样降低了计算的复杂度，比较节省时间。一个宏块又可以分成16*16,16*8,8*16,8*8,8*4,4*8,4*4,等大小不等的块。具体怎么划分块大小，要看画面有多复杂。一般来说，运动多，细节多的部分，划分成小块来编码；大片的平坦的无变化的，划分成16*16的大块。下图就是块划分情况，图选的不好，选成残差帧了⊙﹏⊙，分块状况还是大致能看出来的。

举例：图 6.21 显示了一个残差帧（没有进行运动补偿）。H.264 编码器为帧的每个部分选择了最佳分割尺寸，使传输信息量最小，并将选择的分割加到残差帧上。在帧变化小的区域（残差显示灰色），选择 16×16 分割；多运动区域（残差显示黑色或白色），选择更有效的小的尺寸。

2.子块
H264对比较平坦的图像使用 16X16 大小的宏块。但为了更高的压缩率，还可以在 16X16 的宏块上更划分出更小的子块。子块的大小可以是 8X16､ 16X8､ 8X8､ 4X8､ 8X4､ 4X4非常的灵活。相比于早期标准只能按照宏块或者半个宏块进行运动补偿，H.264所采用的这种更加细分的宏块分割方法提供了更高的预测精度和编码效率。

image.png

上幅图中，红框内的 16X16 宏块中大部分是蓝色背景，而三只鹰的部分图像被划在了该宏块内，为了更好的处理三只鹰的部分图像，H264就在 16X16 的宏块内又划分出了多个子块。

image.png

这样再经过帧内压缩，可以得到更高效的数据。下图是分别使用mpeg-2和H264对上面宏块进行压缩后的结果。其中左半部分为MPEG-2子块划分后压缩的结果，右半部分为H264的子块划压缩后的结果，可以看出H264的划分方法更具优势。

image.png

二、帧内（Intra）压缩。

1.帧内预测
帧内压缩类似于图片压缩，跟这一帧的前面（或后面）一帧（或几帧）无关，由当前帧中，已编码的部分来推测当前待编码的这一部分数据是什么。
先看这个图片

image.png

假设现在是按顺序来编码，第一行已经完全编完，⑤也编完了，正要压缩⑥这一块。可以看出，它周围的①②③④⑤，跟⑥简直一模一样啊，如果能用①②③④⑤来推测⑥是什么图像，显然比只压缩⑥要节省空间。这就是帧内预测。

一般来说，视频的第一帧是帧内预测帧（废话，它想参考其他帧的数据也没有的参考），场景切换时是帧内预测帧（比如视频里插了一段广告，这个广告跟视频里其他的内容都无关，用它来预测还不如我自己编自己省空间）。帧内预测在H.264编码标准里有以下几种预测方法，具体请查看H.264白皮书。

image.png

一幅图像被划分好宏块后，对每个宏块可以进行 9 种模式的预测。找出与原图最接近的一种预测模式。然后，将原始图像与帧内预测后的图像相减得残差值。再将我们之前得到的预测模式信息一起保存起来，这样我们就可以在解码时恢复原图了。

除了帧内预测编码之外，H.264还定义了一种特殊的编码模式，即为I_PCM模式。I_PCM模式不对像素块进行预测-变换-量化操作，而是直接传输图像的像素值。在有些时候（如传输图像的不规则纹理信息，或低量化参数条件下），该模式比预测编码模式效率更高

另外参考【H.264/AVC视频编解码技术详解】十七：帧内预测编码的预测实现方法

2.DCT，CABAC
经过帧内与帧间的压缩后，虽然数据有大幅减少，但还有优化的空间。可以将残差数据做整数离散余弦变换(DCT)，去掉数据的相关性，进一步压缩数据。

将残差数据宏块进行 DCT 转换

数据被进一步压缩

做完 DCT 后，还不够，还要进行 CABAC 进行无损压缩。

CACBA 的无损压缩方案要比 VLC 高效

三、帧间（Inter）压缩。

帧间压缩是，由这一帧的前（或后）一帧（或几帧）来推测当前待压缩的这一部分数据是什么。

下图是一个视频序列中连续的两帧。（我真没偷懒，这真的是俩不同的帧，不信你看书的位置和人的表情都变了）

image.png

如果摄像头没有晃来晃去，那么，在连续的视频图像里面，前后两帧的差别真的很小，比一张图片中连续两个宏块的差别还要小，这时用帧间压缩的效果会比帧内压缩的效果好。

Block Matching 就是块匹配，就是找找看前面已经编码的几帧里面，和我当前这个块最类似的一个块，这样我就不用编码当前块的内容了，只需要编码当前块和我找到的那个块的差（称为残差）就可以了。找最像的块的过程叫运动搜索（Motion Search），又叫运动估计（Motion Estimation）。用残差和原来的块就能推算出当前块是什么样儿的，这个过程叫运动补偿（Motion Compensation）。有全搜索，菱形搜索法，三步搜索算法，新三步搜索算法，梯度下降搜索算法，运动矢量场自适应搜索算法等各种算法，这也一直是研究和发论文的热点。

四、帧分组 I帧，P帧，B帧和GOP

对于视频数据主要有两类数据冗余，一类是时间上的数据冗余，另一类是空间上的数据冗余。其中时间上的数据冗余是最大的。下面我们就先来说说视频数据时间上的冗余问题。

为什么说时间上的冗余是最大的呢？假设摄像头每秒抓取30帧，这30帧的数据大部分情况下都是相关联的。也有可能不止30帧的的数据，可能几十帧，上百帧的数据都是关联特别密切的。对于这些关联特别密切的帧，其实我们只需要保存一帧的数据，其它帧都可以通过这一帧再按某种规则预测出来，所以说视频数据在时间上的冗余是最多的。

为了达到相关帧通过预测的方法来压缩数据，就需要将视频帧进行分组。那么如何判定某些帧关系密切，可以划为一组呢？我们来看一下例子，下面是捕获的一组运动的台球的视频帧，台球从右上角滚到了左下角。

image.png

H264编码器会按顺序，每次取出两幅相邻的帧进行宏块比较，计算两帧的相似度。如下图：

image.png

通过宏块扫描与宏块搜索可以发现这两个帧的关联度是非常高的。进而发现这一组帧的关联度都是非常高的。因此，上面这几帧就可以划分为一组。其算法是：在相邻几幅图像画面中，一般有差别的像素只有10%以内的点,亮度差值变化不超过2%，而色度差值的变化只有1%以内，我们认为这样的图可以分到一组。在这样一组帧中，经过编码后，我们只保留第一帖的完整数据，其它帧都通过参考上一帧计算出来。我们称第一帧为IDR／I帧，其它帧我们称为P／B帧，这样编码后的数据帧组我们称为GOP。