同时刊登于 www.streamingmedia.com/Articles/Editorial/Featured-Articles/Video-Compression-for-Machines-The-Next-Frontier-133860.aspx

机器视频压缩:下一个前沿

在几年后的一个周日,你坐在自动驾驶汽车上穿过了农田丘陵,当你驶向一个山坡时,尽管有双黄线在,但是一个没耐心的摩托车手还是荒谬地选择横穿过来,一辆载重拖车出现在对面的车道上,压在这个倒霉的骑手身上。 瞬间,你的汽车减速并向右拉,让摩托车可以在你面前摇摆转向,避免灾难。当你在看书或看电影的时候,甚至可能不是面对着你正在驾驶的方向。

考虑一下实现所有这些的技术。 如今,一些自动驾驶汽车拥有多达八台摄像机,可以从各个角度感知世界。这需要一个复杂的高速网络、压缩和一些对象识别方法。对象识别是很复杂的东西,通常由云托管的非实时神经网络传递, 但是对于自动驾驶汽车来说,系统需要是本地的和即时的,需要特定于应用程序的人工智能(AI)CPU和更多的压缩来减少数据集的大小。

现在,考虑一下使其实现相互操作。也许互操作性对一家汽车公司来说并不重要,我敢肯定Elon Musk认为Tesla设计的神经网络芯片(图片展示于文章顶部)是一种不可共享的竞争力。但是,想象一下一个防御类的军事活动,它的视频数据来自多个供应商的设备共享,如果一个系统“看到”一个敌人的坦克,那么其他也都会“看到”同一个坦克。

事实证明,MPEG已经在这个领域创建了几个标准,目前正在制定另外两个标准,以提高性能,并简化机器对机器视频创建和消费以及所需的神经网络的实现。

MPEG没有过时

大多数人会将MPEG和像MPEG-2,H-.264和HEVC这种视频编码等同起来,最后会因为糟糕的许可政策给我们留下了不好的印象,但事实证明,MPEG还使用现有的图像和视频搜索标准,以及用于机器的神经网络压缩和视频编码的过程中的标准,来解决与上述操作有关的标准。

除了你可能会在十年内驾驶一辆自动驾驶汽车的事实,你为什么要关心? 因为机器到机器的视频传输和处理正成为一件大事,应用范围从智能城市(面部和车牌识别)和监控到工厂自动化(缺陷检测和分级)、智能零售(补货、情感检测)等。

Cisco在2019年2月发布的可视化网络索引中估计,从2017年到2022年,全球机器对机器(M2M)流量将增加七倍以上,部分原因是“视频应用在M2M连接上的部署增加了”简短来说,五年前几乎所有的视频都被人类消费,未来越来越多的视频将被机器消费和处理。因此压缩专家不得不在五年内实践出如何针对机器消耗和人员消耗优化视频。

标准需知/已知标准

适当标准的专业知识是一个很好的起点,首先是用于视觉搜索的紧凑描述符(CDVS),这是一种静态图像标准,从技术上讲是MPEG-7标准的第13部分,并且已被ISO用作ISO / IEC 15938-13:2015标准。CDVS通过提取图像的一组“局部特征”或数学表示来工作,而不是压缩每个像素,这比JPEG压缩的图像要紧凑得多。

尽管如此,即使在非常低的数据速率下,图像匹配性能也相当不错,如图1所示,其中16 KB的图像达到了超过95%的匹配准确率,较大的图像拥有更高的准确性。一篇MPEG白皮书中提到,在100万张图像的数据库中,提取局部特征需要0.2秒,匹配图像需要2.5秒(文章没有提供机器类型或速度)。

图1.各种码率下的视觉搜索(CDVS)性能的紧凑描述符

现在是深思人类观看编码和机器观看编码之间差异的好时机, CDVS将静止图像减少为非常小的文件,这些文件提供了识别具有令人印象深刻的准确率的对象所需的信息。但是,你不能将文件解压成一个人类可识别的图片,这是完全不同的问题。

视觉分析的紧凑描述符(CDVA)

下一个标准是视觉分析的紧凑描述符,它是为视频而设计的,其中CDVS是为静态图像而设计的。该标准的目标是通过利用视频中的时间冗余来实现比静止图像更紧凑的视频描述符。显然,这类似于帧间压缩可以用来有效地压缩具有大量冗余信息的视频。 另一个目标是添加“基于使用卷积神经网络(CNN)提取的特征的描述符部分,以受益于最近在深度学习方面取得的进展。换句话说,让描述符神经网络更方便。 CDVA被列为MPEG-7和ISO/IEC15938-15的第15部分,并于2018年定稿。

图二:视觉分析紧凑描述符(CDVA)的操作模式

MPEG白皮书的图2中展示了CDVA的操作方案。简单来说,有三个组成部分,由CDVS描述符组件全局和局部特征的描述符拓展。此外,局部神经网络提取一个“深度特征描述符”,并采用一种称为嵌套不变性池(NIP)的方法来提高精度。 CDVA应用于帧之间具有“视觉同质性”的“时间视频段”,在大多数情况下,它将是一个镜头或场景,通过对每个片段只编码一个帧来实现时间效率。 这是图3顶部显示的关键帧提取。

CDVA的设计是为了实现两两比较,尽管在有利点、相机设置、照明和视频分辨率方面发生了变化。 该标准旨在支持一系列硬件实现策略,从低复杂度/内存环境到大规模并行执行,就像GPU或ASIC提供的那样。

早期参考软件的性能令人印象深刻。在不同的内容集上,CDVA描述符平均每秒2-4千字节,提取时间约为每秒0.7秒的视频在单核计算机上。在这些速率下,描述符以1%的错误匹配率提供了88%的正确匹配率,但白皮书没有明确说明匹配时间和数据库的大小。

压缩神经网络

CDVA被设计部署在一系列设备上,独立的计算机到摄像机、智能手机,甚至智能手表。 在这些情况下,该设备将分析和产生CDVA编码的数据,这些数据将传送到其他地方进行分析。 如图3所示,CDVA处理需要一个神经网络。 正如你可能知道的,神经网络通过大型数据集“学习”和处理可以很容易地超过几百兆字节的大小。该数据集不仅需要随设备一起发送,还需要定期更新。

为此,MPEG还在研究一种神经网络压缩标准,其中一个起点是包括基于CDVA的数据的数据集。现状最新的评估框架于2019年7月发布,MPEG主席Leonardo Chiariglione表示,MPEG已收到9份响应提案征集的意见书。

机器视频压缩

最后的规范是机器的视频压缩(VCM),并在2019年7月成立了一个小组来探讨这个话题。 Gyrfalcon科技公司的Patrick Dong是该集团的联合主席,中国电信的Yuan Zhang被任命为主席。根据新闻稿,该小组将创建“机器视觉压缩编码以及人机混合视觉压缩”的标准。该标准将被设计成在芯片中实现,用于任何与视频相关的物联网(物联网)设备的广泛使用。

用Chiariglione的话来说,这个小组是为了回答以下问题而成立的:视频编码描述符是为了如人类所评估的那样在给定的比特率下达到最佳的视觉质量。视频编码对机器的问题是:“什么描述符可以通过机器给定的比特率提供最好的性能?”

为了寻求更多的定义,我问董,“VCM有没有做了什么CDVA?”他回答说:“CDVA是高度压缩视频描述符的标准,主要针对对象搜索和检索应用程序。” 然而,深度特征描述符缺乏对象的位置信息。 VCM是针对机器标准的新兴视频,也是该思想的下一个迭代,它是CDVA的超集。

简而言之,似乎包括Gyrfalcon和中国电信在内的许多公司都在提供一系列产品,以加快神经网络在边缘的性能。如今,至少在与视频相关的数据方面,互操作性很少,这阻碍了此类产品的广泛应用。最后两个MPEG标准一旦最终确定,将会为加速这一领域的开发和部署提供很多帮助。

 同时,我们现在正在努力识别最佳参数以提高VMAF分数和QoE,之后压缩专家将调整压缩设置,以提高纯机器查看的识别和检索精度。 在不同的层次上,了解标准制定MPEG结构是是很有趣的,这比简单地识别下一个“it”视频编解码器更困难处理和重要。