北京大学刚刚发表了这篇论文,提供了很好的描述… 下载PDF

摘要

视频编码的目标是压缩和重构整帧,而特征压缩则仅保留和传输最关键的信息,它位于标尺的两端。也就是说,一种具有紧凑性和高效性,可用于机器视觉,另一种具有充分的保真度,屈服于人类的感知。最近视频压缩的研究趋势,例如基于深度学习的编码工具和端到端图像/视频编码,以及MPEG-7紧凑特征描述符标准,即视觉搜索紧凑描述符(CDVS:Compact Descriptors for Visual Search)和视频分析紧凑描述符(CDVA:Compact Descriptors for Video Analysis),各自推动了视频压缩的持续快速发展。在本文中,借助蓬勃发展的AI技术(例如预测和生成模型),我们在MPEG标准化工作兴起的新领域——机器视频编码(VCM:Video Coding for Machines)进行了探索。为了实现协同压缩和智能分析,VCM试图弥合用于机器视觉的特征编码和用于人类视觉的视频编码之间的差距。结合数字视网膜的分析压缩实例,首先给出了VCM的定义、公式和范例。同时,我们从MPEG标准化的独特角度系统地回顾了视频压缩和特征压缩的最新技术,为实现广泛的人工智能应用中的视频和特征流协同压缩提供了学术和行业依据。最后,我们提出了潜在的VCM解决方案,初步结果证明了性能和效率的提高,并对进一步的研究方向进行了探讨。

原文链接:https://www.gyrfalcontech.ai/blog/video-coding-for-machines-a-new-paradigm/