欢迎来到新世界——全景视频及其处理技术

作者:    所在单位:中国科学技术大学

欢迎来到新世界——全景视频及其处理技术

随着软硬件技术和设施的发展,生活中也越来越多的出现诸如全景旅游、虚拟看房、VR 新闻、VR 纪录片等新应用。这些应用给人们的生活带来了翻天覆地的变化,让人们可以在足不出户的同时,拥有身处应用展示场景的逼真体验。因其身临其境的感觉,让人仿佛来到了新世界,如图 1。

图 1 虚拟现实 [1]

这些应用技术的核心是本文的主角——全景视频,或称 360 度视频。

全景视频,顾名思义,即可以让用户在周身 360 度无死角观看的视频,允许用户自由选择观看的视角,自由探索视频中呈现的内容,以此提供观众一种沉浸式的体验。图 2 展示了某景点全景旅游影像的采集截图。

图 2 某景点影像采集截图 [2]

为了实现这一点,全景视频通常需要专业的全景视频拍摄设备来捕捉一个场景的所有方向,包括水平和垂直方向上的视角。全景视频的拍摄设备可分为电影级、专业级和消费级三类。专业级的全景视频拍摄设备例如 Insta360 pro,如图3,相比电影级的拍摄设备比如 Red Dragon 要便携且易操作。消费级的全景视频拍摄设备则最为轻便,不过镜头像素有所下降。

图 3 Insta360 pro [3]

由于全景视频的拍摄需要捕捉一个场景的所有方向,与传统视频相比,全景视频是 3D 球体视频,它包含更多的信息量。根据已有测试结果,全景视频的分辨率一般要求在 4K(3840 x 2160 像素)及以上。要知道同分辨率下全景视频的大小是传统视频的 4 至 6 倍 [4] ,再加上高质量要求,这就意味着全景视频比传统2D 视频需要更大的存储空间和传输带宽,在实际应用中给设备存储和网络传输都带来了严峻的挑战。更糟糕的是,如果全景视频传输时延过大,还会给用户造成眩晕感,这对用户体验来说也是灾难性的。综上所述,全景视频具有数据量大、难以接受高时延的特性。

了解视频传输过程的读者可能会问,全景视频数据量虽然大,但是传输时将其编解码会不会好很多呢?没错。不过全景视频的编解码和传统 2D 视频还存在区别,接下来将为大家介绍。

考虑到可能有些读者不了解视频传输过程,笔者在此先简介一般视频的传输过程。首先,视频在传输前视频通常需要被编码(压缩)。编码器使用压缩算法将原始视频数据压缩为更小的文件,以便在传输过程中更容易处理。常见的视频编码标准包括 H.264、H.265(HEVC)等。视频数据通过网络被传输到目标设备或服务器,随后被解码以还原成原始的视频帧。此后,视频经过渲染最终在屏幕上显示出来。

全景视频和传统 2D 视频主要区别在于其球形特性而无法直接进行编码。那该怎么办呢?难道就无法将全景视频进行编码了吗?相信这个问题其实也难不倒大家,既然 3D 视频无法直接编码,那就将它投影到常规的 2D 平面就可以了吧?是的,实际应用中大家正是这么做的。全景视频编码框架中实际包含两部分:投影和编码。

对于投影,现有的主流投影方法有等距矩形投影(Equi-Rectangular Projection,ERP)、立方体投影(CubeMap Projection, CMP)和等角立方体投影(Equi-AngularCubemap, EAC)等等。其中,当前大多数全景视频都是通过等距矩形投影提供的。

ERP,也称为经纬度投影,它的主要特点是将 3D 球形全景场景映射到 2D 矩形图像上,同时保持了纬度和经度坐标的线性关系。ERP 的投影示意图如下图 4所示。

图 4 ERP 投影示意图 [1]

综上所述,全景视频首先经过投影转化为 2D 视频后,再进行编码和传输。

当然,仅仅依靠编码来缓解全景视频传输时的带宽压力是不够的。在介绍新方法之前,我们要知道虽然全景度视频编码了围绕摄像机的全向视图,但在头戴式显示器(Head-Mounted Display, HMD)上呈现的视图只有有限的区域。例如,要渲染 90°×90°视场(Field of View, FOV)的视图,只需要完整全景视频帧的 11.7%像素 [5] 。如果传输完整的全景视频,无疑会造成极大的带宽浪费。

在此还需要说明一下,FOV 是一个用于描述观察或摄影设备可覆盖或捕捉的视觉范围的术语,它决定了从观察者或相机位置可见的区域大小和范围。视口(Viewport)则是指用户在屏幕上能够看到的可见区域。

那么,大家可能会想,有没有一种方法可以将用户未来观看的视口直接预测处理,然后只以高质量传输这一部分的视频呢?

答案是肯定的。

为了让全景视频适应真实环境中的动态网络带宽,无数学者持之以恒,兢兢业业地展开研究。终于,诸多全景视频视口预测方法隆重登场。

目前流行的视口预测方法多是基于由视频帧切分而来的图块(Tile)来决策的。根据视口预测方法对视口内图块的预测结果,以不同的分辨率将图块进行编码。视口范围内的图块以高分辨率编码,反之不在视口内的图块则以低分辨率进行编码,最后将所有图块拼接。

那么视口预测究竟可以通过哪些思路实现呢?

想必大家都读过武侠小说,武侠高手可以根据对手行为的蛛丝马迹推断出对手的招式。因而视口预测也可以根据用户过去的运动轨迹数据进行建模,用用户过去的运动规律推断未来的运动。

此外,根据大家的观看经验,观看视频时,大家的目光基本上聚焦在主角等吸引点上,对其他场景注意不多,这也是很多魔术表演之所以成功的原因。因此,通过对视频内容进行分析,判断哪些图块位于视频帧中的吸引点,也是视口预测的核心思路之一。

好了,全景视频及其处理技术就介绍到这里了,希望大家能对全景视频领域有一个简单的了解。如果本文能稍稍激发大家对全景视频的兴趣,那就是笔者和本文极大的成功了。

参考文献

[1] 皮金勇. 全景视频投影及编码优化算法[D]. 中国科学院大学(中国科学院深圳先进技术研究院), 2021.

[2] 王政. 基于 VR 的乡村旅游全景视频创作与应用研究[D]. 广西师范大学, 2023.

[3] 刘震. VR 纪录片叙事策略探析[D]. 山东师范大学, 2023.

[4] 李俊杰, 望育梅, 李志军等. 全景视频基于块的视口自适应传输方案综述[J/OL]. 计算机应用, 2023, pp. 1-10.

[5] C. Zhou, S. Wang, M. Xiao et al. AdaP-360: User-Adaptive Area-of-Focus Projections for Bandwidth-Efficient 360-Degree Video Streaming[C]. in Proceedings of the 28th ACM International Conference on Multimedia(MM '20). 2020, pp. 3715–3723.