欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

VR定义及参考架构

2023-02-05 17:34:06 16

摘要:虚拟现实(Virtual reality)是在视觉和音频场景不停交付和渲染的一个体验。当用户在应用程序定义的范围内移动时,渲染被设计成尽可能自然地模拟真实世界的视觉和听觉刺激。虚拟现实通常假设用户佩戴头戴式显示器(HMD:head moun...

虚拟现实(Virtual reality)是在视觉和音频场景不停交付和渲染的一个体验。当用户在应用程序定义的范围内移动时,渲染被设计成尽可能自然地模拟真实世界的视觉和听觉刺激。

虚拟现实通常假设用户佩戴头戴式显示器(HMD:head mounted display),用模拟的视觉元件完全取代用户的视野,并戴上耳机,为用户提供如图1所示的伴音。

在虚拟现实中,通常还需要对用户进行某种形式的头部和运动跟踪,以便更新模拟的视觉和音频组件,以确保从用户的角度来观看,确保项目和声源与用户的运动保持一致。传感器通常能够在参考系统中跟踪用户的姿势。

VR用户可以从三维空间中的一个观察点环顾四周,该观察点由制作者或一个或多个拍摄设备的位置定义。当使用头戴式显示器或智能手机使用VR媒体(包括视频和音频)时,只渲染与用户视觉相对应的球形视频区域,就好像用户处于视频和音频被捕获的位置一样。

这种从三维空间的中心点观察和聆听的能力被定义为3个自由度(3DOF:3 degrees of freedom)。由图1可知:

    在X轴上左右倾斜称为滚动,也可用γ表示

    在Y轴上前后倾斜称为俯仰,也可表示为β

    在Z轴上向左和向右转动称为偏航,也可表示为α

值得注意的是,这个中心点不一定是静止的——它可能在移动。


图2考虑了VR场景的功能架构。获取VR内容并对内容进行预处理,以便将所有媒体组件映射到3GPP 3DOF坐标系并临时同步。这种预处理可以包括视频拼接、旋转或其他翻译。3GPP VR前端负责生成消费内容。一般来说,3D音频和球形视频信号被正确编码。特别是对于视频,处理遵循两个步骤:映射、投影和预处理到2D纹理,然后使用常规的2D视频编解码器进行编码。在媒体编码之后,内容作为基本流提供给文件格式封装引擎。封装的流被称为3GPP VR轨迹,即它们在空间上被映射到相同的定时系统以用于同步回放。对于基于文件的分发,通过将3GPP VR曲目多路复用到单个文件中,可以生成一个完整的交付文件。对于基于DASH(Dynamic Adaptive Streaming over HTTP)的传送,内容被映射到DASH段,并生成适当的适配集,包括必要的MPD(Media Presentation Description)信令。改编集包含在虚拟现实媒体演示文稿中,并记录在仪表板MPD中。内容可以是可用的,以便针对特定的视点进行优化,因此相同的内容可以在多个视口优化版本的集合中进行编码。


基于图2中的架构,以下组件与3GPP VR流媒体服务相关:

    3GPP VR前端分发的一致源格式:

    3D音频编码配置文件使用的音频。

    球形视频编码配置文件使用的视频。

    将格式从三维映射到二维,以便使用常规视频编码引擎

    将媒体格式轨迹封装为ISO文件格式,添加足够的信息解码和渲染VR内容。

    通过文件下载、DASH传送和DASH-over-MBMS传送提供格式。

    静态和动态能力以及环境数据,包括解码和渲染功能,以及动态姿势信息。

    支持对传送到接收器的格式进行解码的媒体解码器。

    用于在虚拟现实设备上呈现虚拟现实演示的音频和视频呈现信息。


目前VR客户端有两种类型,一种是内容提前录制好,进行回放的形式展示,另一种是动态流媒体业务展示,架构如图3和图4所示。



各组件作用介绍如下:

VR Application:VR应用程序根据用户视口或显示功能控制渲染。应用程序可以与其他功能组件通信,例如:the access engine, the file decoder。

access engine:接入引擎通过3GPP承载进行连接,并向接收器提供符合要求的VR演示。访问引擎获取媒体表示描述(MPD:Media Presentation Description),构造并发出请求,并接收片段或片段的一部分。在本地回放的情况下,从本地存储器访问3GPP VR轨迹。接入引擎可与VR应用功能接口以动态地改变传送会话。

File Decoder:文件解码器处理3GPP VR轨迹以生成可由渲染器处理的信号。文件解码器通常包括至少两个子模块:文件解析器和媒体解码器。

VR Renderer:VR渲染器使用解码的信号和渲染元数据,并提供一个考虑到视区和可能的其他信息的视口表示。使用该姿势,通过确定头戴式显示器或任何其他显示设备的屏幕的水平/垂直视野来确定用户视口,以呈现解码的视频或音频信号的适当部分。

Sensor:传感器根据用户的移动提取当前姿势并提供给渲染器以生成视口。当前姿势可以例如由头部跟踪和可能的眼睛跟踪功能来确定。当前姿势还可由VR应用程序用于控制在其上设置自适应或预选以进行选择的访问引擎(对于流媒体情况),或用于控制要在其上选择用于解码的轨迹的文件解码器(对于本地回放情况)。

版权声明:本站所有文章皆是来自互联网,如内容侵权可以联系我们( 微信:bisheco )删除!
友情链接
币圈社群欧易官网