智能影像技术塑造视频的多重体验

2020年伊始,突如其来的疫情使以短视频和直播为代表的网络视频产业再次成为关注焦点。

随着AI、大数据、AR/VR技术的加持,在线视频以其更加丰富互动形式、更加多样的场景化模式以及更加贴近消费者的内容,给消费者带来更加个性化、实时化、沉浸式的体验。

Gartner 2020年重要战略科技发展趋势中提出了多重体验(Multi Experience),即到2028年用户体验将在用户感知和用户交互两个维度发生巨大的变化,人机会话平台正在改变人与数字世界的交互方式,而虚拟现实(VR)、增强现实(AR)与混合现实(MR)正在影响着人们对数字与真实世界的感知。

目前多重体验专注于多重互动技术的综合运用,并向着结合增强现实,虚拟现实,混合现实,以及多渠道人机界面和感知技术的沉浸式体验方向发展。事实佐证,AI创作的智能影像内容有望成为主流内容组合,其建立多种互动模式与用户沟通的能力,将为传递更细致和丰富的信息提供更加多样化的场景。

另一方面,视频化表达已成为主流,而互动视频这一新兴方向得到足够重视。事实上,这是AI视觉技术与用户多重体验相互校验的一个应用场景——在视频内容之上自动叠加互动文字、动画、图表、声音等,根据不同兴趣用户可选剧情推进线,以获得最佳的个人用户互动体验。

2018年底,Netflix推出的《黑镜:潘达斯奈基》,制作方为观众安排了上百个互动点,以及312分钟的视频素材以及5个不同的结局,供观众自主选择剧情走向和观看不同的结局。可以说,在当时技术条件下Netflix将个性化互动体验做到了极致。

迪士尼创新实验室则推出了一套观众兴趣捕获系统,根据表情、注意力等指标来演算用户对剧情的喜爱程度,以推动下一个剧情的演进,事实上,这是个性化视频创作自动化流程。

互动视频本质上是人与机器的交互以及人与内容的交互,在人与内容互动上,《黑镜:潘达斯奈基》以及国内的《最后的搬山道人》等则代表了这种交互模式,需要制作方对视频内容进行大量的素材定制,主流的方式是从生产角度入手,通过智能影像生产技术快速制作与剧情之匹配的短视频,并于机器拍摄视频相结合,形成互动剧情线。

在国内,智能影像技术提出者和深耕者影谱科技认为,互动视频本质是人与机器的互动,提出未来互动视觉的三种主流技术发展方向,并在多业务场景得以校验。

第一种,是根据需要在视频帧内写入合适内容以增强视频内容,目前主要通过动态浮层技术实现,已经实现了大规模成熟运用,如去年两会期间,央媒推出的、由影谱科技技术实施的“委员全息履职”节目,以及由影谱科技承担的《幻乐之城》实时场景搭建任务。

第二种方式,是基于人的交互动作捕捉,通过视频合成技术组合进入原有视频内,主要应用在多场景理解及内容替换、体育直播等;如近期“Young视频”播出线上访谈节目《云快访》,借助影谱科技的视频差异化提取技术,实现中国登山队的“实景采访”;去年,《大画CBA》节目通过运用影谱科技智能视频生产系统,使上传图片文字能够自动生成视频,减少人工后期编辑的复杂工作,有效解决低效率视频生产方式、复杂内容审核机制等问题。

第三种则是数字人物主题的应用,例如源于日本的Vtuber,表现在与一对一或一对多的交互形式上,除了IP本身以外,技术也是制约虚拟主播发展的因素之一,这种虚拟直播对人工智能技术的要求非常高,要想实现良好的直播效果,就需要具有过硬的面部表情识别、3D人物/人脸重建、AR融合以及端推理引擎等技术,同时需要对应用场景的理解和行业积累。目前国内一些头部企业如科大讯飞、影谱科技等提供了开放平台针对直播产业的虚拟主播,以提供API接口等模式,帮助直播平台或团队做到以虚拟主持人的形象与用户进行互动。

(欧洲的交互型视频项目ACTION-TV)

影谱科技认为,随着AI多模态识别分析技术越来越成熟,视频内容实现更细颗粒(像素级)的结构化处理,动态浮层互动形式也变得更加丰富,互动的深度也进一步增加。同时,智能影像技术对于嵌入式互动视频的制作带来了更多的优势,对于拓展性更强的浮层互动技术其在在应用上也有着更明显的优势,由此也带来了AI自动扫描及视频帧内置入、视频内服务模式的蓬勃发展,有助于智能影像技术在多个商业场景中落地,并成为底层主流支撑技术之一。

随着5G的普及将进一步推动人工智能、云计算、IoT和VR技术的综合运用,不仅可以提升用户多重互动体验,通过智能影像技术还可以帮助内容运营平台提高内容制作和变现效率。随着互动视频技术开放平台的出现和发展,降低参与方的门槛可以使其更加专注在内容和创意本身,带来更加个性化、场景化的多重互动体验,催生应用的创新并带动产业形态上更深刻的变革。