新媒体视频智能拆条技术的研究与应用

qinzhiqiang 07-09 16:00 1,574次浏览

1 引言

新媒体节目生产实际是对传统媒体节目的二次加工过程,其内容来源主要有传统媒体媒资中心或影视公司成品素材,在拆条和编目后用于IPTV、OTT、手机电视等全媒体应用。如果由人工逐帧预览手动拆条的话,不仅耗时费力也不满足新媒体视听节目快速发布的高标准要求。

2 视频自动拆条技术基本原理

视频自动拆条技术的基本原理是通过对非结构化的视频数据进行特征或结构分析,然后采用视频分割技术将连续的视频流划分为具有特定语义的视频片段,视频的特征分析包括视觉特征、音频特征、文本特征、压缩域特征,其主要研究成果有镜头变换检测技术、关键帧识别技术、字幕识别技术、人脸识别技术、文字跟踪和语音指纹技术等等。本文将对基于动态特征识别和音频指纹库的拆条技术进行分析和研究。

3 基于动态特征识别的拆条方法

动态特征识别技术能够提供包括视频关键帧、场景、字幕、人脸、音频等元素的分析,通过镜头检测技术、字幕提取技术进行自动拆分并形成条目信息及编目信息作为有效的辅助编目方法,如单条新闻视频切分并自动生成新闻标题,编目人员只需对切分的视频及其标题进行审核、修正即可,减少人工编目的工作量,缩短了节目发布的时间。

3.1 镜头变换检测技术

在视频中用同一摄像机进行连续不间断拍摄的一段视频内容称为一个境头,同一镜头中的两相邻帧的运动、颜色和灰度级不会有太大变化。镜头变换有切换和渐变两种方式,切换是指少数帧内容发生突然变化,渐变则是对视频进行了编辑而形成的镜头变换,主要包括淡入、淡出和溶解。镜头变换检测技术就是通过对视频境头切换情况的分析,依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,该技术的主要研究内容包括关键帧的提取、图像特征的描述、相似度计算、聚类算法的设计、自适应阈值的确定等方面内容。

镜头变换检测广泛用于视频检索研究领域,对于数字视频镜头突变切换的检测,一般有模板匹配法、直方图法等基本算法。

1 ) 基于色调的镜头分割方法, 该方法直接计算两帧的灰度差,如果总的帧差大于某一设定阈值,则存在镜头突变。

2)基于边缘的镜头分割方法,边缘特性可用于镜头分割,首先计算出帧间的总体位移,以此进行配准,然后计算边缘的数量和位置。

3)块匹配镜头分割方法,对于非压缩视频所采用的块匹配镜头分割方法,该方法主要采用运动平滑性度量来检测镜头的变化。

4)统计判决镜头分割方法,该方法利用运动补偿特征,自适应阈值技术,以及视频序列的时序镜头突变模式和镜头长度分布信息,建立一个统计判决模型,该方法推导出的判据可使镜头检测错误率降到最低。

5)双阈值比较法,该方法设置两个阈值Tb,Ts。当帧差大于Tb时,存在镜头突变;当帧差小于Tb而大于Ts时存在镜头渐变。当接续帧的帧差开始超过Ts时,这一帧称为镜头渐变的起始帧,以此类推。

由于镜头检测技术在新闻视频拆条中的准确性很高,该技术在江苏广电IPTV新闻拆条系统中得到了广泛的应用,该系统能够自动化的对新闻节目拆条、提取新闻标题,并能快速检测视频中存在的镜头转场,实现高质量、高效率的电视新闻节目拆条生产处理流程,与传统人工处理方式相比,处理效率提高80%(如图1所示)。

新闻拆条系统的关键技术除镜头检测技术外,还包括以下核心技术:

3.2 关键帧和字幕识别

通过分析视频的图像帧序列中的帧内信息及帧间关系,提取出包含重要信息的关键帧。针对视频的字幕识别综合运行文字检测、版面分析、文字分割、字符识别等技术,对视频中的特定字幕进行处理(如图2所示)。

3.3 人脸识别技术

结合视频镜头自动分割技术、关键帧提取技术、人脸检测技术、人脸无监督自动聚类技术和人脸识别技术(如图3所示)。

3.4 文字跟踪技术

针对视频中的静止文字时间和空间上的冗余特性,以文字区域的边缘位图为特征对检测结果作精化,实现对文字对象快速有效的定位。

3.5 动态特征识别技术在江苏广电的应用

江苏广电新闻中心拆条系统采用了边采边编的解决方案,新闻和综艺节目我们可以在6 0秒之内完成视频自动编目和广告拆条,也就是说一条节目在电视上播放完成之后,我们可同步完成从采集、分析、切分、转码、发布所有的流程,编目人员只需要对自动切分和编目的视频进行审核和简单修正,大大减少了节目发布的延时,如果有不需要自动化算法处理的节目,也可以直接通过界面人工编目(如图4所示)。

打点拆条/编目服务实现了编目过程无人工干预或极少的人工辅助,自动对直播收录视频流实时分析,完成视频流中广告的检测、关键帧和字幕提取、镜头检测等工作,分析视频流中包含的新闻片段的数目以及具体的分割时间点,最后形成后缀为IDX的索引文件。全媒体编辑系统根据IDX索引文件对视频流进行自动切割,编辑人员也可以对切点进行人工修正。自动提取的编目信息包括标题,简介、字幕、演员名字等以及关键帧图像、人脸等无法用简单文本描述的复杂视觉内容特征, 这些信息都保存在元数据管理数据库中, 系统可以根据元数据信息对新闻节目进行精细的浏览, 也可以将元数据导出到外部的XML文件中,可以用来被搜索引擎检索或与第三方CMS系统进行集成, 提供便利多元的内容管理手段。

4 基于音频指纹库的拆条方法

音频指纹技术( A u d i ofingerprinting technology)是一种新兴的音频处理技术,通过特定算法从音频信号中提取的一段数字摘要,用于识别声音样本或者快速定位音频数据库中的相似音频,目前主要有两个研究方向,一是基于水印嵌入的指纹方法新媒体视频,另一种是基于内容的指纹方法。

音频指纹技术目前主要应用于音乐播放软件,它能根据旋律准确识别歌名、歌手、专辑名等信息。

音频指纹系统通常包括两个部分:即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的比对算法。当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,然后和数据库中存储的大量音频指纹相比对从而进行识别。一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本并提取出相应的元数据信息返回给用户。

根据音频指纹技术的上述特征,音频指纹技术可用于广播的监测和视频识别。例如用于视频广告的识别,我们首先为每一条电视广告编制特征码(如图5所示),应用该技术结合专门的索引算法建立了一套音频指纹数据库系统(简称音频指纹库) , 使音频对象和指纹之间建立一种映射关系。特征数据的指纹和其相应的元数据比如名称、来源、文本等内容一起存储在一个数据库中,并采用指纹作为相应元数据的索引。

指纹提取的过程中通过提取算法对视频进行扫描提取音频特征值并结合关健帧、索引点、位置偏移量等信息形成视频结构索引文件。视频编辑系统根据索引文件确定视频中广告在整个视频结构中的偏移量,从而达到精准拆条的目的。

一个完整的索引文件应包括4 个部分, 按照结构顺序可分为:FileHeader,Fingerprints新媒体视频,IndexContent,Thumbnail,其中Fingerprints为可选段,表1、2为指纹和索引内容格式定义。

音频指纹从指纹识别原则上讲并不是真正的指纹,因为指纹必须能够区分数据上任何细微的差别,一个健壮的音频指纹提取算法必须考虑到声音的音调音色等感知特性,即便它们的二进制表示形式不一样,但它们的声学指纹也应该是相同的或者非常相似的。

由于广告样本指纹库的建立,使得音频指纹识别的精度非常高,但对于实时新闻类节目的拆条语音指纹技术却不太适用,这是由于新闻类节目无法预先对其内容进行指纹录入,因此语音指纹技术和镜头切换检测技术在视频自动拆条的应用上各有所长,具有很好的互补性。

5 视频自动拆条的注意点

视频自动拆条技术的基本原理是通过分析视频数据的结构或内容,采用视频分割技术将连续的视频流划分为具有特定语义的视频片段。在实际的应用中我们经常会遇到分割后的单条视频往往出现解码失败无法播放的问题,这是因为在拆条过程中,切分操作破坏了视频数据帧的完整性,因为一个GOP内的数据帧之间有很强的相互依赖性,缺少任何一部分都可能导致其余部分解码失败。根据目前的运动图像压缩算法,一组压缩数据帧之间是有依赖关系的,这一组压缩数据帧称为一个GOP(如图7所示)。

一个G O P 中的数据帧分为I帧,B帧和P帧,其中I帧又称为关键帧,它包含的数据是不依赖其他帧就可以独立解压的。B帧和P帧又称为非关键帧(如图8所示),它们所存储的数据是当前图像跟关键帧之间的差异,它们的体积一般比较小,但是这类非关键帧必须依靠这个GOP中的关键帧才可以解压出来,而且B帧还需要依赖附近的P帧才能够完整解压,因此不管对压缩数据帧做什么处理,都必须保证一个GOP内数据帧的完整性。

拆条系统在自动打点切割文件前,应由程序先判断当前切分点的GOP数据帧是否完整,如果当前点GOP中的数据帧被分配到两个文件中或者一个GOP的部分数据帧会被剪切掉,那这个GOP中的数据在切分后应重新编码,确保GOP数据帧的完整性。

6 结语

随着三网融合的深入发展,以信息技术为基础的新兴传播媒体引领全媒体全面走进数字化的时代,更高速、高效的视听节目生产方式越来越重要。视频自动拆条技术为新媒体节目的生产提供了先进的技术手段,其中融合了如镜头检测技术、音频指纹技术、视频数据库组织和索引技术、基于运动特征的视频检索技术、面向查询的特征提取和匹配等先进技术,如何应用好这些技术,直接关系到视频自动拆条系统的性能,这是一个值得长期关注和研究的热点问题。