针对视频检索的综述
1、视频检索的关键技术 一个完整的视频检索系统的关键技术主要有:关键帧提取、图像特征提取、图像特征的相似性度量、查询方式、以及视频片段匹配等方法。 1.1关键帧提取:关键帧是用于描述一个镜头的关键图像帧,它反映一个镜头的主要内容。关键帧的选取一方面必须能够反映镜头中的主要事件,因而描述应尽可能地准确完全,另一方面要便于检索。关键帧的选取方法很多,比较经典的有帧平均法和直方图平均法。 1.2图像特征提取:特征提取可以针对图像内容的底层物理特征进行提取,如颜色直方图、图像轮廓特征等。特征的表示方式有三种:数值信息、关系信息和文字信息。目前,多数系统采用的都是数值信息。 1.3相似性度量:在镜头检索上,早期的工作主要是从镜头中提取关键帧,把镜头检索转化为图像检索。例如通常情况下,图像的特征向量可看作是多维空间中的一点,因此很自然的想法就是用特征空间中点与点之间的距离来代他们的匹配程度,距离度量是一个比较常用的方法,此外还有相关计算、关联系数计算等。此外,目前研究的问题还在于怎样对视频中的时间信息充分进行利用。 在片段检索上,研究方法可以分为两类:(1)把视频片段分为片段、帧两层考虑,片段的相似性利用组成它的帧的相似性来直接度量;(2)把视频片段分为片段、镜头、帧3层考虑,片段的相似性通过组成它的镜头的相似性来度量,而镜头的相似性通过它的一个关键帧或所有帧的相似性来度量。方法(1)的缺点在于限制相似的片段必须遵守同样的时间顺序,同时这种基于每帧的比较,也使得检索速度比较慢。方法(2)的思想比较合理,但这种方法在已有的研究中并没有很好解决片段检索的问题。 1.4查询方式:由于图像特征本身的复杂性,对查询条件的表达也具有多样性,使用的特征不同,对查询的表达方式也不一样。目前查询方式基本上可归纳为以下几种:底层物理特征查询、自定义特征查询、局部图像查询和语义特征查询。 1.5视频片断的匹配:由于同一镜头连续图像帧的相似性,使得经常出现同一样本图像的多个相似帧的出现,因而需要在查询到的一系列视频图像中,找出最佳的匹配图像序列。已经有研究提出了最优匹配法、最大匹配法和动态规划算法等。 2、检索性能的评价 对于视频检索系统的评价并没有一个统一的标准,我们可以通过计算一些参数来衡量。如对于视频片断我们可以通过全查率和查准率来评价;对于使用某一个基准查出的K幅图像,又可以用正确检测数、错误检测数、漏检数和正确淘汰数来表示。对于检索平台还有一个重要的参数检索效率来评价检索的响应时间。 3、基于DCT压缩域图像检索新方案 现在我们用到的视频检索方案是基于非压缩域的,必须将压缩的视频数据解压后再进行比对,这样消耗了大量的实际,因而提出一种基于DCT压缩域图像检索方案,作为以后的进一步研究和改进方向。 基于压缩域的图像检索技术,实际上是把图像的压缩技术与检索技术融合在一起,能够在不解码(或不完全解码)的情况下抽取到图像可用于比对的信息特征。对于这种信息特征的提取,可以利用DCT域的一些特征,主要包括颜色特征、轮廓特征和轮廓直方图等。 我们目前采用的视频图像压缩格式是H.264/AVC,它目前采用与MPEG-2主类相同的4:2:0采样结构。并且视频图像帧或场都可以划分为固定大小的宏块,宏块是解码的基本模块单元,通常是一个16×16亮度像素和两个8×8彩色分量像素的长方型区域。所有宏块的亮度和色度采样在空间或时间上进行预测,对预测残余进行变换编码,为了实现变换编码,每个颜色分量的预测残余要再划分为更小的4×4块,每块进行DCT整数变换,变换系数被量化,最后是熵编码。所以经过熵解码后就可以得到DCT系数。 把图像中所有16×16帧内模式的宏块中的DCT直流系数按照块的空间位置关系重新组织在一起,就构成了DC图。DC图是一幅图像的低频近似,虽然丢掉了图像的中高频信息,但仍然反映了图像的主要内容,可以看作是整幅图像的缩图,因此可以根据DC图直接进行图像检索。 4、国内外视频检索的发展现状 目前,国内外已研发出了多个基于内容的视频检索系统,主要有: (1)QBIC系统:QBIC(Query ByImage Content)是由IBMAlmaden研究中心开发的,是“基于内容”检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和图画及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息,对大型图像和视频数据库进行查询。视频方面主要利用了颜色、纹理、形状、摄像机和对象运动来描述内容。 (2)VisualSeek系统:VisualSeek是美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的、一种在互联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于内容”的图像/视频检索系统,提供了一套供人们在Web上搜索和检索图像及视频的工具。 (3)VideoQ系统:VideoQ是哥伦比亚大学研究的一个项目,它扩充了传统的关键字和主题导航的查询方法,允许用户使用视觉特征和时空关系来检索视频。它有以下几个特征:集成文本和视觉搜索方法;自动的视频对象分割和追踪;丰富的视觉特征库,包括颜色、纹理、形状和运动;通过WWW互联网交互查询和浏览。 (4)TV-FI系统:TV-FI(Tsinghua Video FindIt),是清华大学开发的视频节目管理系统。这个系统可以提供如下几个功能:视频数据入库、基于内容的浏览、检索等。TV-FI提供多种模式访问视频数据,包括基于关键字的查询、基于示例的查询、按视频结构进行浏览、以及按用户自己预先定义的类别进行浏览。 5、目前系统的主要问题以及研究趋势 目前我们应用的系统中还存在一些问题,比如一些样本图像不容易被检索到,这主要是由于有现代电视在传播过程中的非线性损失或是强度较大的干扰信号引起的。我们很难对有线电视的损失信号进行一个完美的补偿,这使得颜色直方图等一些对噪声很敏感的方法很难在我们的系统中得以应用。由于有线电视信号的这种特点,使得查全率和查准率这对矛盾更加突出。经过大量的测试我们发现,视频图像本身对于噪声的鲁棒性有所不同,这就要求我们进一步分析图像特点,尽量使用易检索图像作为检索样本,来权衡查全率和查准率这对矛盾。 此外,现在对于视频检索系统的还有以下一些研究热点: (1)非压缩域的图像检索:为了提高效率,只对压缩视频信息不解压或只进行部分解压,或取图像的特征信息进行检索。 (2)基于语义的图像检索:为了使图像检索系统更加接近人对图像的理解,研究者们还提出了基于语义的图像检索,试图从语义层次解决图像检索问题。例如,太阳、汽车等一些代表性词语,它包括了人们对图像的理解,这种技术的难点在于如何获取图像的语义信息。 (3)视频的动态特征提取:视频处理是视频检索的基础,而视频数据是动态的,具有动态特征。充分利用视频图像的动态特性,可以进一步提高视频片断检索的准确度。 (4)多维索引方法:根据视频图像的空间性,研究基于时空的多维索引方法将更有助于视频检索的速度和精确度的提高。 |