研究方向:图像视频编码与通信   多媒体信息检索   计算机视觉与模式识别   图象视频处理与分析


一、图像视频编码与通信


★图像视频高效编码


图像视频中存在大量冗余,编码压缩旨在去除这些冗余,用尽可能少的数据来表达图像视频相对完整的信息。

在图像压缩方面,课题组构造了基于提升的自适应方向小波变换。传统的小波变换只能沿着水平和垂直方向进行,而我们提出的小波变换,可以沿着图像任意方向进行变换,有效去除了图像的空间冗余。

在视频压缩方面,课题组提出了多参考帧最优预测编码。传统的预测编码选择最邻近的几帧作为参考帧,我们的方法并不局限于邻近帧,而是选择邻近的一帧以及一些质量更高的帧来更有效的去除了视频中存在的时间冗余。



★图像视频适配编码


视频编码码流在网络中传输,信道质量变化和信道带宽波动都会造成丢包,严重影响视频质量。

针对质量变化,我们建立了码率R与率失真曲线斜率lambda的关系模型,提出了λ域码率控制方法,可以实现精确高效的码率控制。(红线是现有方法的码率控制,码率波动剧烈,蓝线是λ域码率控制方法,码率非常平稳)

针对差错控制,我们提出了基于冗余帧、基于容错模式选择的自适应错误弹性编码,可以根据信道情况自动添加适度的冗余,实现了既有效又可靠的差错控制。



★无线视频通信中的数模混合编码


无线视频通信主要研究无线通信环境下的联合信源(视频)信道编码方案,以解决移动视频通信场景下的无线信道的时变性和无线视频广播场景下的信道多样性。理论上,Shannon的信源信道分离编码定理给出对于平稳信源信道的点对点通信系统,分离的信源编码和信道编码可以渐进地获得最优的端到端失真度。然而,移动通信(信道是时变的、非平稳的)和广播通信(网络通信或多用户通信)等场景,联合信源信道编码(joint source-channel coding)的性能会优于分离的编码方案。通过联合信源信道的编码方法,可以实现端到端性能(编码效率)和对信道变化的适应性(质量可伸缩性)的最优权衡。

针对无线移动视频通信和无线视频广播通信场景,我们提出一种基于混合数字模拟编码的无线可伸缩视频编码方案(wireless scalable video coding, WSVC)。 我们建议的方案结合了数字编码的高编码效率和模拟编码的连续质量可伸缩特性,从而达到优于现有的绝大部分编码方案的性能。另外,为了适应不同显示分辨率的接收端,我们的方案还同时实现了空间和时间上的可伸缩性。


★视频编码技术标准


视频编码技术解决的重点问题是数字视频海量数据的编码压缩问题,它是其后数字信息传输、存储、播放等环节的前提,因此,视频编码技术标准是数字音视频产业的共性基础标准。本课题组积极参与ISO MPEG及ITU-T VCEG等国际标准化组织和中国数字音视频编解码技术标准工作组(AVS)的活动,现有40余项技术提案被MPEG/JVT/JCTVC接受和10余项技术提案被AVS接受。目前,本课题组主要参与MPEG有关3D Video标准和MPEG/VCEG面向高清视频的下一代视频编码标准H.265/HEVC的制定。



二、多媒体信息检索


★大规模图象分析检索


给一幅查询图像,如何从网上海量图像中快速找到与其相似的图像?现有图像检索框架首先对图像提取特征;然后,根据训练好的码本对特征进行量化形成视觉单词;其后,模仿文本检索进行索引查询;经后处理后返回检索结果。现有框架存在着一些问题:首先,查询意图难以表达,给一幅图,不知道要找苹果还是找苹果手机;其次,根据训练好的码本进行特征量化,码本不易扩展,造成检索系统的更新非常复杂;再者,视觉单词不同于文本单词,视觉单词之间存在空间位置关系。然而,视觉单词之间的空间上下文难以表达和校验。

针对这些问题,我们提出了视觉要素拼合的查询输入方式,以准确表达用户查询意图;我们提出了视觉特征二值化量化方法,建立了无码本的大规模图像检索框架;我们发明了空间位置编码和校验方法,提高了检索速度和精度。





三、计算机视觉与模式识别


★目标跟踪


目标跟踪旨在连续图像中对感兴趣物体进行检测及跟踪,从而获得目标物体的相关参数并对其进行处理和分析,实现对目标物体的行为理解。其挑战在于仅有第一帧目标信息以及跟踪过程中可能出现遮挡、形变、光照变化、目标旋转等因素。

我们针对长时目标跟踪可能出现的遮挡和剧烈形变等情况,在跟踪结果不理想时进行粒子滤波和相关滤波结合的重检测机制。并使用稀疏表达粗略筛选粒子提高效率。该框架结合在一系列现有的算法中,有效提升精度。

对于传统的相关滤波跟踪算法融合深度特征和手工特征,特征间互补作用仍有待挖掘。我们通过将不同特征(高层语义、低层纹理等)进行组合构造出一系列子跟踪器独立地进行跟踪,通过评估彼此各自的稳定性及相互间的可靠性来选取当前帧下最佳的子跟踪器。此外,多个子跟踪器之间的差异性反映了当前结果的可靠性,有助于自适应更新模型。

我们还提出了局部的粒子相关滤波,通过在目标区域稠密采样粒子并将每个粒子用相关滤波器进行表达,必要时对不可靠粒子进行重采样,本工作基于局部模型,能有效应对跟踪任务中目标形变和局部遮挡等问题。

此外,我们还将跟踪器融合视为异常点检测问题,通过分析跟踪器输出之间的外观和几何关系进行可靠性评估,提出了基于稀疏的多跟踪器融合方法。



★视频手语识别


据了解,我国现有超过2000万的听力、语言障碍人士。正常人可以通过文字、语言等方式高效的进行沟通,而这些聋哑人的沟通方式是手语。手语识别这一借助计算机技术翻译手语的手段将会大大地改善聋哑人与正常人之间的交流现状,使正常人能通过机器的翻译“看懂”手语,方便聋哑人的生活。此外,手语识别作为计算机视觉中动作识别的一个重要组成部分,是一种具有挑战的计算机视觉与自然语言的跨模态研究。

针对连续手语的视频自动分割,我们提出了基于隐含空间嵌入的层级注意力网络模型,将视频序列和标注序列映射到隐空间,通过动态时间规整算法(DTW)对齐视频序列和文字标注序列,通过层级注意力机制网络解码出手语句子。

针对连续手语的对齐与快速识别,我们提出了基于空洞卷积的网络模型。前端通过基于3D卷积的网络处理视频信息,后端通过空洞卷积与CTC算法(Connectionist Temporal Classifier)进行句子的快速解码。通过迭代的思想训练前端的网络,实现视频序列与文本标注的自动对齐。



★行人重识别



四、图象视频处理与分析


★图像视频去噪、去划痕、去模糊



★文字检测、车牌检测


利用车牌上和文字上特有的主视觉单词,我们提出利用空间聚类和区域增长的方式分别对汽车车牌和中英文文字的检测提出了高效的算法。


★生物医学图像处理


建立了大规模图像自动分析框架,提出了复杂背景下图像分割、目标跟踪和识别的快速有效方法,并应用于大规模细胞图像自动分析,为探索生命规律提供了有效的技术手段。