跳转至

研究方向

一、计算机视觉与模式识别

1.1 目标跟踪

目标跟踪是计算机视觉领域的重要研究方向之一,其目标是在连续的图像中对感兴趣物体进行检测、提取、识别和跟踪,从而获得目标物体的相关参数,如位置、速度、尺度、轨迹等,并对其进一步处理和分析,实现对目标物体的行为理解,或完成更高级的任务。

1.1.1 无监督式目标跟踪训练

在这一工作中,我们使用易获取的无标注数据进行跟踪器训练,可以节约大量的人力标注成本。从目标跟踪的定义可知,模型应该具备跟踪任意目标的能力,并以前向跟踪的结束位置为出发点可以反向跟踪回初始位置。我们利用这种特性构建回文视频序列来进行无监督训练。进一步地,我们提出多帧验证机制和代价敏感的损失函数来优化无监督训练过程。

Unsupervised Deep Tracking, CVPR 2019 [Paper]; Unsupervised Deep Representation Learning for Real-Time Tracking, IJCV 2020 [Paper].
跟踪效果:红色框为我们的方法

1.1.2 利用时间上下文实现鲁棒目标跟踪

视频序列中所蕴含的丰富的时间上下文信息对于视觉跟踪而言至关重要。而现有的跟踪方法常常忽略连续帧间的时间上下文。为了充分利用上述信息来实现鲁棒的目标跟踪,我们创新性地将 Transformer 结构引入到目标跟踪领域中来。通过精心修改和设计,我们发现Transformer结构十分适合于在历史帧和当前帧间传播时间上下文信息,能够有效提升现有主流算法的跟踪精度。

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking, CVPR 2021 [Paper].

1.2 目标检测

目标检测是计算机视觉的基础课题之一,旨在定位与识别场景中出现的物体。伴随着人工智能相关领域的迅猛发展和快速普及,目标检测已经成为推动新兴产业萌发,促进传统行业革新的关键技术。其中,面向点云数据的目标检测技术已成为自动驾驶和智能机器人视觉系统的重要组成部分。

1.2.1 面向点云数据的目标检测

介绍:在处理三维空间的物体检测问题时,由于自然图像天生存在着丢失深度信息的问题,通常采用更具定位优势的点云数据。激光雷达(LiDAR)具有很强的三维空间场景解析能力,因此我们利用的点云数据均由激光雷达扫描生成。

问题:相比二维图像数据,三维空间中的点云数据有着无序性和稀疏性的特点,使得在二维图像中取得巨大成功的基于卷积神经网络的目标检测方法无法直接应用于点云的检测。并且,从二维到三维的空间拓展使得物体在场景中可能出现的位置变得更加多变,带来定位的困难。

解决方法1:设计了基于体素区域特征的双阶段目标检测框架:体素区域神经网络(Voxel-RCNN),在保证检测精度的同时提升了处理的效率。

方法框架 1

解决方法2:对点云视角进行多视角投影与特征提取,并基于多视角特征合成有效的三维表达,以达到高效三维目标检测方法的目的。

Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection, AAAI 2021 [Paper].
在三维空间上的检测效果图

1.3 行人重识别

任务定义:在大规模视频监控网络拍摄的图片或者视频中,指定一个我们感兴趣的行人,我们要找到这个行人被其他相机拍摄到的数据。

1.3.1 无线大数据+视觉大数据

传统行人重识别主要依赖视觉数据,即行人的图片或者视频。视觉数据是对行人细致的描述,数据可靠时能有效区分行人,但是容易受到遮挡、模糊、视角变化和换装等因素的干扰。我们课题组提出使用无线信号辅助视觉的行人重识别,即借助行人手机的无线定位信号来提高行人重识别的准确性和可靠性。

Vision Meets Wireless Positioning: Effective Person Re-identification with Recurrent Context Propagation, ACM MM 2020 [Paper].

视觉数据可与无线数据优势互补。多模态的数据融合使系统更可靠,不易受遮挡,模糊,视角变换和换衣等因素影响。同时我们可以基于定位轨迹检索行人数据,缩小搜索空间,降低开销。此外,若手机号绑定了身份信息,还可在看不清人脸时提供额外的身份信息。

1.3.2 时空约束下的无监督行人重识别

现有行人重识别方法大多采用了有监督学习范式,这要求进行大量的手工标注。此外,如果将在某个数据源下训练的重识别模型直接应用到一个新的监控网络,性能往往会出现很大的退化。如果对每个新的监控场景都进行人工标注,特别是在现实场景中的大规模监控网络下,人工标注的工作量往往是巨大而不切实际的。

摄像机监控网络示例

与传统无监督行人重识别方法不同的是,我们的训练数据完全由检测和跟踪算法自动获取,利用外部信息推理(时间、空间位置等)自动获取高质量的行人正负样本对用于无监督的行人重识别训练。

Progressive Unsupervised Person Re-Identification by Tracklet Association With Spatio-Temporal Regularization, TMM 2020. [Paper]

基于行人重识别方法,借助单摄像机下的多目标跟踪及跨摄像机下的行人关联算法,我们可以得到行人的跨摄像机跟踪轨迹。

跨摄像机下的行人重识别

1.4 生成对抗网络

图像与视频生成是计算机视觉的重要研究方向,研究如何利用计算机生成自然、连贯的图像和视频。在图像视频生成领域内,一种重要方法是生成对抗网络(GAN)。GAN受博弈论中的零和博弈启发,将生成问题视作判别器D和生成器G这两个网络的对抗和博弈。课题组基于生成对抗网络方法在多个图像视频生成任务上获得进展。

1.4.1 图像生成

该任务旨在从随机高斯噪声中生成自然的图像。同时训练中的判别器可用于表征学习。课题组融合自监督学习思路Auto-Encoding Transformations(AET),用AET对应的loss作为正则化项来更好的训练GAN中的判别器D,从而提高生成器G的训练结果。

Transformation GAN for Unsupervised Image Synthesis and Representation Learning, CVPR 2020 [Paper].

1.4.2 手势迁移

该任务旨在在目标姿态和保留源手势身份信息的约束下,生成目标手势图片。相比过去利用2D骨架点的方法,课题组引入3D手模型作为先验,解决过去方法手势生成模糊、细粒度纹理缺失的问题。

Model-Aware Gesture-to-Gesture Translation, CVPR 2021. [Paper]
从左到右:第一帧图像,真实结果,对比方法,我们的方法

1.5 视频手语识别

据世界卫生组织统计,全球约4.3亿人存在听力受损,而在我国现有超过2000万的听力障碍人群。对于规模庞大的聋人群体,手语是其沟通交流的重要途径。手语识别这一借助计算机技术翻译手语的手段将会大大地改善聋人与听人之间的交流现状,使听人能借助机器的翻译“看懂”手语,方便聋人的日常生活。视频手语识别是一种具有挑战的跨学科研究问题,涉及计算机视觉、自然语言处理、多媒体分析等多个领域。

对于手语的表征建模,现有的方法多从数据驱动的角度出发,缺少知识性的建模。为了加入知识先验,我们提出了基于手部Mesh模型的表征方法,利用手势动作在3D空间的时空一致性损失,从而实现手语孤立词的识别。

Hand-Model-Aware Sign Language Recognition, AAAI 2021 [Paper].

手语翻译模型的训练非常依赖成对的“手语-文本”数据,而现有的手语数据库难以提供与文本翻译同一量级的训练数据。针对这一问题,我们设计了基于单语料的回译策略,利用易于获取的单语料数据和提出的手语回译算法,可以生成大量的“手语-文本”对以参与模型训练,大大提升了模型的翻译质量。

Improving Sign Language Translation with Monolingual Data by Sign Back-Translation, CVPR 2021 [Paper].
Demo: 手语识别

1.6 主动目标跟踪

当目标运动至相机视野外,或受到视野内其他物体遮挡,传统跟踪器很难再对目标进行准确跟踪和定位。因此若能够实时调整相机位置、角度和焦距,控制相机跟随目标移动,就可以实现对目标的持续跟踪,即主动目标跟踪。课题组以强化学习算法和计算机视觉算法为基础,着力解决多人干扰、多相机多目标等一系列具有实际应用价值场景中的主动目标跟踪问题。

1.6.1 多人干扰下的主动目标跟踪

针对多人干扰环境下对指定目标进行主动跟踪的问题,课题组借助注意力机制模型来获取待跟踪目标的特征信息,并采用强化学习框架来学习相机移动的最优策略。该研究在公共场所监控等实际场景中具有重大的应用价值。

多人干扰下的主动目标跟踪

1.6.2 多相机多目标下的主动目标跟踪

在多相机多目标(如足球场)的复杂场景中,课题组采用计算机视觉方法获取目标(运动员)的位置等重要信息,并借助于中心化的多智能体体强化学习框架,从而实现智能化的多相机姿态控制。通过实时移动各相机的位置和角度,确保相机最大程度的覆盖到更多目标(运动员)。该研究在体育比赛转播等实际场景中具有重大的应用价值。

多相机多目标下的主动目标跟踪

二、人工智能与机器博弈

机器博弈是人工智能的重要研究方向,研究如何使计算机具备与人一样的博弈能力,它是对人类博弈的抽象与精炼,为人工智能提供了理想的实验床,被誉为“人工智能的果蝇”。

2.1 王者荣耀

课题组采用多智能体强化学习技术,在第一届腾讯开悟王者荣耀大赛中获得冠军。

腾讯开悟王者荣耀大赛 (5v5实战视频)

2.2 麻将

课题组基于模仿学习思想研发的麻将AI“地锅鸡”,在IJCAI 2020举办的麻将人工智能比赛中获得第四名。

麻将 AI "地锅鸡"

三、图像视频编码与通信

3.1 高效编码

课题组在国际上率先提出紧致仿射运动模型,在编码标准中突破了沿用近 30 年的分块平移运动模型。相关技术被最新视频编码国际标准 H.266 及视频编码国家标准 AVS3 采纳,在众多被 H.266 采纳的技术中,仿射运动模型编码性能排名第 2。紧致仿射运动模型作为第一个发明点的代表性工作获 2019 国家技术发明二等奖。

3.2 适配编码

视频编码码流在网络中传输,信道质量变化和信道带宽波动都会造成丢包,严重影响视频质量。

针对带宽波动,课题组在国际上率先提出 λ 域码率控制方法,突破了沿用近 20 年的 Q 域码率控制技术,相关技术被 H.265 采纳。课题组提出的码率控制技术带动了码率控制的发展,H.265 之后的国际标准 H.266 也使用λ域码率控制方法。λ 域码率控制方法作为第二个发明点的代表性工作获 2019 国家技术发明二等奖。

针对质量变化,课题组揭示了压缩传输失真的时空传导规律,建立了非均匀特性感知的信源信道联合失真模型,并进一步提出了基于容错模式选择的自适应错误弹性编码,可以根据信道情况自动添加适度的冗余,实现了既有效又可靠的差错控制,相关技术被 H.264 采纳。

3.3 语义可伸缩图像编码

在智能信息化时代,为了更好地实现人机共判,图像压缩需要同时考虑信号压缩与特征压缩。语义可伸缩编码旨在利用不同层语义特征与图像信号之间信息的相关性,构造结构化的、可伸缩的码流,以按需适配机器视觉和人类视觉的不同任务。

3.4 视频编码技术标准

视频编码技术解决的重点问题是数字视频海量数据的编码压缩问题,它是其后数字信息传输、存储、播放等环节的前提,因此,视频编码技术标准是数字音视频产业的共性基础标准。本课题组积极参与ISO MPEG及ITU-T VCEG等国际标准化组织和中国数字音视频编解码技术标准工作组(AVS)的活动,现有40余项技术提案被MPEG/JVT/JCTVC接受和10余项技术提案被AVS接受。目前,本课题组主要参与下一代视频编码标准、基于AI的图像编码标准,特征压缩标准的制订。


四、多媒体信息检索

给一幅查询图像,如何从网上海量图像中快速找到与其相似的图像?现有图像检索框架首先对图像提取特征;然后,根据训练好的码本对特征进行量化形成视觉单词;其后,模仿文本检索进行索引查询;经后处理后返回检索结果。

4.1 用户意图识别

如何联合利用图像和文本来表达检索意图?

目前图像检索框架中的倒排索引大多只采用一种特征表达,然而一图胜千言,单特征往往难以完整全面地刻画图像内容。针对不同意图的检索任务,往往需要设计不同的图像检索框架。另一方面,在一些情况下,用户的检索意图也很难被一张图像准确描述,因此结合文本进行用户检索意图的准确定位是必要的。在图像文本组合查询方向,课题组首次提出将修改文本作为图像变换,学习准确的用户查询表达,相关成果发表在 ACM Multimedia 2021。

Cross-modal Joint Prediction and Alignment for Composed Query Image Retrieval, ACM MM 2021.

4.2 图像特征提取

为了快速度量图像间的相似性,需要对图像进行特征提取,使得特征间距离代表图像间距离。图像特征表达根据特征提取范围的不同大致可以分为两类:局部特征和全局特征。局部特征通过关键点检测提取图像中感兴趣区域,对局部区域信息进行表达,而全局特征对整幅图像进行表达。两类特征适用于不同的意图的检索任务。特征表达的准确度直接关系到整个检索系统的性能。我们针对大规模图像检索中局部特征检测多样性问题,提出了多注意力模块检测机制,检测出更加多样化的局部特征,在一系列地标检索公共数据集上取得精度提升,成果发表在 ICCV 2021。

Learning Deep Local Features with Multiple Dynamic Attentions for Large-Scale Image Retrieval, ICCV 2021.

4.3 特征哈希量化

在实际大规模检索系统中,直接存储图像特征向量会消耗大量内存,而且计算特征向量间距离的时间复杂度随图像数目增加而线性增长,对在线检索的实时性造成极大挑战。为克服这些问题,课题组提出视觉特征二值化量化方法,建立了无码本的大规模图像检索框架;提出基于线性保距目标的通用哈希框架,基于自组织网络的深度有监督量化方法,基于周边tag文本的弱监督哈希方法等,相关研究成果发表在国际顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), IEEE Transactions on Image Processing(TIP), IEEE Transactions on Multimedia, CCF A类国际会议ACM Multimedia 等。

4.4 索引

为了能够在大规模图像检索任务中快速过滤掉不相关的检索结果,加速检索速度,索引结构被提出。基于不同特征可以构造不同索引,为了利用不同特征间的互补信息,课题组提出基于局部特征和深度特征的协同索引方法,相关研究成果发表在国际顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 等。

4.5 检索结果重排序

当初次检索结果的性能不尽如人意,重排序方法是一种有效的提升检索性能的方法。现有的重排序方法通常利用初次检索结果中排序靠前的图像的信息。常见的方法有查询扩展,空间验证等。然而现有方法的效率较低,并且没有考虑图像间的上下文关联信息。为充分利用图像间的上下文信息,课题组提出基于神经网络的图像上下文相关性预测方法,基于 diffusion 的层叠特征增强方法,空间位置编码和校验方法等,相关研究成果发表在国际重要期刊 IEEE Transactions on Multimedia, CCF A 类国际会议 ACM Multimedia 等。


五、图像视频处理与分析

5.1 褶皱文档图像矫正

基于深度学习的褶皱文档图像处理技术,能够对任意不规则褶皱的文档图像进行几何矫正、光照矫正,还原至接近扫描仪扫描的效果。课题组提出的算法在现有测试基准上达到了现有最先进的矫正质量和矫正速度。

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction, ACM MM 2021.

5.2 图像视频去噪、去划痕、去模糊

5.2.1 图像视频去噪

针对视频内容具有时空相关性的特性,我们将连续的视频序列分解为三个线性相加的分量,描述时空相关性的低秩 (low-rank) 分量,空间相关的平滑分量,和时空不相关的稀疏分量。基于这一分解模型,我们发展了视频混合噪声去除的相关算法,取得了优于现有方法的去噪结果。

5.2.2 图像视频去划痕

由于存储和运输过程中的环境条件的影响,采用胶片拍摄的珍贵的电影材料中往往会存在划痕和斑点等缺陷,对于数字化的老电影材料,我们基于划痕和斑点的时空相关特性,首先通过结构+纹理 (cartoon + texture)分解将电影序列进行空间分解,从而将划痕和斑点分离开来,再通过低秩稀疏分解,分别从这两个分量中提取出划痕和斑点,为接下来的缺陷修复提供基础。

最终检测结果

5.2.3 图像视频去模糊

在日常视频拍摄中,摄像机抖动模糊是一个常见的问题。基于现有智能设备提供的运动传感器信息,以及视频序列内在的相关性和表达上的稀疏性,我们采用传感器分析的方法来检测视频序列中的模糊帧和清晰帧,通过从清晰帧中学习与视频内容相关的过冗余字典来对模糊帧进行盲去卷积,从而恢复出清晰的视频内容。

5.3 生物医学图像处理

建立了大规模图像自动分析框架,提出了复杂背景下图像分割、目标跟踪和识别的快速有效方法,并应用于大规模细胞图像自动分析,为探索生命规律提供了有效的技术手段。

Back to top