近日,我院几何计算与智能媒体技术研究团队在室外场景深度估计领域的研究工作取得新进展,由叶昕辰副教授、樊鑫教授、博士生张明亮、徐睿副教授、仲维副教授共同完成的论文“Unsupervised Monocular Depth Estimation via Recursive Stereo Distillation”被图像处理领域顶级期刊IEEE Transactions on Image Processing (TIP)(CCF-A,IF=9.37)录用。该论文提出了一种基于递归立体蒸馏策略的无监督单目深度估计方法,通过建立以立体图像为输入的教师网络来学习高质量深度信息,并利用递归蒸馏手段将教师网络的知识迁移至单目深度估计网络(学生)来辅助提高其性能。与其他最新方法相比,该方法达到了最出色的单目深度估计性能。项目主页:http://faculty.
单目场景深度估计是获取深度信息的一种有效方法,但是从单张RGB图像直接预测高质量深度信息仍存在一定困难。尽管基于深度学习的场景深度估计方法已经被广泛使用,但是受限于单目图像输入以及缺乏监督信息等问题,难以进一步提高其性能。无监督学习方法从图像重建的角度出发,借助于立体图像(左右视点)间的几何关系作为损失函数来训练网络模型,解决了对真实深度标签的依赖问题。但是,由于该任务被限定在单目深度估计下,即在测试阶段网络需以单目图像作为输入,在网络模型的构建阶段无法合理及充分的利用立体图像的几何关系来辅助单目深度估计,深度估计效果不甚理想。为此,本成果提出一种基于递归立体蒸馏策略的无监督单目深度估计网络结构,它包括一个以单目图像为输入的轻量化深度估计网络(学生)和一个以立体图像为输入的复杂高精度深度估计网络(教师),并利用递归蒸馏手段将教师网络的知识迁移至学生网络来辅助提高其性能。在测试阶段,可以单独利用轻量化的学生网络进行深度估计,同时保证单目深度估计的精度及效率。
网络模型的设计关键问题在于如何提升教师网络的自身能力(teacher’s own ability)和其“教学”的能力(teaching ability)。针对于前者,本成果提出了基于递归迭代及特征驱动自适应精细化的方法来提升立体网络的性能;针对于后者,本成果提出了一种多尺度多空间的知识蒸馏机制,从图像空间、特征空间以及远距离相关性(long-range dependencies)三个方面提取立体网络的知识用于提升单目网络的深度估计性能。
实验表明,通过精心设计立体网络并正确指导单目深度估计网络的学习,无需额外更改网络结构并增加计算负担,最终获得了现下最优的无监督单目深度估计性能。下图为实验结果图((b)(c)(d)分别为真值图,其他方法,和我们的方法):
几何计算与智能媒体技术研究团队隶属于大连理工大学国际信息与软件学院,与立命馆大学合作建立健康医疗智能计算联合研究中心。研究课题包括机器学习、深度学习、计算机视觉、多媒体技术、优化方法等当前最前沿的领域,及其在医疗和健康领域中的应用。近年来在IEEE TPAMI、TIP、TNNLS、TMM、NeurIPS、IJCAI、AAAI、CVPR、ECCV、ACM MM等人工智能、多媒体技术等多方领域的重要期刊及会议上发表论文达100余篇。近一年来针对可学习优化的理论及应用研究已发表顶级会议和期刊(包括NeurIPS, AAAI, IJCAI, ACM MM, TIP, TNNLS等)论文30余篇。研究所在科学研究的基础上,还面向国家重大战略需求,如开展全天候车载多波段立体视觉感知单元研发,在重大项目实物竞标中取得第一名;开展水下目标抓取机器人研发,在水下目标自主抓取中取得突破等。
责任编辑:潘树孟