近日,国际信息与软件学院几何计算与智能媒体技术研究所取得系列研究新成果,两项研究成果被多媒体领域顶级会议 ACM Multimedia Conference 2020(简称ACM MM)录用。ACM是世界上最大的计算机领域专业性学术组织,所评选的图灵奖(A.M. Turing Award)被公认为世界计算机领域的诺贝尔奖。ACM MM被认为是多媒体技术领域奥运级别的顶级盛会(CCF认定 A类会议)。
论文“Coupling deep textural and shape features for sketch retrieval”由贾棋副教授、樊鑫教授、已毕业研究生于美玉(现在滴滴出行工作)、在读博士刘宇擎、已毕业本科生王鼎荣(即将在罗彻斯特理工大学硕博连读)和美国天普大学Latecki教授合作完成。手绘草图具有高度的抽象性,近年来国内外学者针对手绘草图的识别设计了各种深度学习模型,但识别率一直在80%左右,仍然面临着巨大的挑战。不同于传统的深度学习方法对草图纹理特征的描述,立足于团队在形状分析方面的研究积累,探讨了草图特有的形状属性,提出了一个结合形状和纹理特征的时序双通道学习策略,并设计了一个两阶段递归神经网络来平衡这两种类型的特征。本文还考虑了草图的笔画顺序,以减少输入特性在类内的变化。在TU Berlin基准集上进行的大量实验表明,本文方法首次实现了90%以上的识别率,分别比人类和最先进的算法高出19个百分点和7.5个百分点。值得一提的是本文方法可以更有效地区分纹理相似但形状不同的草图。本文基于所提出方法,开发了一个在线素描检索和模仿绘画应用程序,用以辅助儿童或成人绘画,将于近期在AppStore上架相关应用。
论文“Feature Reintegration over Differential Treatment: A Top-down and Adaptive Fusion Network for RGB-D Salient Object Detection” 由研究生张煜、胡蓓启、张淼副教授与信息与通信工程学院卢湖川教授团队合作完成。该项研究针对于RGB与Depth两种模态数据在基于深度学习的RGB-D显著性检测方法中网络的高层级与低层级贡献不同,提出了一种新的自顶向下的多层级融合结构,利用不同的融合策略来有效地挖掘低层和高层特征。在高层级,设计了一个有效的交织融合模块整合全局信息;在低层级,启发于门控机制,设计了有效的融合模块从RGB和Depth数据中过滤掉冗余的局部信息,从而有效地选择有用的局部信息。此外,在自顶向下的结构基础上,又设计出自适应融合模块来重新整合各层次的跨模态融合特征,以预测更准确的结果。在7个广泛使用的RGB-D数据集上进行的综合实验表明,该方法优于目前最先进的RGB-D显著性物体检测方法。
相关介绍
几何计算与智能媒体技术研究团队隶属于大连理工大学国际信息与软件学院,研究领域主要包括深度学习理论,视觉与媒体计算,网络安全与大数据隐私保护,嵌入式软硬件协调设计,电子设计自动化等方面。团队近3年来已经在IEEE TPAMI、TCAD、TIP、TNNLS、TCSVT、TMM、TPDS、ICML、NeurIPS、IJCAI、AAAI、CVPR、ICCV、ECCV、ACM MM、DAC等领域重要期刊及会议上发表论文达140余篇。研究所在科学研究的基础上,还面向国家重大战略需求,如开展全天候车载多波段立体视觉感知单元研发,在国防重大项目实物竞标中取得第一名;开展水下目标抓取机器人研发,连续多次获得国家基金委主办水下机器人大赛冠军等。
责任编辑:潘树孟