【科研新成果】国际信息与软件学院几何计算与智能媒体技术研究所在机器学习领域取得系列新成果-大连理工大学中日国际软件学院

近日，我院三项成果分别被机器学习领域顶级国际会议International Conference on Machine Learning (ICML)、International Conference on Learning Representations (ICLR)和图像处理领域顶级期刊IEEE Transactions on Image Processing (TIP)录用。ICML是机器学习领域公认的国际顶级学术会议，也是CCF推荐的A类会议，由IMLS国际机器学习协会支持。ICLR则是深度学习领域的新兴顶级学术会议。IEEE TIP由IEEE信号处理学会主办，是图像处理领域公认的No.1期刊，侧重于图像处理的前沿理论与方法，是CCF推荐A类国际期刊，最新影响因子为9.340。

论文“A Generic First-Order Algorithmic Framework for Bi-Level Programming Beyond Lower-Level Singleton” 被International Conference on Machine Learning (ICML)录用，由刘日升教授团队与香港大学、南方科技大学团队合作完成。近年来，已经有许多基于梯度的一阶方法来解决双层优化问题。但是，这些现有的方法在寻找最优解时很大程度上取决于下层解集的单点特征（也即Lower-Level Singleton，LLS）。特别是在没有LLS条件的情况下，使用这些方法很难找到的问题的最优解。为此，该项研究给出了一个新的求解方法，并给出了严格的理论分析。具体来说，通过从乐观双层优化和联合上下层信息的角度重构BLPs，我们建立了一个通用灵活且模块化的双层优化算法框架（即Bi-level Descent Aggregation，BDA）。在理论上，我们用新的视角证明没有LLS条件时BDA的收敛性。在算法的灵活性上，BDA可以与特定的一阶计算模块兼容。值得一提的是，我们还进一步对常规的一阶方法（在LLS的情况下）做了改进。特别是，我们用较弱的假设来证明这些一阶方法的收敛性。大量的实验证明了我们理论结果的正确性，以及所提出的BDA在不同任务（包括超参数优化和元学习）中的优越性。

图1.在不同初始点的情况下对比一阶BLPs算法的数值性能

图2.在不同下层迭代的情况下对比一阶BLPs算法的数值性能

论文：“AE-OT: A New Generative Model Based on Extended Semi-Discrete Optimal Transport” 被International Conference on Learning Representations (ICLR)录用，由雷娜教授、罗钟铉教授团队与丘成桐院士、顾险峰教授团队共同完成。大连理工大学团队与丘成桐、顾险峰团队保持长期的国际合作关系，在深度学习方面始终处于前沿领域。近年来，由于当前的生成模型，例如生成对抗网络（Generative Adversarial Network，GAN）和变分自动编码器（Variational AutoEncoder，VAE）等，具有生成逼真视觉图像的能力而备受关注。然而大多数现有模型都存在模式崩溃或模式混合问题。在这项工作中，我们通过Figalli的最优传输映射的正则性理论对这两个问题进行了理论解释。事实上，生成器计算白噪声分布到数据分布之间的传输映射，而这个映射通常是不连续的。但是，深度神经网络（DNN）只能表示连续映射，这种内在冲突导致模式崩溃和模式混合。为了解决这个问题，我们将流形嵌入和最优传输明确分开。在第一步，我们使用自动编码器（AE）将图像映射到隐空间上；在第二步，使用基于GPU的凸优化来计算非连续的传输映射。通过扩展的最优传输（Optimal Transport，OT）映射和解码器，我们最终可以从白噪声中生成新的图像。此AE-OT模型避免了用DNN表示不连续映射的问题，因此有效地防止了模式崩溃和模式混合。

论文“Investigating Task-driven Latent Feasibility for Nonconvex Image Modeling”被IEEE Transactions on Image Processing (TIP)录用。作者包括刘日升教授，穆攀，陈坚，樊鑫教授和罗钟铉教授。在计算机视觉问题中，对潜在图像分布的建模起着重要的作用。现有的大多数方法都旨在将图像恢复问题建模为带有设计先验的优化模型(如最大后验概率模型，MAP)。而不同的CNN模块也被当作先验来规范图像建模过程。然而，这些先验的正确性取决于对问题的深刻理解和精心的数学推导。因此，我们以一个全新的视角对潜在图像分布进行建模（Task-driven Latent Feasibility，TLF )，结合特定的任务信息来缩小基于优化的图像建模问题的解集范围。由于TLF的灵活性，不管是自己设计的还是训练得到的约束都可以嵌入到优化过程中。通过引入基于单调性和有界性条件的控制机制，可以引导图像向着正确的方向传播，另外我们可以严格证明该算法的收敛性。

几何计算与智能媒体技术研究团队隶属于大连理工大学国际信息与软件学院，研究领域主要包括深度学习理论，视觉与媒体计算，网络安全与大数据隐私保护，嵌入式软硬件协调设计，电子设计自动化等方面。团队近3年来已经在IEEE TPAMI、TCAD、TIP、TNNLS、TCSVT、TMM、TPDS、ICML、NeurIPS、IJCAI、AAAI、CVPR、ICCV、ECCV、ACM MM、DAC等领域重要期刊及会议上发表论文达140余篇。研究所在科学研究的基础上，还面向国家重大战略需求，如开展全天候车载多波段立体视觉感知单元研发，在国防重大项目实物竞标中取得第一名；开展水下目标抓取机器人研发，连续多次获得国家基金委主办水下机器人大赛冠军等。

责任编辑：潘树孟

上一条：【科研新成果】国际信息与软件学院几何计算与智能媒体技术研究所取得系列研究新成果下一条：遇见ISE|校区介绍

【关闭】

首页

学院概况

院务公告

招生就业

学科与科研

师资队伍

教育教学

党群工作

合作交流

校园生活

【科研新成果】国际信息与软件学院几何计算与智能媒体技术研究所在机器学习领域取得系列新成果