高维复杂数据一方面呈现出多子空间、非线性流形等复杂结构,导致难以刻画数据的统计特性,另一方面往往含有强噪声、缺失值等干扰信息,导致下游任务出错甚至无法执行。如何打造既能刻画数据的内在结构又能排除干扰信息的数学工具,是长期困扰数据分析领域的核心难题之一,也是人工智能及其相关领域的基础问题。
针对以上核心难题,林宙辰项目组注意到低维子空间和低维流形对应于低秩的数据矩阵,因此使用秩约束将有助于分离数据的低维主体结构和零散的噪声结构,于是以秩为基础数学工具,结合谱图理论、拉格朗日乘子法等技术,提出了可以鲁棒地提取多子空间与流形结构的低秩模型、理论及高效优化算法,在高维复杂数据分析的理论和算法方面做出了创造性贡献。
主要发现点为:
一、针对带强噪声的鲁棒子空间聚类问题,发现秩是刻画数据多子空间结构的有效工具,由此提出了低秩表示模型(Low-Rank Representation, LRR),同时解决了子空间结构提取和数据去噪的问题;进一步为LRR提供了深入完善的理论分析,包括强化表达系数矩阵块对角结构的条件及正则化子,和LRR能精确恢复内在多子空间的条件,为LRR的应用提供了坚实的理论保障。该发现引领了基于低秩的子空间聚类这一研究方向。
二、针对现实中更为复杂的数据,对发现点一做了关键性的推广,大大拓宽了低秩模型的应用范围:提出了潜在低秩表示模型,解决了数据不足时的子空间聚类问题;提出了非负稀疏拉普拉斯低秩表示模型,消除了LRR不适用于非线性流形数据的缺陷;定义了新的张量秩和张量核范数,重新完整构建了张量情形的数据补足、去噪和子空间聚类理论,美国科学院院士、压缩传感发明人E. Candès提出的矩阵情形的鲁棒主成分分析理论成为我们的特例。
三、针对求解低秩模型计算量大的问题,充分利用低秩模型的结构特点,提出了结合自适应惩罚系数、线性化和并行分裂等技巧的若干拉格朗日乘子法类型的算法,以及迭代重加权核范数收缩算法,求解不同问题收敛速度提升3-1000倍不等。
代表性论文谷歌学术引用近万次,被100余位中外院士和ACM、IEEE等主流学会Fellow积极评价,所提模型和算法被应用到100多个实际问题的建模和求解中,产生了巨大的国际影响。成果获评2020年度中国计算机学会科学技术奖自然科学一等奖(林宙辰排名第一)。
地址:北京市海淀区颐和园路5号(62755617) 反馈意见:its@pku.edu.cn
Copyright 版权所有©北京大学智能学院 All Rrights Reserved.