流形学习(Manifold Learning)。
流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,非线性流形学习算法包括Tenenbaum等提出的等距映射(Isomap),Belkin等提出的拉普拉斯特征映射(Laplacian
eigenmaps,LE),Roweis等提出的局部线性嵌入(Locally-linear
embedding,LLE)等。而线性方法则是对非线性方法的线性扩展,如主成分分析(Principal
component analysis,PCA),多维尺度变换(Multidimensional
scaling,MDS)等。
Isomap由麻省理工学院计算机科学与人工智能实验室的JoshTenenbaum教授于2000在Science杂志上提出 [1]。Isomap的主要目标是对于给定的高维流形,欲找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。Isomap以MDS(Multidimensional
Scaling)为计算工具,创新之处在于计算高维流形上数据点间距离时,不是用传统的欧式距离,而是采用微分几何中的测地线距离(或称为曲线距离),并且找到了一种用实际输入数据估计其测地线距离的算法。(即图论中的最小路径逼近测地线距离)。
LE(Laplacian
eigenmaps)的基本思想是,用一个无向有权图描述一个流形,然后通过用图的嵌入(graph
embedding)来找低维表示。简单来说,就是在保持图的局部邻接关系的情况下,将其图从高维空间中重新画在一个低维空间中(graph
drawing)。
1、Joshua B. Tenenbaum,Vin de Silva, John
C.
Langford,A
Global Geometric Framework for Nonlinear Dimensionality Reduction非线性降维的全局几何框架, Science 290, 22, (2000), 2319–2323。
2、Mikhail Belkin,Partha Niyogi,Laplacian Eigenmaps and Spectral Techniques for Embedding and
Clustering拉普拉斯特征映射与嵌入和聚类的谱技术,Advances in Neural Information
Processing Systems 14, 2001, p. 586–691,
3、Sam
T. Roweis,Lawrence
K. Saul,Nonlinear
Dimensionality Reduction by Locally Linear Embedding通过局部线性嵌入进行非线性降维,Science
290, 22,(2000),
2323–2326。
H. Sebastian Seung,Daniel
D. Lee ,The
Manifold Ways of Perception,Science
290, 22,(2000), 2268 - 2269.
最近我国也已发表了很多流行学习的论文:
罗四维,赵连伟,基于谱图理论的流形学习算法,计算机研究与发展,2006,
本文着重研究总结了文献中几种有代表性的基于谱图理论的流形学习算法,并对算法进行了比较分析
徐蓉,姜峰,姚鸿勋,流形学习概述,智能系统学报,2006,
流形学习旨在发现高维数据集分布的内在规律性,其基本思想是:高维观测空间中的点由少数独立变量的共同作用在观测空间张成一个流形,如果能有效地展开观测空间卷曲的流形或发现内在的主要变量,就可以对该数据集进行降维。此文的方法解决流形学习较之于传统的线性降维方法,能够有效地发现非线性高维数据的本质维数,利于进行维数约简和数据分析。
何力,张军平,周志华,基于放大因子和延伸方向研究流形学习算法,计算机学报,2005,
已有的流形学习算法对观测空间的高维数据与降维后的低维数据之间的定量关系,尚难以直观地进行分析,这一方面不利于对数据内在规律的深入探察,一方面也不利于对不同流形学习算法的降维效果进行直观比较。此文中提出了一种方法,可以从放大因子和延伸方向这两个方面显示出观测空间的高维数据与降维后的低维数据之间的联系;比较了已有的两种著名的流形学习算法(ISOMAP和LLE)的性能,得出了一些有意义的结论;提出了相应的算法从而实现了以上理论,对几组数据的实验表明了研究的有效性和意义。
黄启宏,刘钊,流形学习中非线性维数约简方法概述,计算机应用研究,2007,
对流形学习中非线性维数约简方法,分析了它们各自的优势和不足。与传统的线性维数约简方法相比较,可以发现非线性高维数据的本质维数,,有利于进行维数约简和数据分析。
马瑞,王家廞,宋亦旭,基于局部线性嵌入(LLE)非线性降维的多流形学习,清华大学学报(自然科学版),2008,
此文提出了一种基于局部线性嵌入(LLE)算法的多流形学习方法。对于分布在不同流形上的高维数据,该方法在降维的同时首先对数据集进行非监督的聚类,然后分析每一类数据的低维流形的本质维数以及流形空间的构成,聚类及流形空间的确定是通过对LLE降维的结果进行分析而完成的,计算复杂度小。在Cohn-Kanade人脸表情数据库上的表情识别实验表明,该方法在多人脸多表情流形的学习中优于基本的LLE算法。
王自强,钱旭,孔敏,流形学习算法综述,计算机工程与应用,2008,
介绍了流形学习的基本思想、一些最新研究成果及其算法分析,并提出和分析了有待进一步研究的问题。
尹峻松,肖健,周宗潭,胡德文,非线性流形学习方法的分析与应用,自然科学进展,2007,
此文分析了几种主要的流形学习方法,通过比较给出各方法的优缺;提出了基于谱分析的非线性降维的统一框架,对于流形学习方法的研究具有重要意义;给出了手写数字和人脸图像序列等降维的实验结果,显示了非线性流形学习在数据约简和可视化方面的有效应用。
詹德川,周志华,基于流形学习的多示例回归算法,计算机学报,2006,
多示例学习是一种新型机器学习框架,以往的研究主要集中在多示例分类上,最近多示例回归受到了国际机器学习界的关注。流形学习旨在获得非线性分布数据的内在结构,可以用于非线性降维。此文中基于流形学习技术,提出了用于解决多示例回归问题的ManiMI算法,该算法首先对训练包中的示例降维,利用降维结果出现坍缩的特性对多示例包进行预测,实验表明ManiMI算法比现有的多示例算法例如Citation-kNN等有更好的性能。
王守觉院士,仿生模式识别(拓扑模式识别) ---一种模式识 别新模型的理论与应用,电子学报 , 2002 , 30 (10) : 1417 - 1420
等等,参考机器学习的更多有关内容