谱图学习(Spectral graph
learning):
海南琼州大学在谱图理论发表多篇SCI论文,特别是在多核图谱理论方面做出很多开创性工作,居于世界领先地位。此外,这页简介它还因如周志华教授最近出版的很受热捧的《机器学习》一书说“聚类也许是机器学习中‘新算法’出现最多、最快的领域”,“聚类技术本身在现实任务中非常重要,因此,本章勉强采用了‘列举式’的叙述方式,相较于其他各章给出了更多的算法描述”。这页介绍最近引起广泛关注的一类很有效的谱图聚类-它已成为机器学习的很受重视的一个领域。
谱图聚类是最近引起广泛关注的一类很有效的聚类方法。由于这类方法使用某一矩阵(图)数据的特征向量进行聚类,因而统称为谱聚类算法。
同受教于物理教授却都成为计算机专家的许东的早7届的师兄Buhmann在1995年指出:谱聚类算法是一种基于两点间相似关系的方法,这使得该方法适用于非测度空间,算法仅涉及到数据点的数目,因而可以避免由特征向量的过高维数所造成的奇异性问题。谱聚类算法又是一个判别式方法,不用对数据的全局性构作假设,而是首先收集局部信息来表示两点属于同一类的可能性,然后根据某一聚类判据作全局决策,将所有数据点划分到不相关的集合中。谱聚类的思想来源于谱图划分,它将数据聚类问题看成是一个无向图的多路划分问题。数据点可以看成是一个无向图G(V, E)的顶点V,加权边的集合E={Wij}表示基于某一相似度量计算的两点间的相似度。用表示待聚类数据点间的相似度矩阵,将其看做是该图的邻接矩阵,它包含了聚类所需要的所有信息。然后定义一个图划分判据,最优化这一判据使得同一类内的点具有较高的相似性,而不同类之间的点具有较低的相似性。
由于图划分问题的组合本质,求图划分判据的最优解是一个NP难问题。一个有效的求解方法是考虑问题的连续放松形式,这样可以将原问题转换为求解矩阵的特征值和特征向量问题,从而将这类方法称为聚类方法,有时可以认为谱方法是对图划分判据的逼近。
最早提出的谱图划分判据是简单的最小切(Min-cut)判据。它将连接图划分成两个子图(A, B),使得子图间的连接权值之和,即所谓的切最小:Min-cut(A, B)。由于最小切判据仅考虑了外部连接而没有考虑每个聚类内部的连接,也就是没有对各个类进行规模限制,从而容易产生歪斜划分,不适于聚类问题。为了解决这一问题,后来提出的判据都是通过引入不同的平衡条件来获得性能更优的聚类判据:
率切(Ratio-cut)判据:Rcut(A, B)=cut(A, B)/|A| + cut(A, B)/|B|
其中, |A|, |B|表示各类内的结点数目。率切判据通过引入类规模平衡项来最小化类间相似性。
规范切(Normalized-cut)判据:Ncut(A, B)=
cut(A, B)/vol(A) + cut(A, B)/vol(B)
其中vol(A)表示A到图中所有顶点权值之和。规范切判据引入容量的概念来规范化类间相关,从而考虑了相对于类内连接强度的类间连接。
最小最大切(Min-Max-cut)判据:MMcut(A, B)=
cut(A, B)/ cut(A, A) + cut(A, B)/ cut(B, B)
同时最小化类间连接强度,最大化类间连接强度。
从这三种判据可推广到多路情形的多路划分判据:
多路率切:MRcut(C1, C2, …Ck)=åkcut(Ck, G-Ck)/| Ck | ;
多路规范切:MNcut(C1, C2, …Ck)= åkcut(Ck, G-Ck)/dk ;
多路最小最大切:MMMcut(C1, C2, …Ck)= åkcut(Ck, G-Ck)/
cut(Ck, Ck)。 … … …
这需要一定基础如这里倒数第3段的“归纳逻辑与人工智能”会议及书籍一段所说:我读研究生那时的国内及国外《机器学习》书籍我都有,并所说到的《机器学习》一书第一作者Michalski等的下面3大领域分别和机器学习交互的3本书-当然最好要结合近来人工智能的一些受关注的相关领域攻读才能找到更好的主题方向:即第1本是Michalski的《机器学习与数据挖掘》(关于“数据挖掘”,韩家炜教授的一直跟进更新的那套书是很受欢迎的)。第2本是傅京孙院士1971年主编的《Pattern
Recognition and Machine Learning模式识别与机器学习》(关于“模式识别”其开拓者傅京孙院士主编的《模式识别应用》由程民德石青云戴汝为院士边肇祺教授翻译;最近Christopher M. Bishop独著的《Pattern recognition and
machine learning模式识别与机器学习》;看到边肇祺教授的《模式识别》也已改为这名-我有1988年版其后2000年版前十章一样-后面加神经网络统计学习基础支持向量机代替后几章,最近版好象以深度学习基础替换)。第3本是Simon
Haykin独著的《神经网络与机器学习》(前一版1994年出的叫《神经网络》就已有768页;关于“神经网络”在这里有一些介绍),它们也是这些领域较基本的,如此我也有它们。
关于谱图学习及相关领域的重要性,其最近出现就已很热的知识图谱就如中国计算机学会安全专委会常委公安部徐云峰处长的“智能时代:用知识图谱来学习和理解世界”说“知识图谱是目前最常用的机器学习方法”“机器学习的实质是从大量数据中学到知识(即深度学习),从与环境的不断交互中学到知识(即强化学习),实现对知识谱图进行构建和自动扩展,很大程度上解决了知识表示与自动获取问题。…其中图的节点代表实体或者概念,图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。语义网络可以看成是一种用于存储知识的数据结构,即基于图的数据结构,其中图可以是有向图,也可以是无向图”。再如在科技日报中国青年报新华网等可见标题为“知识图谱:预见未来的神器”的第一段说“眼下最‘红’的人工智能和大数据,让身边的一切都变得“聪明”起来,Siri会跟你聊天,汽车能实现无人驾驶,机器人也可以问诊看病。而真正让机器能与人类沟通对话的‘幕后英雄’是知识图谱,…”,上面两个领域之名最后一词都是Graph--也即一类广义图论。
最近徐云峰又发表广受关注的一文:“应用超算以及人工智能技术实现网络安全智能化”(见这文附他和王靖亚教授等合写的2013年的《网络安全》一书,其实徐云峰主撰很多书,如2007年的《网络伦理》、2010年的《物理安全》、2014年的《弱点挖掘》、2014年的《访问控制》等等)。
除了上面2个涉及图论的领域外,也可参考这页的相关领域以及新近出版的一些涉及图论书籍所属的领域:1、李建中等的(不确定)图数据挖掘;2、朱文武的图表征学习等;3、Hamilton的图表示学习等;4、异质图表示学习;5、图机器学习;6、图深度学习;7、图神经网络;8、图深度神经网络等等等(仅涉及图论与机器学习、人工智能交互的领域就已如此甚众,而图论还在其他很多领域更…,那这页说的“图论正吞噬世界,其趋势已无法逆转”,而“图论的彻底颠覆一切还如在图数据库”,看来这并非都是“危言耸听”!?!)
也以及参考清华大学张长水教授2007年主持的“图上的机器学习算法及其应用的研究”等,也可参考一些较综述性的谱图理论博士学位论文:如全国优秀博士学位论文提名论文--“基于谱图理论的人脸表情识别算法研究”,大连理工侯海燕教授的“基于知识图谱的科学计量学进展研究”,“基于谱图理论的强化学习研究”,“基于图的半监督学习及其应用研究”,“Web信息网络社区挖掘的关键技术研究”,“图上的传播学习研究及应用”,“谱图理论支持下的高分辨率遥感影像多尺度分割研究”,“图谱理论在齿轮箱故障诊断中的应用研究”,等等。
附:关于谱图学习,刚见到2016年机器学习国际会议网站-它一共有4个大会邀请演讲,而下面在网上所搜见的“耶鲁大学教授讲授图像识别算法”和“耶鲁大学博士演讲:拉普拉斯矩阵图像的算法和应用”,它俩其实演讲的题目都是“Laplacian
Matrices of Graphs: Algorithms and Applications图的拉普拉斯矩阵学习:算法和应用”,即这就是2016年机器学习国际会议4个大会邀请演讲之一,演讲者是信息科学诺贝尔奖奈望林纳奖得主Daniel Spielman(其实,2016年机器学习国际会议4个大会邀请演讲中还有一个演讲题目是“Mining Large Graphs: Patterns, Anomalies,
and Fraud Detection”并看这“Mining
Large Graphs”全文见它讲的也同样是完全就是图论)。这会议是“机器学习”最重要的会议,而广泛共识是机器学习是人工智能的核心,那这年人工智能的一半核心就是图论(还如Daniel
Spielman的博士Kelner的博士Madry建立值得信赖的人工智能--Madry的博士论文是“From Graphs to
Matrices, and Back: New Techniques for Graph Algorithms从图论到矩阵,再回到:图论算法的新技术”-正是图论的;还可见图论神经网络也许是人工智能的未来)
这页就主要简述图谱论(上面是这领域的其中的图的拉普拉斯谱论),它也算是图论的一个领域,而下面见信息科学的全部诺贝尔奖得主全都做图论,其与信息科学和计算机的关系也可见这里。关于谱图论的作用在被认为是将统治世界的当今最疯狂、全球最火热的人工智能的核心学科看到第1个是谱图学习领域,谱图论的作用也如加拿大几年就投入百亿元的海底观测网的节点大多就铺设超过千米的深海底--而应用谱图论的电力和通信系统可靠性是海网的核心工程,海网也已是国务院制定的今后20年中国第一科技基础设施,而我国只有“南中国海”的深度常达
谱图论的重要作用也可参考信息科学的桂冠--内万林纳奖的第八个内万林纳(Nevanlinna)奖获得者美国国家科学院院士上面开头在ICML做报告的耶鲁大学Daniel Spielman教授的2004年写并其后多次修改《谱图理论及其应用》及参考Fan
Chung院士的《复图和网络》等。注:第一个获得最高奖的化学大师都旗帜鲜明地摇旗呐喊:21世纪是信息科学起火车头作用带动所有科学的世纪,而这信息科学奖每4年才颁发给1人,足见堪比诺贝尔奖之珍贵。这Daniel Spielman的图论博士Jonathan A. Kelner的2011年刚毕业的上面已说的图论博士Aleksander Madry刚在去年国际数学家大会做45分钟邀请报告-毕业才几年啊(这Aleksander Madry的另一导师的做Disjoint Paths(最长的是哈密顿路)博士Jon
Kleinberg在比上面Daniel Spielman更早的第七届获得称为数学界诺贝尔奖的这Nevanlinna奖-并他和这里第1段说同是美国三院院士的合写《算法设计》)。此外,Spielman还获得50万美元天才奖等--他的上面提过的图论博士Kelner也做得很不错-其哈佛本科毕业时是1600人中2个获得未来最杰出科学家奖的,这领域也可参考金院士撰写的《谱图论》以及新近发展的图神经网络学习。