这也简概机器学习:其最权威经典的教材至今仍首推这页倒数第3段1988年召开“归纳逻辑与人工智能”论文集共28章的各章参考文献多次说到以前只有2个机器学习书籍的作者-即海南琼州大学师祖叔Tom
Mitchell 其后在90年代独撰出版的《机器学习》共13章-我以前应该读完它(Tom Mitchell也是这里倒数第3段说的我国最先2本机器学习书籍:1988年的《机器学习及其应用》和1992年的《机器学习》的作者徐立本的导师并徐的这2本书都说以前国际上只有他这导师的2本机器学习书籍,即在写这世界名著之前Tom
Mitchell已和Jaime
Carbonell及Ryszard Michalski合作主编在1986年也主编《机器学习》和卷二共2书。最近2004年也出版其中主编Ryszard Michalski的《机器学习与数据挖掘》译本)。其实在这之前1993年石教授欢迎我去清华大学搞人工智能-如此我也读许多人工智能书并当然也涉及机器学习等,而应更多更深入掌握机器学习是因作为人工智能核心的机器学习,它是使计算机具有智能的根本途径,具体些说机器学习之研究动机是为了让计算机系统具有人的学习能力以便实现人工智能。因而其应用遍及人工智能的各个领域,也与模式识别、数据挖掘有诸多交叉,它主要使用归纳、综合而不是演绎(当然这里我们琼州大学在集成电路商用民用化之初被清华大学邀请参与的集成电路芯片也是推动人工智能技术发展的主要源头)。众所周知,机器学习及人工智能与图论的关系广泛而密切,可看这个网页及许多著名博士学位论文等等,下面也分别列出我们图论学科涉及的较受关注的一些领域,就如最近2007年担任广东省政协常委在其后的同年11月19日来信评说我们海南琼州大学“得到重要成果,达到国际领先水平”的我们海南琼大林越教授的硕士生导师图论组合数学专家樊教授就也主要做机器学习)。
机器学习目前已发展成一个广袤的有些神化的学科领域,使人工智能成为当今全球最火热的领域-并最近更被中国发挥到疯狂之极。下面介绍它的其中较流行的约30个重要领域(如深度学习、博弈学习、强化学习、在线学习、统计学习、迁移学习等等,难怪AAAI之众就如某院士说已经不可能有人对它的很多领域都精通,可参考维基网(如仅强化学习在90年就已形成一个很大的领域并已开始出版一些有影响的书),还如我还看到中国计算机学会人工智能与模式识别专业委员会一个副主任(一直在高校工作)但至今的论文仅几十篇而且全是下面其中一个领域的,甚为感慨也有些感想!比如最近火热的深度学习,我在下面就列出一些专门的研究院,而这副主任还不是做深度学习的,可见更不可能精通下面所有领域或方向)。虽然现在已涌现出如此众多的机器学习的新分支,但上面海南琼大师爷叔Tom Mitchell 的经典教材至今仍有研读的必要:
我们先来看机器学习在计算机科学占什么样的地位。最近有一本还没有出版的书Foundation of Data Science,是图灵奖得主John Hopcroft和Ravindran Kannan等撰写的,和他俩的这里最后段这本差不多,或可说是其延伸。在这本书前沿部分,提到了计算机科学的发展可以分为三个阶段:早期、中期和当今。早期就是让计算机可以运行起来,其重点在于开发程序语言、编译原理、操作系统,以及研究支撑它们的数学理论。中期是让计算机变得有用,变得高效。重点在于研究算法和数据结构。第三个阶段是让计算机更智能化和更广泛的应用,发展重点是基于离散数学特别是图论。我们看到,第三阶段实际上就是机器学习所关心的:
1、谱图学习。周志华教授最近出版的很受热捧的《机器学习》一书说“聚类也许是机器学习中‘新算法’出现最多、最快的领域”,“聚类技术本身在现实任务中非常重要,因此,本章勉强采用了‘列举式’的叙述方式,相较于其他各章给出了更多的算法描述”,可参考中国科学E见之官网
2、半监督学习特别是图论半监督学习:给定一个数据集,我们可以映射为一个图,数据集中每个样本对应于图G的一个结点v,若两个样本之间相似度很高(或相关性很强)则对应的结点之间有一条边e,边的的“强度”正比于样本之间的相似度(或相关性),这就对于对图论中的图G(V,E)的研究。看这里可知这是他的博士的获诺贝尔奖的学生世界最多的海南琼州大学师爷叔孕育开创的非常重要的机器学习领域-它在近些年来的国内外权威著作和重要机器学习会议都居于重要位置)
3、流形学习(Manifold Learning)(流形学习已成为机器学习和数据挖掘领域的研究热点。在百度可见“流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,非线性流形学习算法包括等距映射(Isomap),拉普拉斯特征映射(Laplacian eigenmaps,LE),局部线性嵌入(Locally-linear
embedding,LLE) 等。而线性方法则是对非线性方法的线性扩展”)。所以,这里只说“非线性流形学习算法”-它包括LE(Laplacian eigenmaps即拉普拉斯特征映射),其基本思想是,用一个无向有权图描述一个流形,然后通过用图的嵌入(graph
embedding)来找低维表示。简单来说,就是在保持图的局部邻接关系的情况下,将其图从高维空间中重新画在一个低维空间中(graph drawing)。“基于谱图理论的流形学习算法”,“等谱流形学习算法”等等,附一个小综述,一个博客。在百度“流形学习”的第2篇参考文献-Mikhail Belkin和Partha Niyogi,的Laplacian Eigenmaps
and Spectral Techniques for Embedding and Clustering有5篇参考文献-并2篇是图论专家Fan Chung Graham--正如这里说他俩的另一篇论文也是引用Fan
Chung Graham的文章最多,在人工智能青年专家龚文引的科学网介绍的几十个人工智能牛人中就有Mikhail Belkin和Partha Niyogi这2个人,
4、贝叶斯网络机器学习-一类图论概率模型学习(由图灵奖得主Judea Pearl发明创造,统计机器学习高引者: Eric Xing(邢波)教授的导师-美国三院院士加大伯克利分校统计人工智能实验室主任Michael I. Jordan也是贝叶斯学习主要奠基人(毕业于哈佛大学的图论专家并获得计算机诺贝尔奖的Richard
Karp也是邢波的导师),它是图论概率模型的一类主要分支-是由影响图论没有决策变量演化而来,斯坦福的Daphne Koller最近出本很好的书、做概率图模型的邢波刚获1500万美元
美元风险投资,附贝叶斯网络学习的小综述及一个综述性博士论文)
5、马尔可夫随机场-一类概率图论模型;(可参考斯坦福大学Daphne
Koller和Nir Friedman最近出版的《概率图模型原理与技术》,还可参考David Bellot,Luis Enrique Sucar,Ankur Ankan和 Abinash Panda,Christine Sinoquet和Raphaël Mourad,Kiran R
Karkera等这5本概率图模型专著);
6、条件随机场(Conditional
random field)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型(John Lafferty、Andrew McCallum和2001年的提出条件随机场的论文); 条件随机场入门(一) 概率无向图模型;条件随机场(二)
(Conditional random field,CRF图模型);
上面这些主要是统计学习的领域(由Vladimir
Vapnik等提出,著名的统计学习专家有Nancy Reid 等,郁彬是华人中做得较好的一个。当然上面提到的Michael I. Jordan也是主要的统计机器学习的奠基者和推动者,做出突出贡献的统计学习也是被高引论文的专家Larry
Wasserman,James O Berger,范剑青的导师 David L Donoho,Robert Tibshirani和Trevor
Hastie(2T合写了统计学习基础等5本书在Trevor
Hastie的网页可下载,后者和前者的导师高引研究着Bradley
Efron大师合撰的一本也可下载,Jerome Friedman院士、S语言的创立者及S语言派生的分支R语言的核心成员John Chambers也是合撰者或参与者,这样的大学也已不在乎出售了),他们的一些公开课
7、遗传算法(Genetic Algorithms)(近些年来,遗传算法(Genetic
Algorithm)变成人工智能领域的最重要分支之一,也如国际人工智能学会主席海南琼大的祖叔Tom
Mitchell的经典《机器学习》第9章是遗传算法,而遗传算法之父就是和我们海南琼州大学合作的导师,这里是中国9本数学研究生用书之一的遗传算法一书的简述)
8、神经网络最近很火的图论神经网络(神经网络已是一个相当大的多学科交叉的学科领域。这里指的是机器学习与神经网络这两个学科交叉的部分-即神经网络学习)
9、强化学习(Reinforcement learning,RL),就象这里最后说:机器学习算法大致可以分为三种:1. 监督学习,2.非监督学习,3. 强化学习,而强化学习可表示为一个有向图;和海南琼州大学合作的师弟徒孙是强化学习之父、权威。
它的下面三者是近二十年来很活跃的分支:
10、最近很火的深度学习(深度学习主要是上面神经网络的升级版,其算法会搭建规模更大、结构更复杂的神经网络。这种问题的数据一般量极大,而且只有很少部分带有标签,因此很多深度学习方法都涉及下面的半监督学习问题。深度学习的概念由现任Google副总裁级工程师的Geoffrey
Hinton等人于2006年提出,附几个综述1、百度的综述2、综述3等)。刚见清华大学计算机系主任朱文武教授等人综述了基于图论的深度学习方法(这仅是基于一篇尚为正式发表的对122篇论文的综述-也有腾讯等转载)
11、压缩感知(这里第5个给我们海南琼州大学的杂志来信表示支持的诺贝尔奖获得者创造的压缩感知直接催生了人脸认识别的鲁棒主成分分析,除了相关的模式识别、图像处理、医学成像,当然它还应用于其它的很多领域)
13、回归学习(附一个小综述)
14、K-Means(附一个小综述,K-means算法是硬聚类算法,图论聚类法也是其中较流行较被认可的)
15、决策树学习(附一个小综述。常用的决策树算法有分类和回归树、ID3 算法、C4.5 算法等)
16、Bagging(集成学习的主要代表之一)
17、Random Forest(随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。是Bagging的一个扩展变体。该分类器最早由Leo Breiman和Adele
Cutler提出,,附一个博士论文)
18、PAC学习(概率近似正确学习由哈佛大学诺贝尔获得者Leslie Valiant在1984年提出。由产生了计算学习理论这个机器学习的分支领域。他等提出的VC dimension也使研究无限维假设空间的复杂度成为可能。有限维假设空间)
19、Apriori算法(可看这篇简述文章)
20、增强学习之Q-learning,QL, 附一个小综述;
21、稀疏表示(稀疏分解算法首先是由Mallat提出的,也就是匹配追踪算法(Matching Pursuit,MP)算法,附一个小综述)
22、EM算法(最大期望算法由John Tukey的学生Arthur Dempster以及Nan Laird和Donald Rubin提出,附一个小综述)
23、ART网络(竟争型学习)
24、SOM网络(自组织映射网络)
25、SVM方法(支持向量机由Vladimir
Vapnik等提出,SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。附一个小综述)
26、BP学习(多层网络的误差反传back propagation学习算法是由David Rumelhart和James McClelland 提出。多层网络学习能力比单层感知机强得多。感知机由输入和输出两层神经元组成,附一个综述)
27、RBM学习(受限玻尔兹曼机Geoffrey Hinton提出,学深度学习之前一个职院综述)、
28、CNN学习(现任Facebook人工智能实验室主任Lecun等人提出做为深度学习核心的卷积神经网络学习-他说DL的局限是缺乏理论支持、缺乏推理能力、缺乏短时记忆能力、缺乏执行无监督学习的能力,附一个综述)
30、LASSO方法(由Robert
Tibshirani提出)
31、字典学习(附一个小综述)
31、AdaBoost(boosting算法由 Robert Schapire和Yoav Freund,提出,Adaboost算法是经过调整的Boosting算法,其能够对弱学习得到的弱分类器的错误进行适应性调整,附一个小综述)
32、迁移学习(这里最后段的迁移学习领域开拓者杨强有一个形象比喻“将骑自行车的经验应用在骑摩托车上,就是迁移学习”他们并利用“迁移学习”技术,将大数据训练出的对话模型迁移到具体行业的小数据领域,实现精准的“人机对话”。“第四范式”创始人戴文渊在百度负责名为“凤巢”的广告营销系统期间,利用“迁移学习”将百度搜索算法应用到问答社区“百度知道”,使后者点击率提升4成)、
33、线性学习(线性判别分析)、多分类学习、度量学习、进化算法(遗传算法(Genetic Algorithms)、遗传规划(Genetic Programming)、进化策略(Evolution Strategies)和进化规划(Evolution Programming)四种典型方法。仿生进化算法之蚁群算法及华工郝志峰副校长等的论文)等等。优化算法专家Stephen P. Boyd。
上面从类似的形式或功能角度分类的很多学习可被用于从学习方式分类的监督学习(指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。从标记标签的训练数据来推断一个功能的机器学习任务。常用于解决的问题有分类和回归。常用的算法包括逻辑回归和BP神经网络)或无监督学习(其中图无监督学习特别是图自监督学习以及图神经网络无监督学习已很受重视。其设计分类器时候,用于处理未被分类标记标签的样本集。常用于解决的问题有聚类、降维和关联规则的学习。常用的算法包括 Apriori 算法和 K 均值算法)或半监督学习(半监督学习的输入数据包含带标签和不带标签的样本。半监督学习的情形是,有一个预期中的预测,但模型必须通过学习结构整理数据从而做出预测。常用于解决的问题是分类和回归。常用的算法是所有对无标签数据建模进行预测的算法的延伸)
当然,没有严格的区分或划分,它们很多都是交叉重叠的,当然也还有按相对着来命名的如包含支持向量机的统计学习是相对于归纳学习等其它机器学习方法来说的,
根据方法思想等的类似关系,上面大部分方向可以明确划分为机械式学习、指导式学习、归纳学习、类比学习、解释学习等
我国人工智能主要开拓者陆汝钤院士最近在清华出版的《机器学习》序言抛出六个问题,问题一是符号学习已很长时间来都被统计学习“打压”,他问今后会否出现“30年河东,30年河西”现象,还是啥样的情况?问题二是他同意王珏教授的看法,统计学习不会一路顺风,因统计学习是基于样本数据独立同分布的假设,而“哪有那么多独立同分布”,所以,同分布和异分布之间的迁移学习迟早会出现;问题三是近来出现深度学习等势头很猛,但它们真的代表了机器学习的新方向吗?他和这书的作者等认为“深度学习掀起的热潮也许大过它本身的真正的贡献“,他们的看法很有意思。也许深度学习的应用范围是还有限,但它本身的真正的贡献应是多少?是否尚需要更多认识,但微软、谷歌等等相关国外著名机构和下面国内的百度等都设立专门的深度学习研究院,而
图论在人工智能应用的一些论文:刚见从康大毕业的李开复说他母校的机器学习大神;图谱论大师Cvetković的Man-machine theorem proving in graph theory,这里世界计算机第一名师Blum的儿子的论文Fast planning through planning graph analysis,Blum的师兄Slagle 的2篇An admissible and optimal algorithm
for searching AND/OR graphs和 Using
rewriting rules for connection graphs to prove theorems ,以及Geng的Fast planning through planning graph analysisO和A recursive method for structural
learning of directed acyclic graphs.等等,
再附斯坦福大学吴恩达(Andrew Ng)教授的公开课:机器学习课程、加州理工学院Yaser Abu-Mostafa教授的公开课:机器学习与数据挖掘等等;百度深度学习研究院,蓝凌深度学习研究院,平安科技深度学习研究院等等;微软亚洲研究院博客,李航的一些文章等;可参考Stanford等的网络公开课《机器学习》、《概率图模型》以及《人工智能》等,Trevor Hastie,Robert Tibshirani和Jerome Friedman的著作,刚见由2个数学硕博士和19岁就已是20万年薪的合创fast.ai。
可看前序性的人工智能网页、一些世界权威著作。