《统计学习方法(第2版)》是李航著的一本经典机器学习教材,由清华大学出版社于2019年5月出版。本书全面系统地介绍了统计学习的主要方法,涵盖了监督学习和无监督学习两大领域,是机器学习及相关课程的重要教学参考书。
监督学习部分
- 统计学习及监督学习概论:介绍了统计学习的基本概念、分类、方法三要素(模型、策略、算法)、模型评估与选择、正则化与交叉验证、泛化能力等内容。
- 感知机:作为一种基本的线性分类模型,感知机通过迭代算法寻找一个能够正确分类训练数据的分离超平面。
- k近邻法:这是一种基本的分类与回归方法,通过计算待分类样本与训练集中每个样本的距离,选择距离最近的k个样本进行投票或平均。
- 朴素贝叶斯法:基于贝叶斯定理与特征条件独立假设的分类方法,适用于文本分类等场景。
- 决策树:一种基本的分类与回归方法,通过递归地划分特征空间,构建一棵树形结构的模型。
- 逻辑斯谛回归与最大熵模型:逻辑斯谛回归是一种用于二分类问题的线性模型,最大熵模型则是一种基于最大熵原理的分类方法。
- 支持向量机:一种基于结构风险最小化原理的分类与回归方法,通过寻找一个能够最大化分类间隔的超平面。
- 提升方法:通过迭代地训练多个弱分类器,并将其组合成一个强分类器的方法。
- EM算法及其推广:一种用于含有隐变量的概率模型参数估计的迭代算法。
- 隐马尔可夫模型:一种用于标注问题的概率模型,广泛应用于语音识别和自然语言处理等领域。
- 条件随机场:一种用于标注问题的判别式随机模型,能够有效地利用上下文信息。
无监督学习部分
- 无监督学习概论:介绍了无监督学习的基本概念、方法和应用场景。
- 聚类方法:包括k均值聚类、层次聚类等,通过将数据划分为若干个簇,使得簇内数据相似度高,簇间数据相似度低。
- 奇异值分解:一种矩阵分解方法,广泛应用于数据降维、信息检索等领域。
- 主成分分析:一种线性降维方法,通过投影将高维数据映射到低维空间。
- 潜在语义分析:一种基于奇异值分解的文本挖掘方法,用于发现文档与词语之间的潜在语义关系。
- 概率潜在语义分析:一种基于概率模型的文本挖掘方法,能够更好地处理语义模糊性。
- 马尔可夫链蒙特卡罗法:一种用于生成随机样本的算法,广泛应用于贝叶斯统计等领域。
- 潜在狄利克雷分配:一种用于文档主题建模的概率模型,广泛应用于文本挖掘和信息检索。
- PageRank算法:一种用于网页排序的算法,通过模拟随机冲浪者的行为,计算网页的重要性。
附录部分
- 梯度下降法:一种用于优化问题的迭代算法,广泛应用于机器学习和深度学习。
- 牛顿法和拟牛顿法:用于优化问题的二阶优化算法。
- 拉格朗日对偶性:一种用于优化问题的理论框架,广泛应用于支持向量机等模型。
- 矩阵的基本子空间:介绍了矩阵的列空间、行空间、零空间等基本概念。
- KL散度的定义和狄利克雷分布的性质:KL散度用于衡量两个概率分布之间的差异,狄利克雷分布则是一种用于表示多项式分布的先验分布。
《统计学习方法(第2版)》不仅涵盖了统计学习的主要方法,还提供了丰富的理论推导和实例分析,适合高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,以及计算机应用等专业的研发人员参考。