| 作者: | Max Kuhn and Julia Silge |
| 语言: | 英文 |
| 出版年份: | 2022 |
| 编程语言: | R |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
这本书不是讲某一种机器学习算法的理论教材,也不是零散介绍 R 建模包的速查手册,而是围绕 tidymodels 生态,讲清楚如何在 tidyverse 风格下建立一套一致、可复用、可评估的建模工作流。作者一方面教你“怎么用包”,另一方面反复强调建模方法论,重点是减少常见误区,让统计建模与机器学习流程更规范。
全书的推进路径很清楚:先解释什么叫“好的建模软件”以及 tidyverse/tidymodels 的设计思路,再用房价数据集带读者完成从数据预处理、模型定义、工作流组织到性能评估的基础闭环,随后进入重采样、调参和工作流比较,最后讨论更进阶的特征工程、模型解释与预测可信度问题。它强调的不是单个模型多强,而是整个建模流程如何保持整洁、统一和可验证。
第一章~第三章主要交代建模软件的评价标准、tidyverse 语法基础,以及传统 base R 建模接口的局限,相当于先把“为什么需要 tidymodels”讲明白。
第四章~第九章进入核心入门部分,围绕示例数据展示 recipes、parsnip、workflows、yardstick 等关键包如何协同工作,帮助读者搭起完整的建模基本功。
第十章~第十五章把重点转向更可靠的模型开发流程,包括性能估计、重采样、超参数调优以及 workflow sets 之类的组织方式,适合已经会建模、但希望流程更稳健的人。
第十六章~第二十一章讨论高级特征工程与解释性主题,例如降维、高基数特征编码、理解模型为何给出某种预测,以及在什么条件下可以信任模型输出。
适合已经会一些 R 数据处理、对 dplyr、ggplot2 和管道操作有基本了解,并希望把统计建模或机器学习流程工程化的人。它也适合数据分析师、商业分析师和入门数据科学从业者。不太适合把它当作数学推导教材来读;书中默认读者具备基础统计知识,如抽样、方差、相关性和线性回归。
如果你想学的不是“某个模型函数怎么调用”,而是如何在 R 里用统一语法把预处理、建模、评估和调参串成稳定流程,这本书很有价值。它尤其适合作为从零散 R 建模习惯过渡到 tidymodels 体系的实践指南;对想提高流程一致性、可维护性与结果可信度的读者,投入时间是值得的。