作者: | Sinan Ozdemir |
语言: | 英文 |
出版年份: | 2023 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Feature Engineering Bookcamp》是一本由Sinan Ozdemir撰写的关于特征工程的实用指南,旨在帮助机器学习工程师和数据科学家提升其在特征工程方面的技能。本书通过丰富的案例研究和实践操作,深入探讨了特征工程在不同数据类型和应用场景中的应用,强调了特征工程在机器学习流程中的重要性。
Sinan Ozdemir是一位在数据科学和机器学习领域有着丰富经验的专家,曾在约翰霍普金斯大学教授数据科学,并创立了多家专注于人工智能的企业。本书的目标读者是已经具备机器学习基础知识的工程师和数据科学家,他们希望通过提升特征工程能力来优化模型性能。
特征工程是机器学习流程中至关重要的一环,它涉及对数据的预处理、转换和优化,以提高模型的性能和泛化能力。本书指出,尽管模型选择和参数调优是机器学习中的重要环节,但特征工程同样关键,甚至在某些情况下,良好的特征工程可以弥补模型的不足。
本书分为九章,每章围绕一个特定的案例研究展开,涵盖了从基础特征工程技术到高级应用的广泛内容。
介绍了特征工程的基本概念、在机器学习流程中的位置以及如何评估特征工程的效果。强调了数据类型(结构化与非结构化)和数据层次(名义、序数、区间、比率)对特征工程方法的影响。
深入探讨了数据类型、特征工程的五种类型(特征改进、构造、选择、提取、学习)以及如何评估特征工程的效果。通过介绍不同类型数据的特征工程方法,为后续章节的案例研究奠定了基础。
以COVID-19诊断数据集为例,展示了如何通过特征改进、构造和选择来提升模型性能。详细介绍了缺失值处理、数值特征转换和分类特征处理等技术。
使用COMPAS数据集探讨了如何在模型中识别和减轻偏见。介绍了多种公平性定义(如统计平等、平等化机会)以及如何通过特征工程技术(如Yeo-Johnson变换和公平表示学习)减少模型偏见。
以推特情感数据集为例,介绍了文本向量化技术,包括词袋模型、TF-IDF向量化、奇异值分解(SVD)和自动编码器等。还探讨了如何利用BERT等预训练模型进行特征学习。
使用CIFAR-10数据集,展示了如何将图像像素值作为特征,以及如何通过直方图定向梯度(HOG)和VGG-11模型进行特征提取和学习。重点介绍了如何通过微调VGG-11模型来提升图像识别性能。
以TWLO股票价格数据集为例,探讨了如何构建时间序列特征,包括日期/时间特征、滞后特征、滚动窗口特征和扩展窗口特征。还介绍了如何通过特征选择和提取技术来优化模型性能。
介绍了特征存储的概念及其在MLOps中的重要性。通过Hopsworks平台,展示了如何创建特征存储、管理特征组以及创建训练数据集。
回顾了特征工程的整个流程,总结了五种特征工程类型的应用,并讨论了特征工程的常见问题和其他应用。
《Feature Engineering Bookcamp》通过实际案例和代码示例,详细展示了特征工程在不同领域的应用。书中不仅涵盖了基础的特征工程技术,还介绍了如何利用深度学习和预训练模型进行特征学习。此外,本书还强调了特征工程在提升模型性能、减少偏见和提高模型可解释性方面的重要性。对于希望在机器学习项目中提升特征工程能力的读者来说,这本书是一本极具价值的参考书。