NLTK基础教程: 用NTLK和Python库构建机器学习应用

作者：	[印度]Nitin Hardeniya [译]凌杰
语言：	中文
出版年份：	2017
编程语言：	Python
其他分类：	人工智能
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《NLTK基础教程：用NLTK和Python库构建机器学习应用》是一本面向自然语言处理（NLP）和机器学习爱好者的实用指南，由印度作者Nitin Hardeniya撰写，凌杰翻译，于2017年6月由人民邮电出版社出版。本书旨在帮助读者快速掌握如何利用NLTK（Natural Language Toolkit）及其他Python库构建复杂的NLP任务和机器学习应用，适合NLP初学者、Python程序员以及对文本处理感兴趣的读者。

内容概览

全书共分为10章，内容涵盖从NLP基础到高级应用的各个方面。第1章介绍了NLP的基本概念和NLTK库的安装与使用。第2章至第4章深入讲解了文本预处理技术，包括标识化处理、词干提取、词性标注、命名实体识别（NER）和语法解析等。第5章至第10章则侧重于NLP应用的构建，涉及文本分类、数据科学、社交媒体挖掘、大规模文本挖掘以及如何在Hadoop等大数据平台上使用NLTK和机器学习库。

核心内容

NLP基础与预处理：介绍了文本数据的清理、分词、词干提取、词性标注等基本操作，并通过NLTK库展示了如何高效实现这些功能。
文本分类与机器学习：详细讨论了文本分类的常见算法，如朴素贝叶斯、决策树、支持向量机（SVM）等，并结合scikit-learn库展示了如何构建文本分类器。
社交媒体挖掘：探讨了如何使用Python库（如Tweepy和Facebook SDK）从社交媒体平台收集数据，并进行热点话题分析、情感分析和影响力检测等应用。
大规模文本挖掘：介绍了如何在Hadoop等大数据平台上使用NLTK和scikit-learn进行大规模文本处理，包括MapReduce编程、Hive中的用户定义函数（UDF）以及PySpark的使用。

特色与亮点

实践性强：书中提供了大量代码示例和实战项目，帮助读者快速上手并构建自己的NLP应用。
内容全面：涵盖了从基础到高级的NLP技术，适合不同层次的读者学习。
结合机器学习：不仅介绍了NLP技术，还结合了机器学习算法，展示了如何将两者结合解决实际问题。
大数据应用：专门讨论了如何在大数据环境下使用NLTK和机器学习库，具有很强的前瞻性和实用性。

适用读者

本书适合以下几类读者：

NLP和机器学习爱好者：希望快速掌握NLP技术并构建实际应用的初学者。
Python程序员：希望利用Python进行文本处理和机器学习的开发者。
数据科学家：需要处理大规模文本数据并构建数据驱动模型的专业人士。
研究人员：对NLP领域的最新技术和应用感兴趣的研究人员。

通过阅读本书，读者将能够深入了解NLP的核心技术，掌握如何利用Python和NLTK构建机器学习应用，并在实际项目中应用这些知识。本书不仅是学习NLP的入门书籍，也是深入研究自然语言处理和机器学习领域的实用手册。