作者: | [印度]Deepti Chopra、Nisheeth Joshi、Iti Mathur [译]王威 |
语言: | 中文 |
出版年份: | 2017 |
编程语言: | Python |
其他分类: | 人工智能 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《精通Python自然语言处理》(Mastering Natural Language Processing with Python)是一本由Deepti Chopra、Nisheeth Joshi和Iti Mathur三位印度学者共同撰写的自然语言处理(NLP)领域的专业书籍,由王威翻译,人民邮电出版社出版。本书旨在帮助读者深入学习自然语言处理技术,并通过Python语言实现各种NLP项目,适合对NLP有一定基础的中级开发人员阅读。
全书共分为10章,内容涵盖了自然语言处理的多个核心领域,包括字符串操作、统计语言建模、形态学分析、词性标注、语法解析、语义分析、情感分析、信息检索、语篇分析以及NLP系统的评估等。书中不仅介绍了理论知识,还提供了大量的Python代码示例和实践案例,帮助读者更好地理解和应用所学内容。
本章介绍了文本预处理的基础知识,包括文本的切分、标准化、替换和校正等操作。通过使用NLTK库,读者可以学习如何将文本切分为句子和单词,以及如何去除标点符号、转换大小写和处理停止词等。
本章探讨了如何通过统计方法分析和建模自然语言文本。内容包括计算单词频率、开发最大似然估计(MLE)模型、应用平滑技术以及通过复杂度评估语言模型等。
形态学是研究单词内部结构的学科。本章介绍了词干提取、词形还原、形态分析器和形态生成器的开发,并讨论了如何为非英文语言开发词干提取器。
词性标注是NLP中的一个重要任务,涉及将词性标记分配给句子中的每个单词。本章介绍了如何创建词性标注语料库、选择机器学习算法以及开发基于n-gram的统计模型。
语法解析是分析句子结构的过程。本章介绍了Treebank建设、上下文无关文法(CFG)的提取、CYK算法和Earley算法等。
语义分析是理解文本意义的过程。本章讨论了命名实体识别(NER)、使用WordNet进行词义消歧以及语义相似度计算等技术。
情感分析是判断文本情感倾向的任务。本章介绍了如何使用NER、机器学习方法以及情感词典进行情感分析,并讨论了NER系统的评估指标。
信息检索是NLP的另一重要应用。本章介绍了停止词删除、向量空间模型、隐性语义索引以及文本摘要和问答系统的开发。
语篇分析关注文本的上下文信息。本章介绍了使用中心理论进行语篇分析以及指代消解的方法。
本章讨论了如何评估NLP系统的性能,包括词性标注器、词干提取器和形态分析器的评估方法,以及错误识别、词汇搭配和语义匹配等指标。
本书适合对自然语言处理有一定了解,并希望深入学习和实践的开发人员。读者需要具备Python编程基础,并对机器学习和数据处理有一定的了解。
总之,《精通Python自然语言处理》是一本内容丰富、实践性强的NLP学习指南,能够帮助读者系统掌握自然语言处理的核心技术和应用方法。