Text Mining with R

作者：	Julia Silge and David Robinson
语言：	英文
出版年份：	2017
编程语言：	R
下载链接：	PDF 城通网盘 EPUB 城通网盘 AZW3 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Text Mining with R: A Tidy Approach》是由Julia Silge和David Robinson合著的一本专注于使用R语言进行文本挖掘的实用指南。本书以“整洁数据”（tidy data）原则为基础，为读者提供了一套系统且高效的方法来处理和分析文本数据。

书籍结构与内容

全书共分为九章，内容涵盖了从基础的文本处理到高级的文本挖掘技术，旨在帮助读者逐步掌握如何将文本数据转化为有价值的见解。

介绍了整洁文本格式的概念，即每行一个单词（token），并展示了如何使用tidytext包中的unnest_tokens()函数将文本转换为这种格式。通过将文本转换为数据框的形式，读者可以方便地使用R中的dplyr、tidyr等工具进行数据操作。

探讨了如何使用情感词典（如AFINN、Bing和NRC）对文本进行情感分析。通过将文本中的单词与情感词典中的单词进行匹配，可以量化文本的情感倾向，从而分析文本的情感色彩。

介绍了如何使用词频（tf）和逆文档频率（idf）来衡量单词在文档中的重要性。通过计算tf-idf值，可以识别出对文档内容最具代表性的单词。

讨论了如何通过n-grams（如bigrams和trigrams）和相关性分析来探索文本中单词之间的关系。这些方法有助于理解文本中的语义结构和主题。

讲解了如何在整洁文本格式和其他常见的文本挖掘格式（如文档-词矩阵和语料库对象）之间进行转换。这对于整合不同工具和数据结构至关重要。

深入探讨了主题建模的概念和应用，特别是潜在狄利克雷分配（LDA）算法。通过将文档建模为主题和单词的混合，可以发现文档集合中的潜在主题。

通过分析作者自己的Twitter数据，展示了如何比较不同用户之间的推文习惯，包括词频分析和情感分析。

利用NASA的公开数据集，展示了如何通过文本挖掘技术分析元数据，包括关键词网络、tf-idf分析和主题建模。

以Usenet新闻组的文本数据为例，综合运用了本书介绍的各种文本挖掘技术，包括预处理、词频分析、情感分析和主题建模。

本书适合那些对文本挖掘和自然语言处理感兴趣的R语言用户，尤其是数据科学家、分析师和研究人员。读者应具备一定的R语言基础，熟悉dplyr、ggplot2等常用包，并对文本数据处理有基本的了解。

总之，《Text Mining with R: A Tidy Approach》是一本内容丰富、实用性强的文本挖掘入门书籍，能够帮助读者系统地掌握使用R语言进行文本挖掘的方法和技巧。