作者: | Julia Silge and David Robinson |
语言: | 英文 |
出版年份: | 2017 |
编程语言: | R |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Text Mining with R: A Tidy Approach》是由Julia Silge和David Robinson合著的一本专注于使用R语言进行文本挖掘的实用指南。本书以“整洁数据”(tidy data)原则为基础,为读者提供了一套系统且高效的方法来处理和分析文本数据。
全书共分为九章,内容涵盖了从基础的文本处理到高级的文本挖掘技术,旨在帮助读者逐步掌握如何将文本数据转化为有价值的见解。
介绍了整洁文本格式的概念,即每行一个单词(token),并展示了如何使用tidytext
包中的unnest_tokens()
函数将文本转换为这种格式。通过将文本转换为数据框的形式,读者可以方便地使用R中的dplyr
、tidyr
等工具进行数据操作。
探讨了如何使用情感词典(如AFINN、Bing和NRC)对文本进行情感分析。通过将文本中的单词与情感词典中的单词进行匹配,可以量化文本的情感倾向,从而分析文本的情感色彩。
介绍了如何使用词频(tf)和逆文档频率(idf)来衡量单词在文档中的重要性。通过计算tf-idf值,可以识别出对文档内容最具代表性的单词。
讨论了如何通过n-grams(如bigrams和trigrams)和相关性分析来探索文本中单词之间的关系。这些方法有助于理解文本中的语义结构和主题。
讲解了如何在整洁文本格式和其他常见的文本挖掘格式(如文档-词矩阵和语料库对象)之间进行转换。这对于整合不同工具和数据结构至关重要。
深入探讨了主题建模的概念和应用,特别是潜在狄利克雷分配(LDA)算法。通过将文档建模为主题和单词的混合,可以发现文档集合中的潜在主题。
通过分析作者自己的Twitter数据,展示了如何比较不同用户之间的推文习惯,包括词频分析和情感分析。
利用NASA的公开数据集,展示了如何通过文本挖掘技术分析元数据,包括关键词网络、tf-idf分析和主题建模。
以Usenet新闻组的文本数据为例,综合运用了本书介绍的各种文本挖掘技术,包括预处理、词频分析、情感分析和主题建模。
本书适合那些对文本挖掘和自然语言处理感兴趣的R语言用户,尤其是数据科学家、分析师和研究人员。读者应具备一定的R语言基础,熟悉dplyr
、ggplot2
等常用包,并对文本数据处理有基本的了解。
总之,《Text Mining with R: A Tidy Approach》是一本内容丰富、实用性强的文本挖掘入门书籍,能够帮助读者系统地掌握使用R语言进行文本挖掘的方法和技巧。