| 作者: | Matthew A. Russell and Mikhail Klassen |
| 语言: | 英文 |
| 出版年份: | 2018 |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Mining the Social Web》第三版是一本全面实用的社交媒体数据挖掘实战指南,由Matthew A. Russell和Mikhail Klassen编写,2018年12月由O'Reilly Media出版。本书专注于从Facebook、Twitter、LinkedIn、Instagram、GitHub等主流社交平台中提取、分析和挖掘有价值的数据,展示了如何利用Python和数据科学技术从海量社交媒体数据中获取洞察。作为社交媒体分析的权威实践指南,本书不仅适合数据科学家和分析师,也适合开发者、研究人员和任何对社交媒体数据挖掘感兴趣的技术爱好者。
本书分为三个主要部分,共9个章节和3个附录,系统性地介绍了社交媒体数据挖掘的各个方面。
第一部分:社交媒体导览(第1-8章)。第1章"挖掘Twitter:探索热门话题、发现人们在谈论什么"详细讲解Twitter API连接、热门话题分析、推文搜索、实体提取、词频分析、词汇多样性计算、转发模式分析、数据可视化等核心技能,通过实际代码示例展示了如何从Twitter数据中获得有价值的洞察,占文本内容的10%。第2章"挖掘Facebook:分析粉丝页面、检查好友关系"深入探讨Graph API、Open Graph协议、社交图谱连接分析、Facebook页面分析,并使用pandas进行数据操作,展示了如何分析社交网络结构和用户行为模式。
第3-5章:多媒体与专业社交平台分析。第3章"挖掘Instagram:计算机视觉、神经网络、物体识别和面部检测"是本书的技术亮点章节,将社交媒体分析与人工智能技术结合,讲解Instagram API、神经网络基础、手写数字识别、预训练神经网络物体识别、图像内容标记、面部检测等前沿技术,占文本内容的12%。第4章"挖掘LinkedIn:分面职位标题、聚类同事"介绍LinkedIn API、数据聚类技术、数据标准化、相似性度量、聚类算法(K-means、层次聚类),展示了如何分析职业社交网络中的专业关系和职业模式。第5章"挖掘文本文件:计算文档相似性、提取搭配词"深入讲解TF-IDF算法、术语频率、逆文档频率、自然语言处理工具包、文档相似性查找、双连词分析等文本分析技术。
第6-8章:扩展数据源与高级分析。第6章"挖掘网页:使用自然语言处理理解人类语言、总结博客文章"涵盖网页抓取、解析和爬取、广度优先搜索、自然语言处理、句子检测、文档摘要、以实体为中心的分析等高级主题。第7章"挖掘邮箱:分析谁在和谁谈论什么、频率如何"讲解Unix邮箱格式、安然数据集处理、日期时间范围查询、发件人/收件人通信模式分析、关键词搜索、Gmail OAuth访问等邮箱数据分析技术。第8章"挖掘GitHub:检查软件协作习惯、构建兴趣图谱"介绍GitHub API、属性图建模、兴趣图谱分析、图中心性度量、"关注"边扩展、节点枢轴查询、兴趣图谱可视化等社交编程平台分析技术,占文本内容的10%。
第二部分:Twitter食谱(第9章)。第9章"Twitter食谱"提供了28个实用的Twitter数据挖掘"食谱",包括OAuth认证、热门话题发现、推文搜索、JSON数据保存、流式API采样、时间序列数据收集、推文实体提取、最受欢迎推文查找、用户关系图爬取、链接目标摘要等具体操作指南,这是本书的实践精华部分。
第三部分:附录。附录A介绍了本书的虚拟机器体验,附录B提供了OAuth入门指南,附录C分享了Python和Jupyter Notebook的技巧和窍门。本书的一个显著特点是它提供了完整的Docker虚拟机器环境,包含了所有必要的软件依赖和Jupyter Notebook,读者可以立即开始实践所有代码示例。
本书采用"边做边学"的教学方法,每个章节都配有完整的代码示例,读者可以直接在Jupyter Notebook中运行和修改。书中特别强调了数据科学工作流的完整性:从API访问、数据获取、数据清洗、分析处理到可视化呈现的全过程。
学习路径建议:对于社交媒体分析初学者,建议按照章节顺序系统学习,特别关注第1-2章的基础API操作和数据分析方法。有Python基础但无社交媒体经验的读者可以直接从第3章开始,学习更高级的多媒体分析技术。数据科学专业人员应重点学习第5-6章的自然语言处理和文本分析技术。
实践环境设置:本书强烈建议使用提供的Docker虚拟机器环境,这包含了所有必要的Python库、Jupyter Notebook和示例代码。安装Docker后,只需几个命令即可启动完整的学习环境。如果选择本地安装,需要安装Python 3.x、Jupyter Notebook以及书中列出的所有依赖库(tweepy、facebook-sdk、instagram-api、python-linkedin、nltk、scikit-learn、networkx等)。
API访问准备:要实践本书的示例,需要注册相应的开发者账户并获取API密钥:Twitter开发者账户、Facebook应用、Instagram开发者账户、LinkedIn应用、GitHub个人访问令牌等。建议先从免费API层级开始,了解各平台的API限制和配额管理。
伦理和法律考虑:本书在第1章和多个章节中强调了数据挖掘的伦理和法律问题,包括用户隐私保护、数据使用条款遵守、API使用规范等。在实际应用中,必须严格遵守各平台的服务条款,尊重用户隐私,仅使用公开可用的数据,并考虑数据匿名化处理。
技术更新注意:本书第三版基于2018年的技术状态编写。社交媒体平台的API和政策经常变化,实际使用时需要参考各平台最新的开发者文档。Python库也可能有版本更新,建议使用虚拟环境管理依赖,并注意库版本的兼容性。书中的核心概念和分析方法具有长期价值,但具体API调用可能需要根据最新规范进行调整。