Mining the Social Web 3rd Edition

作者：	Matthew A. Russell and Mikhail Klassen
语言：	英文
出版年份：	2018
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

书籍简介：Mining the Social Web, 3rd Edition

书籍定位

《Mining the Social Web》第三版是一本全面实用的社交媒体数据挖掘实战指南，由Matthew A. Russell和Mikhail Klassen编写，2018年12月由O'Reilly Media出版。本书专注于从Facebook、Twitter、LinkedIn、Instagram、GitHub等主流社交平台中提取、分析和挖掘有价值的数据，展示了如何利用Python和数据科学技术从海量社交媒体数据中获取洞察。作为社交媒体分析的权威实践指南，本书不仅适合数据科学家和分析师，也适合开发者、研究人员和任何对社交媒体数据挖掘感兴趣的技术爱好者。

核心内容

本书分为三个主要部分，共9个章节和3个附录，系统性地介绍了社交媒体数据挖掘的各个方面。

第一部分：社交媒体导览（第1-8章）。第1章"挖掘Twitter：探索热门话题、发现人们在谈论什么"详细讲解Twitter API连接、热门话题分析、推文搜索、实体提取、词频分析、词汇多样性计算、转发模式分析、数据可视化等核心技能，通过实际代码示例展示了如何从Twitter数据中获得有价值的洞察，占文本内容的10%。第2章"挖掘Facebook：分析粉丝页面、检查好友关系"深入探讨Graph API、Open Graph协议、社交图谱连接分析、Facebook页面分析，并使用pandas进行数据操作，展示了如何分析社交网络结构和用户行为模式。

第3-5章：多媒体与专业社交平台分析。第3章"挖掘Instagram：计算机视觉、神经网络、物体识别和面部检测"是本书的技术亮点章节，将社交媒体分析与人工智能技术结合，讲解Instagram API、神经网络基础、手写数字识别、预训练神经网络物体识别、图像内容标记、面部检测等前沿技术，占文本内容的12%。第4章"挖掘LinkedIn：分面职位标题、聚类同事"介绍LinkedIn API、数据聚类技术、数据标准化、相似性度量、聚类算法（K-means、层次聚类），展示了如何分析职业社交网络中的专业关系和职业模式。第5章"挖掘文本文件：计算文档相似性、提取搭配词"深入讲解TF-IDF算法、术语频率、逆文档频率、自然语言处理工具包、文档相似性查找、双连词分析等文本分析技术。

第6-8章：扩展数据源与高级分析。第6章"挖掘网页：使用自然语言处理理解人类语言、总结博客文章"涵盖网页抓取、解析和爬取、广度优先搜索、自然语言处理、句子检测、文档摘要、以实体为中心的分析等高级主题。第7章"挖掘邮箱：分析谁在和谁谈论什么、频率如何"讲解Unix邮箱格式、安然数据集处理、日期时间范围查询、发件人/收件人通信模式分析、关键词搜索、Gmail OAuth访问等邮箱数据分析技术。第8章"挖掘GitHub：检查软件协作习惯、构建兴趣图谱"介绍GitHub API、属性图建模、兴趣图谱分析、图中心性度量、"关注"边扩展、节点枢轴查询、兴趣图谱可视化等社交编程平台分析技术，占文本内容的10%。

第二部分：Twitter食谱（第9章）。第9章"Twitter食谱"提供了28个实用的Twitter数据挖掘"食谱"，包括OAuth认证、热门话题发现、推文搜索、JSON数据保存、流式API采样、时间序列数据收集、推文实体提取、最受欢迎推文查找、用户关系图爬取、链接目标摘要等具体操作指南，这是本书的实践精华部分。

第三部分：附录。附录A介绍了本书的虚拟机器体验，附录B提供了OAuth入门指南，附录C分享了Python和Jupyter Notebook的技巧和窍门。本书的一个显著特点是它提供了完整的Docker虚拟机器环境，包含了所有必要的软件依赖和Jupyter Notebook，读者可以立即开始实践所有代码示例。

本书采用"边做边学"的教学方法，每个章节都配有完整的代码示例，读者可以直接在Jupyter Notebook中运行和修改。书中特别强调了数据科学工作流的完整性：从API访问、数据获取、数据清洗、分析处理到可视化呈现的全过程。

适用读者

数据科学家和分析师：需要从社交媒体平台提取和分析数据的技术专业人员
社交媒体营销人员：希望深入理解用户行为、趋势分析和内容优化的营销专家
软件开发者：需要集成社交媒体API、构建数据驱动应用的编程人员
学术研究人员：研究社交网络分析、计算社会科学、数字人文的高校师生
商业智能分析师：为企业决策提供社交媒体洞察的商业分析师
创业者和企业家：探索社交媒体数据商业价值的创新者
技术爱好者和学习者：对数据科学、Python编程和社交媒体分析感兴趣的自学者

阅读建议

学习路径建议：对于社交媒体分析初学者，建议按照章节顺序系统学习，特别关注第1-2章的基础API操作和数据分析方法。有Python基础但无社交媒体经验的读者可以直接从第3章开始，学习更高级的多媒体分析技术。数据科学专业人员应重点学习第5-6章的自然语言处理和文本分析技术。

实践环境设置：本书强烈建议使用提供的Docker虚拟机器环境，这包含了所有必要的Python库、Jupyter Notebook和示例代码。安装Docker后，只需几个命令即可启动完整的学习环境。如果选择本地安装，需要安装Python 3.x、Jupyter Notebook以及书中列出的所有依赖库（tweepy、facebook-sdk、instagram-api、python-linkedin、nltk、scikit-learn、networkx等）。

API访问准备：要实践本书的示例，需要注册相应的开发者账户并获取API密钥：Twitter开发者账户、Facebook应用、Instagram开发者账户、LinkedIn应用、GitHub个人访问令牌等。建议先从免费API层级开始，了解各平台的API限制和配额管理。

伦理和法律考虑：本书在第1章和多个章节中强调了数据挖掘的伦理和法律问题，包括用户隐私保护、数据使用条款遵守、API使用规范等。在实际应用中，必须严格遵守各平台的服务条款，尊重用户隐私，仅使用公开可用的数据，并考虑数据匿名化处理。

技术更新注意：本书第三版基于2018年的技术状态编写。社交媒体平台的API和政策经常变化，实际使用时需要参考各平台最新的开发者文档。Python库也可能有版本更新，建议使用虚拟环境管理依赖，并注意库版本的兼容性。书中的核心概念和分析方法具有长期价值，但具体API调用可能需要根据最新规范进行调整。