作者: | Kevin Sitto and Marshall Presser |
语言: | 英文 |
出版年份: | 2015 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Field Guide to Hadoop》是由Kevin Sitto和Marshall Presser合著的一本关于Hadoop及其生态系统的技术指南,于2015年由O'Reilly Media出版。本书旨在为那些即将进入大数据领域的企业和个人提供一个简洁、实用的Hadoop入门指南,帮助读者快速了解Hadoop的核心技术、相关工具及其应用场景。
本书共分为八个章节,详细介绍了Hadoop的核心技术、数据库与数据管理、序列化、管理和监控、数据分析辅助工具、数据传输、安全与审计以及云计算和虚拟化等关键领域。
介绍了Hadoop的核心组件,包括Hadoop分布式文件系统(HDFS)、MapReduce、YARN和Spark。这些技术构成了Hadoop处理大数据的基础。
探讨了多种与Hadoop集成的数据库技术,如Cassandra、HBase、MongoDB和Hive,以及它们在大数据管理中的应用。
讨论了数据序列化的重要性,并介绍了Avro、JSON、Protocol Buffers和Parquet等序列化工具,这些工具帮助优化数据存储和传输效率。
介绍了Ambari、Puppet、Chef、Zookeeper和Oozie等工具,这些工具用于管理和监控Hadoop集群的运行状态。
涵盖了Pig、Mahout、MLLib等数据分析工具,这些工具简化了数据分析流程,提供了丰富的机器学习算法支持。
讨论了Sqoop、Flume、DistCp和Storm等工具,这些工具用于在Hadoop集群内外传输数据。
介绍了Sentry、Kerberos和Knox等安全工具,这些工具用于保护Hadoop集群中的数据安全。
探讨了Serengeti、Docker和Whirr等技术,这些技术帮助在云计算和虚拟化环境中部署和管理Hadoop集群。
本书适合以下人群:
总之,《Field Guide to Hadoop》是一本适合大数据领域从业者的实用指南,能够帮助读者快速掌握Hadoop的核心技术及其应用。