Azure Storage, Streaming, and Batch Analytic
作者: Richard Nuckolls
语言: 英文
出版年份: 2020
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

随着数据量的爆炸式增长,企业面临着数据收集、存储和处理的巨大挑战。传统的数据库系统已难以满足大规模数据处理的需求,云平台提供的大数据处理服务应运而生。《Azure Storage, Streaming, and Batch Analytic》一书正是基于这样的背景,为数据工程师提供了一本实用的指南,帮助他们在微软Azure云平台上构建和运行数据分析系统。

主要内容

(一)数据工程基础

  • 第1章:介绍了数据工程的定义、数据工程师的工作内容以及微软对数据工程的定义。阐述了数据工程在数据收集、存储、处理、查询、编排和数据检索等方面的作用,并介绍了Azure提供的数据工程工具。
  • 第2章:讲解了在Azure上构建分析系统的架构基础,包括Azure架构的基本概念(如订阅、区域、资源组等),以及Lambda架构的原理和Azure云服务在其中的应用。

(二)存储服务

  • 第3章:详细介绍了Azure存储账户的创建、配置和使用,包括Blob存储、队列服务等。讲解了如何通过Azure门户和Azure PowerShell创建存储账户,以及存储账户的复制策略和访问控制。
  • 第4章:聚焦于Azure Data Lake存储,介绍了如何创建Data Lake存储、配置文件访问权限,以及如何通过层次结构规划数据湖的存储结构,以支持后续的数据分析工作。

(三)消息处理与实时分析

  • 第5章:探讨了Event Hubs在消息处理中的作用,包括如何创建Event Hubs命名空间、配置吞吐量单位和分区,以及如何启用Capture功能将消息持久化到存储服务中。
  • 第6章:深入讲解了Azure Stream Analytics(ASA)的使用,包括创建ASA作业、配置输入输出、编写查询语句以及如何利用时间窗口函数和机器学习函数进行实时数据分析。

(四)批处理分析

  • 第7章:介绍了Azure Data Lake Analytics(ADLA)的U-SQL语言,以及如何创建ADLA服务、提交U-SQL作业。讲解了U-SQL作业的执行过程,包括如何选择合适的分析单元(AU)数量以优化作业执行效率。
  • 第8章:进一步深入U-SQL语言,探讨了复杂分析场景下的U-SQL作业编写,包括窗口函数、本地C#函数的使用等。

(五)数据集成与管理

  • 第9章:讨论了如何将Azure Data Lake Analytics与其他服务(如Azure Cognitive Services)集成,以处理非结构化数据,以及如何通过添加自定义库来扩展Data Lake Analytics的功能。
  • 第10章:介绍了Azure Data Factory(ADF)的使用,包括创建ADF服务、配置安全认证、复制文件以及运行ADLA作业。讲解了如何通过ADF实现数据处理的自动化。

(六)SQL数据库与优化

  • 第11章:讲解了Azure SQL Database的创建、安全配置、可用性和恢复策略,以及如何优化SQL数据库的成本。
  • 第12章:探讨了如何将ADF与SQL Database集成,包括导入数据、创建外部数据源和表,以及如何通过ADF将数据导入SQL Database。

(七)后续发展

  • 第13章:为读者提供了进一步提升数据工程技能的建议,包括数据目录的构建、版本控制和备份策略,以及微软认证的相关信息。

适用人群

本书主要面向熟悉微软技术栈的数据工程师和系统工程师,他们需要具备基本的云技术知识,了解C#和SQL语言,并能够进行基本的SQL查询操作。对于希望在Azure平台上构建高效、可扩展的数据分析系统的专业人士来说,这本书是一本极具价值的实践指南。

总结

《Azure Storage, Streaming, and Batch Analytic》是一本全面且实用的书籍,它不仅涵盖了Azure平台上各种数据处理服务的使用方法,还提供了丰富的实践案例和代码示例。通过阅读本书,读者可以深入理解如何在Azure上构建一个完整的数据分析系统,从数据的收集、存储到实时和批处理分析,再到数据的集成和管理。这本书是数据工程师在Azure云平台上进行大数据处理的必备手册。

期待您的支持
捐助本站