基本信息

  • 出版社 : 电子工业出版社; 第1版 (2018年9月28日)
  • 出版日期 : 2017年7月1日
  • 品牌 : 电子工业出版社
  • 语言 : 简体中文
  • 文件大小 : 31621 KB
  • 纸书页数 : 481页
  • 黄东军 (作者)
  • 下载格式:azw3、epub、mobi 

编辑推荐

  深入分析组件原理、充分展示搭建过程、详细指导应用开发。

内容简介

  大数据贵在落实! 本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。

作者简介

  黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会高级会员,教育部计算机科学与技术专业教学指导委员会“物联网工程专业教学研究专家组”成员。

前言

  前 言
  本书内容
  本书分为三篇,共有12章。
  (1)第一篇 大数据的基本概念和技术
  第1章 绪论,描述大数据的时代背景与国家大数据战略,探讨大数据的概念和特性,重点阐述大数据支撑体系,包括数据采集、存储、分布式计算和应用,并讨论大数据人才特点与能力要求。
  第2章 Hadoop大数据关键技术,详细介绍大数据系统涉及的主流技术,主要包括数据采集与生成、数据分布式存储、分布式计算框架、数据分析与挖掘等方面的技术和工具。
  (2)第二篇 Hadoop大数据平台搭建与基本应用
  第3章 Linux操作系统与集群搭建,介绍Linux集群的安装、Java开发包JDK的安装,以及集群的配置方法。
  第4章 HDFS安装与基本应用,介绍Hadoop HDFS的架构、工作原理,以及Hadoop安装、配置、启动和程序的运行。
  第5章 MapReduce与YARN,介绍MapReduce的工作原理,描述MapReduceV2(也就是YARN)的架构和执行流程。本章重点介绍如何设计MapReduce程序,给出了在Eclipse中实现Java语言MapReduce程序的具体过程。
  第6章 Hive和HBase的安装与应用,主要介绍Hive和HBase的安装配置和应用方法,同时也介绍MySQL和ZooKeeper的安装与应用。
  第7章 Sqoop和Kafka,介绍Sqoop和Kafka组件的安装及其基本应用方法。
  第8章 Spark集群安装与开发环境配置,介绍Spark架构及其工作原理,详细介绍Spark开发环境的安装与配置,包括热门的IntelliJ IDEA集成开发环境的安装与基本应用。
  第9章 Spark应用基础,介绍Spark程序的运行模式和应用设计方法,通过编写计算圆周率Pi、基于随机森林模型的贷款风险预测Scala程序,展示了在集成开发环境IDEA中编写Spark程序的流程。
  (3)第三篇 大数据处理与项目开发
  第10章 交互式数据处理,介绍如何利用Hive进行大数据处理和分析。Hive是建立在Hadoop MapReduce基础上的数据仓库工具,用户借助SQL语句,可完成很多处理和分析,因此,对实际工作者有很大帮助。
  第11章 协同过滤推荐系统,介绍推荐算法的基本概念和应用,展示基于Spark的机器学库MLlib实现的协同推荐应用。
  第12章 销售数据分析系统,通过一个完整的销售数据分析系统设计,展示如何利用Hadoop的各种组件开发实际的大数据应用系统。本章运用到的组件包括HDFS、MySQL、Eclipse、Phoenix、HBase、WebCollector、Sevlet、Tomcat等,所展示的数据和应用均来自真实场景,对读者有较高参考价值。
  本书特点
  把原理、架构、运行流程分析与实际应用融合起来介绍,融合性阐述框架优于单纯的原理分析,因为原理最终要付诸应用。
  本书高度重视实践能力的培养,对系统安装、配置和应用过程给出了十分详细的描述,所有实验都是基于实际完成的操作介绍的,并配有现场截图,为读者展示了真实、详尽、可重现的场景,十分方便读者自学和钻研。
  与很多大数据技术书籍不同,本书突出了数据处理本身,深入介绍了如何运用技术进行实际的数据分析,所采用的数据样本来自生产一线,所展示的项目具有实用的参考价值,读者掌握这些技术之后,就可以开始进行项目开发了。
  本书的读者群
  本书十分适合初学者入门和进阶。
  本书也可供那些已经学习过Hadoop组件技术,但希望全面、系统地理解并掌握实际应用的读者参考。
  本书对从事大数据项目开发的专业人员也有参考价值,书中所描述的Hadoop组件应用中遇到的各种问题及其解决办法,十分实用。
  本书特别适合自学,读者完全可以利用本书给出的资源和示例,一步一步地完成各项操作和应用,体验一种登堂入室的成就感。
  致谢
  感谢大数据时代,感谢开源社区,感谢Apache基金会,感谢Google,感谢所有关心和热爱大数据的人们!
  作者在创作本书中借鉴了中科普开(北京)科技公司的部分培训资源,在此谨表示衷心的感谢。特别感谢中南大学郑瑾副教授,本书的部分内容使用了她编撰的书稿。由衷地感谢王建新教授、李建彬教授、张祖平教授,他们耐心地审阅了本书,提出了中肯的意见和建议。非常感谢电子工业出版社田宏峰编辑,他细心专业的工作方式,给作者留下深刻印象,并为本书的高质量印装提供了保障。
  由于作者水平有限,本书的错误和疏漏在所难免,恳请广大读者提出宝贵意见和建议。联系邮箱:djhuang@csu.edu.cn。
  作 者  
  2017年5月于长沙


资源下载付费资源价格2立即支付
支付后请复制提取码进入网盘下载,电子书格式请参考“基本信息”说明, 如未显示下载按钮,请刷新网页或扫码关注公众号联系客服处理。