大规模数据处理入门与实战（套装共10册） - azw3、epub、mobi、pdf、kindle电子书下载

基本信息

出版社 : 人民邮电出版社有限公司; 第1版 (2018年8月1日)
出版日期 : 2018年8月1日
品牌 : 图灵社区
语言 : 简体中文
文件大小 : 47592 KB
纸书页数 : 3047页
Bill Karwin (作者), Ben Forta (作者), 舒特 (作者), 奥尼尔 (作者), 卡劳 (作者), 肯维尼斯科 (作者), 温德尔 (作者), 扎哈里亚 (作者), 格鲁斯 (作者), Robert Layton (作者), 本·斯派维 (作者), 乔伊·爱彻利维亚 (作者), 妮哈·纳克海德 (作者), 格温·沙皮拉托德 (作者), 帕利诺 (作者), 本杰明·班福特 (作者), 珍妮·基姆 (作者), 埃伦·弗里德曼 (作者), 科斯塔斯·宙马斯 (作者)
下载格式：azw3、epub、mobi

编辑推荐

　　1、深入剖析数据库编程常见错误；

　　2、提升SQL功力的实用宝典；

　　3、大师指点令人茅塞顿开。

　　SQL经典畅销书，内容丰富，简洁实用，麻省理工学院、伊利诺伊大学等众多大学的参考教材。大数据时代，人们越来越意识到数据在工作和生活中的重要性，数据科学家应运而生。面对媒体天花乱坠的炒作，怎么才能拨云见日，真正掌握这门跨学科利用数据的学问呢？这本脱胎于常春藤名校哥伦比亚大学“数据科学导论”课程的实战手册能够给你一个满意的回答。　　《数据科学实战》作者Rachel Schutt曾在谷歌研究院工作多年，现为美国新闻集团数据科学高级副总裁。她在哥伦比亚大学任教期间，广泛邀请了谷歌、微软、eBay及一些创业公司的数据科学家为学生授课，打破了所谓大学里教不出数据科学家的神话。这些讲座涵盖了上述公司及业界使用的全新算法、方法和模型。本书就是在这些一手资料基础上汇编而成的，它不仅可供不具备相关领域知识的初学者真正了解数据科学，而且也是熟悉线性代数、概率论、统计学、机器学习等主题的人士开阔视野、提升实战技能的指南。　　Spark***出品！《Spark快速大数据分析》是一本为Spark初学者准备的书，它没有过多深入实现细节，而是更多关注上层用户的具体用法。不过，本书绝不仅于Spark的用法，它对Spark的核心概念和基本原理也有较为全面的介绍，让读者能够知其然且知其所以然。本书介绍了开源集群计算系统Apache Spark，它可以加速数据分析的实现和运行。利用Spark，你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。本书由Spark***编写，可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业，还能了解从简单的批处理作业到流处理以及机器学习等应用。　　介绍数据科学基本知识的重量级读本，Google数据科学家作品。数据科学是一个蓬勃发展、前途无限的行业，有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作，教授数据科学工作所必需的黑客技能，并带领读者熟悉数据科学的核心知识——数学和统计学。作者选择了功能强大、简单易学的Python语言环境，亲手搭建工具和实现算法，并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。通过阅读本书，你可以：学到一堂Python速成课；学习线性代数、统计和概率论的基本方法，了解它们是怎样应用在数据科学中的；掌握如何收集、探索、清理、转换和操作数据；深入理解机器学习的基础；运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型；探索推荐系统、自然语言处理、网络分析、MapReduce和数据库。　　在数据规模急速膨胀的大数据时代，数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”：预测体育赛事结果、投放广告、根据作品的风格解决作者归属问题，等等。本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言，由浅入深，以真实数据作为研究对象，真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书，读者将迈入数据挖掘的殿堂，透彻理解数据挖掘基础知识，掌握解决数据挖掘实际问题的杰出实践！　　随着使用Hadoop存储并处理大量数据的企业不断增多，Hadoop安全性日益凸显，尤其是在金融和医疗等涉及敏感信息的行业。本书两位作者均来自Hadoop安全防范一线，书中详细论述了身份验证、加密、密钥管理等诸多重要主题，并给出了具体处理建议和案例分析，读者可以从中了解搭建和使用Hadoop的架构师是如何安全管理大数据的。 – 了解分布式系统，尤其是Hadoop所面临的安全挑战 – 学习如何尽可能确保Hadoop集群硬件的安全性 – Kerberos网络认证协议概览 – 身份验证、授权和审计原则在Hadoop中的应用 – 静态数据和动态数据的加密 – 客户端访问和数据提取过程的安全防护措施　　每个应用程序都会产生数据，包括日志消息、度量指标、用户活动记录、响应消息等。如何移动数据，几乎变得与数据本身一样重要。如果你是架构师、产品工程师，同时也是Apache Kafka新手，那么这本实践指南将会帮助你成为流式平台上处理实时数据的专家。本书由出身于LinkedIn的Kafka核心作者和一线技术人员共同执笔，详细介绍了如何部署Kafka集群、开发可靠的基于事件驱动的微服务，以及基于Kafka平台构建可伸缩的流式应用程序。通过详尽示例，你将会了解到Kafka的设计原则、可靠性保证、关键API，以及复制协议、控制器和存储层等架构细节。 ● 了解发布和订阅消息模型以及该模型如何被应用在大数据生态系统中 ● 学习使用Kafka生产者和消费者来生成消息和读取消息 ● 了解Kafka保证可靠性数据传递的模式和场景需求 ● 使用Kafka构建数据管道和应用程序的实践 ● 在生产环境中管理Kafka，包括监控、调优和维护 ● 了解Kafka的关键度量指标 ● 探索Kafka如何成为流式处理利器　　通过提供分布式数据存储和并行计算框架，Hadoop已经从集群计算的抽象演变成了大数据操作系统。本书从数据科学的视角，介绍Hadoop集群计算和分析，重点关注可构建的具体分析、数据仓储技术和高阶数据流。书中主要内容如下： ·Hadoop和集群计算背后的核心概念 ·使用设计模式和并行分析算法创建分布式数据分析作业 ·在分布式环境下使用Apache Hive和HBase进行数据管理、数据挖掘和数据仓储 ·使用Sqoop和Apache Flume从关系数据库采集数据 ·使用Apache Pig和Spark DataFrame编写复杂的Hadoop和Spark应用程序 ·通过Spark MLlib运用分类、聚类和协同过滤等机器学习技术 “我还未见过比本书更好的Hadoop框架讲解。” ——Marck Vaisman，博思艾伦咨询公司数据科学家、乔治?华盛顿大学兼职教授、数据社区DC联合创始人 “每个概念都得以清晰明了的解读，在容易忽略细节的部分又都有补充资源，供读者深入学习，这对于专业人员和初学者都非常友好。本书中的讲解总是与示例相辅相成，让读者在学习之后又能投入实战，深入了解系统功能——我认为这才是熟悉新领域的关键所在。” ——Amazon读者　　作为新一代的开源流处理器，Flink是众多大数据处理框架中一颗冉冉升起的新星。它以同一种技术支持流处理和批处理，并能同时满足高吞吐、低延迟和容错的需求。本书由Flink项目核心成员执笔，系统阐释Flink的适用场景、设计理念、功能、用途和性能优势。 – Flink的适用场景 – 流处理架构相较于批处理架构的优势 – Flink中的时间概念 – Flink的检查点机制 – Flink的性能优势

内容简介：

　　《SQL反模式》是一本广受好评的SQL图书。它介绍了如何避免在SQL的使用和开发中陷入一些常见却经常被忽略的误区。它通过讲述各种具体的案例，以及开发人员和使用人员在面对这些案例时经常采用的错误解决方案，来介绍如何识别、利用这些陷阱，以及面对问题时正确的解决手段。另外，《SQL反模式》还涉及了SQL的各级范式和针对它们的正确理解。　　《SQL反模式》适合SQL数据库开发人员与管理人员阅读。

　　SQL是使用广泛的数据库语言，几乎所有重要的DBMS都支持SQL。《图灵程序设计丛书：SQL必知必会（第4版）》由浅入深地讲解了SQL的基本概念和语法，涉及数据的排序、过滤和分组，以及表、视图、联结、子查询、游标、存储过程和触发器等内容，实例丰富，便于查阅。新版增加了针对ApacheOpenOfficeBase、MariaDB、SQlite等DBMS的描述，并根据新版本的Oracle、SQLServer、MySQL和PostgreSQL更新了相关示例。　　《图灵程序设计丛书：SQL必知必会（第4版）》适合SQL初学者，也可供广大开发及管理人员参考。

　　《数据科学实战》脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义，它界定了数据科学的研究范畴，是一本注重人文精神，多角度、全方位、深入介绍数据科学的实用指南，堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题，内容包括：数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外，本书还将带领读者展望数据科学未来的发展。

《Spark快速大数据分析》讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark，它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法，学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题。

《数据科学入门》本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境，从零开始讲解数据科学工作。具体内容包括：Python速成，可视化数据，线性代数，统计，概率，假设与推断，梯度下降法，如何获取数据，k近邻法，朴素贝叶斯算法，等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念，详细展示了什么是数据科学。

《Python数据挖掘入门与实践》作为数据挖掘入门读物，介绍了数据挖掘的基础知识、基本工具和实践方法，通过循序渐进地讲解算法，带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式，呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果，如何使用亲和性分析方法推荐电影，如何使用朴素贝叶斯算法进行社会媒体挖掘，等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。

《Hadoop安全大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程，介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题，并在实际环境下加以讨论。第 1章是介绍性内容，随后分为四大部分：第一部分是安全架构，第二部分是验证、授权和安全审计，第三部分是数据安全，第四部分是归纳总结。介绍了几个使用案例，融合了书中诸多概念。《Hadoop安全大数据平台隐私保护》适合对Hadoop感兴趣的读者，有大数据平台保护需求的读者。

《Kafka权威指南》是关于Kafka的全面教程，主要内容包括：Kafka相对于其他消息队列系统的优点，主要是它如何匹配大数据平台开发；详解Kafka内部设计；用Kafka构建应用的实践；理解在生产中部署Kafka的方式；如何确保Kafka集群的安全。本书适合Java开发人员、大数据平台开发人员以及对分布式系统感兴趣的读者阅读。

《Hadoop数据分析》提供分布式数据存储和并行计算框架，Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览，为数据科学家深入了解特定主题领域铺平道路，从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分，* 一部分从非常高的层次介绍分布式计算，讨论如何在集群上运行计算；* 二部分则重点关注数据科学家应该了解的工具和技术，意在为各种分析和大规模数据管理提供动力。

近年来，流处理变得越来越流行。作为高度创新的开源流处理器，Flink拥有诸多优势，包括容错性、高吞吐、低延迟，以及同时支持流处理和批处理的能力。《Flink基础教程》分为6章，侧重于介绍Flink的核心设计理念、功能和用途，内容涉及事件时间和处理时间、窗口和水印机制、检查点机制、性能测评，以及Flink如何实现批处理。本书面向有兴趣学习如何分析大规模流数据的读者。

资源下载付费资源价格2元立即支付

支付后请复制提取码进入网盘下载，电子书格式请参考“基本信息”说明，如未显示下载按钮，请刷新网页或扫码关注公众号联系客服处理。