大数据技术原理及应用林子雨版课后习题答案解析 下载本文

***

专业资料整理分享

3、美国加州大学伯克利分校提出的数据分析的软件栈 处理可以分为哪三个类型?

答:①复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间; ②基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间; ③基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间。

BDAS认为目前的大数据

4、Spark 已打造出结构一体化,功能多样化的大数据生态系统,试述 生态系统。

Spark 的

答:Spark 的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套 完整生态系统, 既能够提供内存计算框架, 也可以支持 SQL即席查询、 实时流式 计算、机器学习和图计算等。 Spark 可以部署在资源管理器 YARN之上,提供一 站式的大数据解决方案。因此, Spark 所提供的生态系统同时支持批处理、交互 式查询和流数据处理。

5、从 Hadoop+Storm架构转向 Spark 架构可带来哪些好处? 答:(1)实现一键式安装和配置、线程级别的任务监控和告警; (2)降低硬件集群、软件维护、任务监控和应用开发的难度; (3)便于做成统一的硬件、计算平台资源池。

6、试述“Spark on YARN”的概念。

答:Spark 可以运行与 YARN之上,与 Hadoop进行统一部署, 即“Spark onYARN”, 其架构如图所示,资源管理和调度以来

YARN,分布式存储则以来 HDFS。

完美 WORD格式编辑

***

***

专业资料整理分享

7、试述如下 Spark 的几个主要概念: RDD、DAG、阶段、分区、窄依赖、宽依赖。 答:①RDD:是弹性分布式数据集( Resilient

Distributed

Dataset )的英文缩

写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。 ②DAG:是 Directed Acyclic Graph 的依赖关系。

③阶段:是作业的基本调度单位, 一个作业会分为多组任务, 每组任务被称为 “阶 段”,或者也被称为“任务集”。

④分区:一个 RDD就是一个分布式对象集合, 本质上是一个只读的分区记录集合, 每个 RDD可以分成多个分区,每个分区就是一个数据集片段。

⑤窄依赖:父 RDD的一个分区只被一个子 RDD的一个分区所使用就是窄依赖。

(有向无环图)的英文缩写,反映 RDD之间

完美 WORD格式编辑

***

***

专业资料整理分享

⑥宽依赖:父 RDD的一个分区被一个子 RDD的多个分区所使用就是宽依赖。

8、Spark 对 RDD的操作主要分为行动( Action )和转换( Transformation )两 种类型,两种类型操作的区别是什么?

答:行动( Action ):在数据集上进行运算,返回计算值。

转换(Transformation ):基于现有的数据集创建一个新的数据集。

第十章

1 试述流数据的概念

流数据,即数据以大量、快速、时变的流形式持续到达

2 试述流数据的特点

流数据具有如下特征:

数据快速持续到达,潜在大小也许是无穷无尽的 数据来源众多,格式复杂

数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储 注重数据的整体价值,不过分关注个别数据

数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序

4 试述流计算的需求

对于一个流计算系统来说,它应达到如下需求:

高性能:处理大数据的基本要求,如每秒处理几十万条数据 海量式:支持 TB级甚至是 PB级的数据规模

实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别 分布式:支持大数据的基本架构,必须能够平滑扩展

完美 WORD格式编辑

***

***

专业资料整理分享

易用性:能够快速进行开发和部署 可靠性:能可靠地处理流数据

7 列举几个常见的流计算框架

目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为 支持自身业务开发的流计算框架

1 商业级: IBM InfoSphere Streams 和 IBM StreamBase

2 较为常见的是开源流计算框架,代表如下:

Twitter Storm :免费、开源的分布式实时计算系统,可简单、高效、可靠地处理 大量的流数据

Yahoo! S4 (Simple Scalable Streaming System 分布式的、可扩展的、分区容错的、可插拔的流式系统

3 公司为支持自身业务开发的流计算框架: Facebook Puma Dstream(百度)

银河流数据处理平台(淘宝)

):开源流计算平台,是通用的、

8 试述流计算的一般处理流程

流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务

数据实时采集

数据实时计算

用户查询

实时查询服务

完美 WORD格式编辑

***

查询结果