“大数据技术” 课程形考作业三
一、单选题
下列传统并行计算框架,说法错误的是哪一项?
刀片服务器、高速网、SAN,价格贵,扩展性差上
共享式(共享内存/共享存储),容错性好
编程难度高
实时、细粒度计算、计算密集型
下列关于MapReduce模型的描述,错误的是哪一项?
MapReduce采用“ 分而治之”策略
MapReduce设计的一个理念就是“ 计算向数据靠拢”
MapReduce框架采用了Master/Slave架构
MapReduce应用程序只能用Java来写
3、Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件),下列哪项是它的不足?
抽象层次高
表达能力有限,抽象层次低,需人工编码
价格昂贵
可维护性低
4、下面哪个选项不属于Hadoop1.0 的问题?
单一名称节点,存在单点失效问题
单一命名空间,无法实现资源隔离国开答案请进:opzy.net或请联系微信:1095258436
资源管理效率低
很难上手
5、.下列有关Hive和Impala的对比错误的是:
(A) Hive与Impala使用相同的元数据
(B) Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
(C) Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
(D) Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此
6、 下列关于Hive基本操作命令的解释错误的是:
(A) create database userdb;//创建数据库userdb
(B) create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
(C) load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
(D) insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
7、下面哪个不可能是Hive的执行引擎:
(A)MapReduce
(B)Tez
(C)Storm
(D)Spark
8、下列关于Spark的描述,错误的是哪一项?
(A)Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
(B)Spark在2014年打破了Hadoop保持的基准排序纪录.
(C)Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
(D)Spark运行模式单一
9、下列关于Spark的描述,错误的是哪一项?
(A)使用DAG执行引擎以支持循环数据流与内存计算析
(B)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
(C)支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程
(D)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
10、下列关于Scala特性的描述,错误的是哪一项?
(A)Scala语法复杂,但是能提供优雅的API计算
(B)Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统
(C)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
(D)Scala是Spark的主要编程语言
二、多选题
MapReduce相较于传统的并行计算框架有什么优势?
非共享式,容错性好
普通PC机,便宜,扩展性好
编程简单,只要告诉MapReduce做什么即可
批处理、非实时、数据密集型
MapReduce体系结构主要由以下那几个部分构成?
Client
JobTracker
TaskTracker
Task
下列关于MapReduce的体系结构的描述,说法正确的有?
用户编写的MapReduce程序通过Client提交到JobTracker端
JobTracker负责资源监控和作业调度
TaskTracker监控所有TaskTracker与Job的健康状况
TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
4、下列选项中,哪些属于Hadoop1.0的核心组件的不足之处?
实时性差(适合批处理,不支持实时交互式)
资源浪费(Map和Reduce分两阶段执行)
执行迭代操作效率低
难以看到程序整体逻辑
5、Hadoop的优化与发展主要体现在哪几个方面?
Hadoop自身核心组件MapReduce的架构设计改进
Hadoop自身核心组件HDFS的架构设计改进
Hadoop生态系统其它组件的不断丰富
Hadoop生态系统减少不必要的组件,整合系统
6、下列哪些属于Hadoop2.0相对于Hadoop1.0的改进?
设计了HDFS HA
提供名称节点热备机制
设计了HDFS Federation,管理多个命名空间
设计了新的资源管理框架YARN
7、 下列说法正确的是:
(A) 数据仓库Hive不需要借助于HDFS就可以完成数据的存储
(B)Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
(C)Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
(D)HiveQL语法与传统的SQL语法很相似
8、Impala主要由哪几个部分组成:
(A)Impalad
(B)State Store
(C) CLI
(D) Hive
9、Spark具有以下哪几个主要特点?
(A)运行速度快
(B)容易使用
(C)通用性
(D)运行模式单一
10、Scala具有以下哪几个主要特点?
(A)Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率
(B)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
(C)Scala具备强大的并发性,支持函数式编程
(D)Scala可以更好地支持分布式系统