19秋学期(1709、1803、1809、1903、1909)《大数据开发技术(二)》在线作业-0003
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
Scala中()方法返回一个列表,包含除了第一个元素之外的其他元素
A.tail
B.last
C.init
D.head
Scala列表方法中返回所有元素,除了最后一个的方法是()
A.init
B.head
C.filter
D.drop
GraphX中()方法可以缓存整个图,并指定存储级别
A.unpersistVertices
B.presist
C.edges.unpersist
D.cache
以下哪个函数可以对两个RDD进行合并()
A.union
B.substract
C.intersection
D.cartesian
Spark GraphX中类Graph的subgraph方法可以()
A.按照设定条件取出子图
B.合并边相同的属性
C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性
D.反转图中所有边的方向
Scala中如果函数中的每个参数在函数中最多只出现一次,则可以使用占位符()代替参数。
A.逗号
B.斜杠
C.井号
D.下划线
Spark GraphX中类Graph的reverse方法可以()
A.按照设定条件取出子图
B.合并边相同的属性
C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性
D.反转图中所有边的方向
Dstream输出操作中()方法在Driver中打印出DStream中数据的前10个元素。
A.saveAsTextFiles
B.saveAsObjectFiles
C.saveAsHadoopFiles
D.print
以下算法中属于聚类算法的是()
A.随机森林
B.逻辑回归
C.Kmeans
D.KNN算法
MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法()训练回归树
A.trainRegressor
B.trainClassifier
C.LogisticRegressionModel
D.LabeledPoint
Spark GraphX中类Graph的mapReduceTriplets方法可以()
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.将顶点信息更新到图中
D.向指定顶点发送信息并聚合信息
Spark中DataFrame的()方法是进行查询前n行记录
A.where
B.limit
C.join
D.apply
以下哪个函数可以对RDD进行去重()
A.sortBy
B.intersection
C.filter
D.distinct
以下哪个函数可以求两个RDD差集 ()
A.union
B.substract
C.intersection
D.cartesian
Spark Streming中()函数可以对源DStream的每个元素通过函数func被映射出0或者更多的输出元素
A.union
B.map
C.flatMap
D.filter
以下哪个函数可以对RDD进行排序()
A.sortBy
B.intersection
C.filter
D.distinct
Spark GraphX中类Graph的aggregateMessages方法可以()
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.将顶点信息更新到图中
D.向指定顶点发送信息并聚合信息
spark-submit配置项中()表示executor使用的总核数
A.–total-executor-cores NUM
B.–num-executors NUM
C.–executor-memory MEM
D.–executor-coures NUM
Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream
A.window
B.reduceByWindow
C.reduceByKeyAndWindow
D.countByWindow
Spark Streming中()函数当被调用的两个DStream分别含有(K, V) 和(K, W)键值对时,返回一个(K, Seq[V], Seq[W])类型的新的DStream。
A.union
B.reduce
C.join
D.cogroup
图的结构通常表示为:G(V,E),其中,V是图G中()
A.顶点的集合
B.顶点
C.边的集合
D.边
请问RDD的()操作把RDD 所有元素转换成数组并返回到Driver 端
A.zip
B.join
C.combineByKey
D.collect
Spark Streming中()函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。
A.transform
B.reduce
C.join
D.cogroup
Spark Streming中()函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的Dstream
A.union
B.map
C.flatMap
D.filter
以下哪个不是Scala的数据类型()
A.Short Int
B.Long
C.Int
D.Any
二、多选题 (共 10 道试题,共 20 分)
Spark Streaming的特点有()
A.高吞吐量
B.容错能力强
C.可伸缩
D.单极性
Scala中使用()方法来查看两个集合的交集元素
A.Set.intersect
B.Set.concat
C.Set.&&
D.Set.&
Spark可以从()分布式文件系统中读取数据
A.Tachyon
B.Hive
C.Hbase
D.HDFS
Spark SQL 可以通过()方法加载json文件为DataFrame
A.read
B.json
C.get
D.format
GraphX中()方法可以缓存整个图
A.unpersistVertices
B.presist
C.edges.unpersist
D.cache
以下是机器学习的常用算法的是()
A.降维算法
B.聚类算法
C.回归算法
D.分类算法
Spark DataFrame中()方法可以获取若干行数据
A.take
B.head
C.first
D.collect
Scala支持()
A.隐式参数
B.转换
C.显式参数
D.多态方法
MLlib中用于线性回归算法的包主要有()
A.RidgeRegressionWithSGD
B.LinearRegressionWithSGD
C.LeftRegression
D.LassoWithSGD
TF-IDF中IDF指的是()
A.逆文档概率
B.词频
C.词在文档集中出现的概率
D.词在文档集中出现的概率
E.词在文档中出现的次数
三、判断题 (共 15 道试题,共 30 分)
Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素
Spark只有键值对类型的RDD才能设置分区方式
RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。
Scala可以通过“var” 来定义变量,通过“val” 关键字来定义常量
Scala是不可扩展的
Spark是Apache基金会的顶级项目
Spark在同一个应用中不能同时使用Spark SQL和Mllib
RDD的intersection方法用于求出两个RDD 的共同元素
Scala中元组是是一种可迭代的键值对(key/value)结构。
RDD的union函数会将两个RDD元素合并成一个并且去处重复元素
Scala 语言中提供的数组是用来存储动态大小的同类型元素
Scala可以通过“val” 来定义变量,通过“var” 关键字来定义常量
Scala是一种纯面向对象的语言,每个值都是对象。
Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD 实例。
Scala列表中last返回列表最后一个元素