22秋学期(高起本1709-1803、全层次1809-2103)《大数据导论》在线作业
试卷总分:100 得分:85
一、单选题 (共 15 道试题,共 30 分)
1.PaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
2.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
3.DAS代表的意思是()
A.两个异步存储
B.数据归档软件
C.连接一个可选的存储
D.直连存储
4.()是Microsoft Office的核心组件
A.SQL
B.WORD
C.PPT
D.EXCEL
5.大数据的最显著特征是() 。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
6.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
A.ggplot2
B.network
C.ggmaps
D.animation
7.医疗健康数据的基本情况不包括以下哪项?
A.诊疗数据
B.个人健康管理数据
C.公共安全数据
D.健康档案数据
8.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
9.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
10.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的南开答案请进:opzy.net或请联系微信:1095258436
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
11.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
12.SAN是一种()
A.存储设备
B.专为数据存储而设计构建的网络
C.光纤交换机
D.HBA
13.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
14.下列哪个R语言扩展包可以创建带有点和边的网络图()
A.ggplot2
B.network
C.ggmaps
D.animation
15.用于描述相等时间间隔下连续数据随时间变化趋势的是()
A.折线图
B.散点图
C.条形图
D.饼图
二、多选题 (共 15 道试题,共 30 分)
16.大数据在医疗中的应用有()
A.流行性疾病预防
B.慢性病健康管理
C.临床决策支持
D.医疗器械研发
17.常见的非结构化数据有()
A.web网页
B.即时消息
C.富文本文档
D.实时多媒体数据
18.交通数据处理包括以下几个步骤()
A.数据清洗
B.数据映射
C.数据组织
D.数据聚类
19.大数据采集主要包括()四种。
A.系统日志采集
B.网络数据采集
C.数据库采集
D.其他数据采集
20.数据归约(Data Reduction)主要有()
A.维度规约
B.样本规约
C.数据聚集
D.离散化概念分层
21.网络数据采集常用的是通过##或##等方式从网站上获取数据信息。
A.网络爬虫
B.网站公开API
C.手动获取
22.常见的分类方法有
A.决策树
B.贝叶斯网络
C.遗传算法
D.FP算法
23.层次方法可以分为()
A.K均值算法
B.K中心点算法
C.凝聚法
D.分裂法
24.下列正确的是()
A.D3是数据驱动文件的缩写,是最流行的可视化库之一,它被很多其他的表格插件所使用
B.D3也可以通过一些自定义模块来根据需求增添需要的(非DOM)特性,并在WebWorker上运行
C.D3采用的是Selectors API的第一级标准
D.基础R已经包含支撑包括协同图(Coplot)、拼接图(Mosaic Plot)和双标图等多类图形的功能。
25.云计算的特点是()
A.大规模
B.高扩展性
C.虚拟化
D.按需分配
26.数据变换的常用方法有##,##,##,##
A.中心化变换
B.极差规格化变换
C.标准化变换
D.对数变换
27.大数据在教育中的应用
A.网上公开课
B.慕课
C.智慧校园
D.翻转课堂
28.关于R语言扩展包下列正确的是()
A.network可创建带有点和边的网络图
B.animation可制作一系列的图像并将它们串联起来做成动画
C.ggmaps通过树图来可视化层次型数据
D.protfolio基于谷歌地图、OpenStreetMap及其他地图的空间数据可视化工具
29.数据处理的两种方法是##,##
A.批处理
B.流处理
C.单个处理
D.交叉处理
30.医疗大数据特点:除了包含了大数据4个“V” 的特点之外还有()
A.多态性
B.时效性
C.不完整性
D.冗余性
三、判断题 (共 20 道试题,共 40 分)
31.数据分析是大数据价值链中最终和最重要的阶段,其目的是挖掘数据中潜在的价值以提供相应的建议或决策。通过分析不同领域中的数据集可以使数据在不同层面发挥最大价值。
32.由于数据变成资源,成为有价值的东西,数据私有化和独占问题就是客观存在的,成为关注的焦点。数据产权界定问题日益突出,在数据权属确定的情况下,数据商品化将成为必然选择
33.多维数据指的是具有多个维度属性的数据变量。
34.标签云将关键词根据词频或其他规则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化。
35.数据缺失是大数据库中常见的问题,产生的原因也是多种多样的。主要包括机械原因和人为原因。
36.数据仓库是一个面向主题的(subject oriented)、集成的(integrate),相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,以用于支持管理决策过程。
37.Python是一种面向对象的解释型计算机程序设计语言
38.预处理之后的数据需要被组织在数据库或数据仓库中。
39.用户可以容易地分析空间情况(道路网络内部)随时间的任何变化,或分析道路段上的交通状况的时间变化,或者利用历史数据跟踪单个车辆的即时状态。
40.地图属于数据可视化的一种
41.Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度的海量公共数据集——用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关于所有主题事项的想法。
42.一个属性如果能由另一个或一组属性导出,则这个属性可能是冗余的。
43.基于大数据研究个体或群体行为,发现活动中蕴含的空间认知规律及空间行为和交互模式,建立以人为本的地理信息服务,进而支持个体或群体时空行为决策。
44.有些冗余可以被相关分析检测到。
45.R语言是闭源的
46.弹性是指有容错的机制,若一个RDD分片去失,Spark可以根据粗粒度的日志数据更新记录的信息重构它。
47.空间视图提供了交通堵塞的概览
48.数据流要表现出流数据的特征,反映的是系统中流动的数据;
49.规则性分析(Prescriptive Analysis)用于解决决策制定和提高分析效率
50.R是一种开源编程语言和软件环境,用于数据挖掘、数据分析和可视化。
奥鹏国开作业答案请进opzy.net或添加微信:1095258436