欢迎光临
我们一直在努力

南开《数据分析》19秋期末考核【标准答案】

《数据分析》19秋期末考核-0001

 

一、单选题 (共 20 道试题,共 20 分)

1.并行算法包括()

A.关联分析

B.MapRedce

C.Kmeans

D.KNN

 

2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()

A.K-means

B.Bayes Network

C.Apriori

D.C4.5

 

3.决策树学习应用()准则选择特征

A.经验熵

B.经验条件熵

C.信息增益

D.互信息

 

4.以下哪个会降低Apriori算法的挖掘效率( )

A.项数减少

B.支持度阈值增大

C.减小硬盘读写速率

D.事务数减少

 

5.算法中用到了外存的算法是()

A.随机算法

B.并行算法

C.外存算法

D.Anytime算法

 

6.LDA导入先验分布是为了应对()现象

A.过拟合

B.话题识别不准

C.欠拟合

D.分词困难

 

7.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

A.运营式系统阶段

B.用户原创内容阶段

C.感知式系统阶段

 

8.皮尔森相关系数的变化分为是()

A.[0.5, 1]

B.[-1, 1]

C.[-1, 0]

D.[0, 1]

 

9.评估模型的分类预测准确率,使用()进行评估;

A.验证数据集

B.训练数据集

C.测试数据集

D.未知数据

 

10.向量空间模型中,用一个()表示语义

A.距离

B.特征

C.数字

D.向量

 

11.闵式距离参数是()时代表曼哈顿距离

A.无穷

B.2

C.1

D.0

 

12.为了计算中介度,必须计算所有边上()的数目。

A.节点出度

B.结点入度

C.最短路径

D.所有路径

 

13.聚类属于()

A.有监督学习

B.无监督学习

C.强化学习

D.对抗学习

 

14.聚合聚类算法的代表是()

A.KNN

B.FP-Growth

C.Apriori

D.AGNES

 

15.逻辑回归优化的目标函数为()

A.贝叶斯定理

B.特征独立假设

C.极大似然估计

D.对数似然函数

 

16.支持向量机的MapReduce实现要进行几轮MapReduce()

A.自行规定

B.3

C.2

D.1

 

17.潜在语义分析中,以()表示文本的语义内容

A.距离向量

B.语义向量

C.话题向量

D.话题

 

18.向量空间的度量,表示文本之间的()。

A.语义相似度

B.语义关系

C.相似度

D.关系

 

19.度量距离中,表示各个坐标距离最大值的是()

A.欧氏距离

B.曼哈顿距离

C.切比雪夫距离

 

20.KNN算法用MapReduce实现,要进行几轮MapReduce()

A.4

B.3

C.2

D.1

 

二、多选题 (共 20 道试题,共 40 分)

21.大数据在社交网络中的应用

A.预测外部趋势

B.舆情监控、突发事件预警

C.用户画像、精准推荐

D.用户偏好、情感、社交网络结构

 

22.交通数据分析可用于:

A.实时路况查询播报

B.合理进行道路规划

C.信号灯智能调度

D.交通流量实时分析

 

23.常见的推荐系统算法包括()

A.基于流行度的推荐算法

B.基于内容的推荐算法

C.协同过滤推荐算法

 

24.KNN模型由哪些基本要素决定()

A.距离度量

B.特征选择

C.分类决策规则

D.k值的选择

 

25.大数据聚类分析中,归并依据的是()

A.置信度

B.特征的距离

C.特征的相似度

D.特征显著性

 

26.Q型聚类的结果具有()的特点

A.细致

B.直观

C.合理

D.全面

 

27.下列属于分类算法的有()。

A.随机森林

B.朴素贝叶斯

C.支持向量机

D.k近邻法

 

28.基于聚类结构的分类有()

A.分解方式

B.凝聚方式

C.R型聚类

D.Q型聚类

 

29.回归分析方法中,按照输入变量个数分类,可分为

A.非线性回归

B.线性回归

C.多元回归

D.一元回归

 

30.决策树的生成过程是()

A.递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类

B.选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类

C.构建根结点,将所有训练数据都放在根结点

D.如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去

E.如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点

 

31.统计学习的重要性()

A.统计学习是计算机科学发展的一个重要组成部分

B.统计学习是计算机智能化的有效手段

C.统计学习是处理海量数据的有效方法

 

32.向量空间模型中,是将()看成()

A.词袋

B.编码

C.文档

D.单词

 

33.差异性可以用()度量

A.距离

B.相似性

C.损失函数

D.准确率

 

34.下列属于朴素贝叶斯缺点的是()

A.对缺失数据不太敏感

B.分类效果不稳定

C.先验模型可能导致结果不佳

D.不适合增量式训练

 

35.潜在语义分析中,要同时决定两部分内容,是(),使两者的乘积是原始矩阵数据的近似。

A.话题维度

B.话题空间

C.词向量空间

D.文本在话题空间的表示

 

36.随机游走的马尔可夫链中,互联网中的每一个网页就是马尔可夫链中的一个();该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的()。

A.隐变量

B.重要程度

C.状态

D.序列

 

37.大数据四大特征包括( )

A.数据量大

B.数据类型繁多

C.数据价值密度相对较低

D.处理速度快,时效性要求高

 

38.下列哪些任务适合构建分类模型()

A.银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类

B.邮件系统可以根据email标题和内容区分出垃圾邮件

C.房价预测

D.医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段

 

39.聚合聚类的三个要素是()

A.置信度

B.相似度

C.合并规则

D.停止条件

 

40.大数据在电信中的应用有

A.精准的客户分析及营销

B.基于用户、业务及流量分级的多维管控机制

C.利用位置和轨迹信息服务社会

 

三、判断题 (共 10 道试题,共 10 分)

41.kNN不需存储所有的样本

 

42.如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往比镇魔性更高,这种现象称为欠拟合

 

43.边的中介度定义为任意节点对的数目。()

 

44.类的均值,又称为类的中心。()

 

45.MapReduce模型中,程序员不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。()

 

46.ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。

 

47.DAG中的父节点是唯一的。

 

48.kNN算法中,选择较大的k值“学习”的估计误差会减小。()

 

49.决策树模型的缺点是分类效率低。()

 

50.强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题

 

四、简答题 (共 3 道试题,共 30 分)

51.试比较PageRank算法和HITS算法。

 

52.简述k近邻法的核心思想、基本算法过程,并分析其优缺点。

 

53.层次聚类算法分为哪两种方法?简述这两个层次聚类算法。

赞(0)
未经允许不得转载:奥鹏作业网 » 南开《数据分析》19秋期末考核【标准答案】

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址