19秋学期(1709、1803、1809、1903、1909)《数据分析》在线作业-0003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
算法中用到了外存的算法是()
A.随机算法
B.并行算法
C.外存算法
D.Anytime算法
针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
A.随机算法
B.并行算法
C.外存算法
D.Anytime算法
KNN算法用MapReduce实现,要进行几轮MapReduce()
A.4
B.3
C.2
D.1
基于MapReduce的Apriori算法,共进行几轮MapReduce()
A.4
B.3
C.2
D.1
最小类间距离是()
A.所有样本对之间距离的平均值
B.两类所有样本对距离的平均值
C.两类中心距离
D.两类中各个个体距离的最小值
话题向量空间模型中,用()的一个向量表示该文本。
A.语义空间
B.话题空间
C.词向量空间
D.特征词
Hash tree在Apriori算法中所起的作用是( )
A.查找
B.存储数据
C.加速查找
D.剪枝
逻辑斯谛函数是一条()曲线
A.直线
B.抛物线
C.三角函数
D.S型曲线
聚类过程为()
A.数据准备,特征选择,特征提取,聚类,结果评估
B.数据准备,特征提取,聚类,特征选择,结果评估
C.数据准备,特征提取,特征选择,聚类,结果评估
Apriori算法的加速过程依赖于以下哪个策略( )
A.缓冲
B.抽样
C.并行
D.剪枝
向量空间模型中,用()来描述一个文档
A.词袋
B.词
C.特征词
D.特征向量
皮尔森相关系数的变化分为是()
A.[0.5, 1]
B.[-1, 1]
C.[-1, 0]
D.[0, 1]
大数据分析中,面向有用户参与分析决策的分析任务,不要求实时响应,但是也存在响应时间约束,称为()
A.非实时分析
B.弱实时分析
C.实时分析
数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
逻辑斯谛分布的分布函数范围在()
A.(-1/2,1/2)
B.(-1,1)
C.(0,1)
D.(-∞,+∞)
决策树中的分支表示()
A.类
B.特征
C.属性
D.值域输出
决策树中的叶结点表示()
A.类
B.特征
C.属性
D.值域输出
潜在语义分析创新地引入了()
A.话题维度
B.文本维度
C.单词维度
置信度(confidence)是衡量兴趣度度量( )的指标
A.简洁性
B.确定性
C.新颖性
D.实用性
闵式距离参数是()时代表曼哈顿距离
A.无穷
B.2
C.1
D.0
二、多选题 (共 10 道试题,共 20 分)
常见的推荐系统算法包括()
A.基于流行度的推荐算法
B.基于内容的推荐算法
C.协同过滤推荐算法
从训练数据中学习一个()或(),将其称为()。
A.概率分类模型
B.回归模型
C.分类器
D.分类决策函数
ID3算法流程为()
A.所有特征的信息增益均很小或没有特征可以选择
B.得到一个决策树
C.对子结点递归地调用,构建决策树
D.从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
社交网络的含义包括()。
A.软件
B.硬件
C.服务
D.应用
层次方法中,自底向上的方法是哪种()
A.分裂法
B.凝聚法
C.K-均值算法
D.K-中心点算法
下列属于朴素贝叶斯优点的是()
A.有稳定的分类效率
B.对缺失数据敏感
C.对小规模的数据表现很好
D.分类决策错误率很低
借助于大数据提供的()和(),政府可为农业生产进行合理引导,依据需求进行生产,避免产能过剩造成不必要的资源和社会财富浪费。
A.趋势报告
B.购物结果
C.消费能力
连续性变量的距离可用以下()方法衡量
A.马氏距离
B.汉明距离
C.欧式距离
D.余弦相似度
大数据在教育中的应用
A.翻转课堂
B.网上公开课
C.智慧校园
D.慕课
关联分析的作用是什么()
A.用于发现存在于大量数据集中的相关性
B.用于发现存在于大量数据集中的关联性
C.描述了一个事物中某些属性同时出现的规律
D.描述了一个事物中某些属性同时出现的模式
三、判断题 (共 20 道试题,共 40 分)
相比较基于内容的协同过滤,基于用户的协同过滤效果往往更好
类的中心距离可行是因为总是可以求解出类的中心。()
大数据分析模型的建立步骤通常为准备数据、浏览数据、变量选择和定义模型的模式
Kmeans算法中,相似的样本聚集在相同的类,不相似的样本分散在不同的类。()
多元逻辑斯谛回归模型用软最大函数处理所有类。()
二元逻辑斯谛回归模型形式为参数化的逻辑斯谛分布。
当一个节点宕机时,本机节点上已经完成运行的Map任务和正在运行中的Map和Reduce任务都将被调度重新执行。()
统计学习方法的三要素是数据、模型和算法
潜在语义分析主要用于文本的话题分析.()
Apriori算法采用了逐层搜索的迭代方法。()
如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往比镇魔性更高,这种现象称为欠拟合
k均值聚类归结为从样本到类的函数的选择问题。()
HITS的性能跟PageRank相差较多。()
组内平均链锁距离进一步考虑了组内相似性的变化。
kNN算法中,选择较小的k值“学习”的近似误差会减小。()
损失函数的期望成为风险函数
边的中介度定义为任意节点对的数目。()
由不同的距离度量所确定的最近邻点是相同的。()
熵越大,随机变量的不确定性越小。
网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。