21春学期(1709、1803、1809、1903、1909、2003、2009、2103)《数据科学导论》在线作业
1.[单选题] 通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
答:——C——
2.[单选题] 聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
答:——A——
3.[单选题] 在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
答:——D——
4.[单选题] 以下哪一项不是特征工程的子问题()
A.特征创建
B.特征提取
C.特征选择
D.特征识别
答:————
5.[单选题] 对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
答:————
6.[单选题] 通过变量标准化计算得到的回归方程称为()。
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
答:————
7.[单选题] 在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
答:————
8.[单选题] Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
答:————
9.[单选题] 下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答:————
10.[单选题] 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
答:————
11.[单选题] 例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
答:————
12.[单选题] 下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
答:————
13.[单选题] 根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
答:————
14.[单选题] 实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
答:————
15.[单选题] BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维奥鹏南开答案q599792222 或请进 opzy.net
D.中高维
答:————
16.[单选题] 在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
答:————
17.[单选题] 层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
答:————
18.[单选题] 某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
答:————
19.[单选题] 单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答:————
20.[单选题] 层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
答:————
21.[多选题] 数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答:————
22.[多选题] 下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
答:————
23.[多选题] 关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
答:————
24.[多选题] Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
答:————
25.[多选题] k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
答:————
26.[多选题] 聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
答:————
27.[多选题] K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
答:————
28.[多选题] 多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
答:————
29.[多选题] 系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
答:————
30.[多选题] 什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
答:————
31.[判断题] Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
A.对
B.错
答:————
32.[判断题] 关联规则可以用枚举的方法产生。
A.对
B.错
答:————
33.[判断题] 给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
A.对
B.错
答:————
34.[判断题] 利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
A.对
B.错
答:————
35.[判断题] 多层感知机的学习能力有限,只能处理线性可分的二分类问题。
A.对
B.错
答:————
36.[判断题] 决策树分类时将该结点的实例强行分到条件概率大的那一类去
A.对
B.错
答:————
37.[判断题] 特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
A.对
B.错
答:————
38.[判断题] 当特征为离散型时,可以使用信息增益作为评价统计量。
A.对
B.错
答:————
39.[判断题] K-means算法采用贪心策略,通过迭代优化来近似求解。
A.对
B.错
答:————
40.[判断题] 当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
A.对
B.错
答:————
41.[判断题] 信息熵越小,样本结合的纯度越低
A.对
B.错
答:————
42.[判断题] 随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
A.对
B.错
答:————
43.[判断题] k值增大意味着整体模型变得复杂。
A.对
B.错
答:————
44.[判断题] 当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
A.对
B.错
答:————
45.[判断题] 平均减少的不纯度越大,则特征重要度越高。
A.对
B.错
答:————
46.[判断题] 不满足给定评价度量的关联规则是无趣的。
A.对
B.错
答:————
47.[判断题] uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同
A.对
B.错
答:————
48.[判断题] K-means聚类是发现给定数据集的K个簇的算法。
A.对
B.错
答:————
49.[判断题] 对于项集来说,置信度没有意义。
A.对
B.错
答:————
50.[判断题] 每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
A.对
B.错
答:————