国开(软件学院)24秋《电子商务数据分析与应用》形考作业6【标准答案】形考任务6
试卷总分:100 得分:null
1.一、单选题
1、关于Series结构,下列描述正确的是()。
A.Series是一个类似于二维数组的对象
B.Series由一组数据和与之相关的索引两部分构成
C.Series只能保存整数和字符串类型的数据
D.Series的索引默认是从1开始
2.2、Pandas在执行算术运算时,没有对齐的位置会使用()进行补齐。
A.Null
B.0
C.NaN
D.null_values
3.3、下列关于Pandas库的说法中正确的是()。
A.Pandas中只有两种数据结构
B.Pandas不支持读取文本数据
C.Pandas是在NumPy基础上建立的新程序库
D.Pandas中Series和DataFrame可以解决数据分析中一切的问题
4.4、在进行算术运算时,如果希望一次性输出多个统计指标可以使用()方法。
A.statistics()
B.describe()
C.all()
D.results()
5.5、关于Pandas中数据排序,下列说法正确的是()。
A.即可以按照行索引排序,也可以按照列索引排序
B..sort_index()方法表示按照值进行排序
C..sort_values()方法表示按照索引进行排序
D.默认情况下,sort_index()方法按照降序排列
6.6、下列关于DataFrame说法正确的是( )。
A.DataFrame结构是由索引和数据组成
B.DataFrame的行索引位于最右侧
C.创建一个DataFrame对象时需要指定索引
D.DataFrame每列的数据类型必须是相同的
7.7、下面哪种算法防过拟合的能力相对较好()
A.逻辑回归
B.决策树
C.神经网络
D.支持向量机
8.8、逻辑回归与多元回归分析有哪些不同?()
A.逻辑回归预测某事件发生的概率
B.逻辑回归有较高的拟合效果
C.逻辑回归回归系数的评估
D.以上全选
9.9、下面哪个超参数的增加可能会造成随机森林数据过拟合?()
A.树的数量
B.树的深度
C.学习速率
D.样本数量
10.10、下列属于无监督学习的是()
A.K-means
B.SVM
C.逻辑回归
D.神经网络
11.11、下列哪些情况有可能造成过拟合()
A.特征过多
B.样本过多
C.参数过多
D.都不是
12.12、下列哪个算法是Bagging的集成学习算法()
A.GBDT
B.Random Forest
C.xgboost
D.都不是
13.13、对k-means聚类算法解释正确的是()
A.能自动识别类的个数,随机挑选初始点为中心点计算
B.能自动识别类的个数,不是随机挑选初始点为中心点计算
C.不能自动识别类的个数,随机挑选初始点为中心点计算
D.不能自动识别类的个数,不是随机挑选初始点为中心点计算
14.14、在以下不同的场景中,使用的分析方法不正确的有()
A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女
15.15、在以下不同的场景中,使用的分析方法不正确的有()
A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女
16.16、关联规则算法有( )
A.决策树、对数回归、关联模式
B.K均值法、SOM 神经网络
C.Apriori算法、FP-Tree 算法
D.RBF神经网络、K 均值法、决策树
17.17、逻辑回归算法适用于以下哪些分析场景( )
A.文本识别
B.客户流失预测
C.客户分层
D.财务收入预测
18.18、以下哪些方法不可以直接来对文本分类? ( )
A.Kmeans
B.决策树
C.支持向量机
D.KNN
19.19、以下哪个算法,既可实现连续值得目标,也可实现分类目标的预测()
A.C4.5
B.线性回归
C.聚类分析
D.C&RT
20.20、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
21.21、下面属于用来降维的一种方法的是: ( )
A.主成分分析
B.特征提取
C.特征加权
D.离散化
22.22、以下哪些算法是分类算法,()
A.DBSCAN
B.C4.5
C.K-Mean
D.EM
23.23、以下有关随机森林算法的说法错误的是()
A.随机森林算法的分类精度不会随着决策树数量的增加而提高
B.随机森林算法对异常值和缺失值不敏感
C.随机森林算法不需要考虑过拟合问题
D.对于不平衡的分类样本集来说,随机森林可以平衡误差
24.24、下面哪一项用决策树法训练大量数据集最节约时间?()
1. 增加树的深度
2. 增加学习率
3. 减少数的深度
4..减少树的个数
A.2
B.1 and 2
C.3
D.3 and 4
25.25、以下哪种业务问题可以用聚类算法?()
A.客户流失
B.交叉销售
C.客户细分
D.倾向性分析
26.二、判断题
1、使用pip命令也可以查看Anconda安装的包。
27.2、Pandas是一个基于NumPy的数据分析包,它是为了解决数据分析任务而创建的。
28.3、Pandas既可以按照索引排序也可以按照数据排序。
29.4、Series和DataFrame都支持切片操作。
30.5、在操作DataFrame对象时,可以通过指定索引名的方式获取数据。
31.6、Pandas只有Series和DataFrame两种数据结构。
32.7、DataFrame的结构是由索引和数据组成的。
33.8、过拟合是有监督学习的挑战,而不是无监督学习。
34.9、如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度也能达到100%。
35.10、如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度也能达到100%()
36.11、K-means算法中聚类的个数K是由用户自定义的()
37.12、集成学习的效果一定把单个分类器的效果更好 ()
38.13、NumPy是高性能科学计算和数据分析的基础包。
39.14、对于Pandas索引操作,索引对象是可修改的。
40.15、下列Pandas方法中,用于求最大值和最小值的是max和min。
41.16、关于读写excel文件,.to_excel()方法表示将结构化数据读取到DataFrame中。
42.17、从训练样本中是否含有标注好的目标变量,可以将机器学习分为:
43.18、Xgboost不属于集成学习算法。
44.19、决策树属于机器学习的无监督算法。
45.20、线性回归是使用历史数据进行预测。
46.21、下列图形是在相同的训练数据上具有相同回归的三个不同的模型,图3的回归模型拟合得最好,因为它的训练错误最小。
47.22、在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型,从数据集中随机抽取样本来建立模型、使用在线学习算法、使用主成分分析法(PCA)对数据降维都能更高效地训练模型。
48.23、一个回归模型存在多重共线问题。在不损失过多信息的情况下,我们可以计算方差膨胀因子(variance inflation factor)来检查存在的多重共线性并采取相应的措施。
49.24、聚类算法属于机器学习的无监督算法。
50.25、DBSCAN属于聚类算法。