欢迎光临
我们一直在努力

国开(软件学院)24秋《电子商务数据分析与应用》形考作业6【标准答案】

可做奥鹏国开全部院校作业论文!答案请添加qq:599792888 或 微信:1095258436

国开(软件学院)24秋《电子商务数据分析与应用》形考作业6【标准答案】形考任务6

试卷总分:100  得分:null

1.一、单选题

 

1、关于Series结构,下列描述正确的是()。

A.Series是一个类似于二维数组的对象

B.Series由一组数据和与之相关的索引两部分构成

C.Series只能保存整数和字符串类型的数据

D.Series的索引默认是从1开始

 

2.2、Pandas在执行算术运算时,没有对齐的位置会使用()进行补齐。

A.Null

B.0

C.NaN

D.null_values

 

3.3、下列关于Pandas库的说法中正确的是()。

A.Pandas中只有两种数据结构

B.Pandas不支持读取文本数据

C.Pandas是在NumPy基础上建立的新程序库

D.Pandas中Series和DataFrame可以解决数据分析中一切的问题

 

4.4、在进行算术运算时,如果希望一次性输出多个统计指标可以使用()方法。

A.statistics()

B.describe()

C.all()

D.results()

 

5.5、关于Pandas中数据排序,下列说法正确的是()。

A.即可以按照行索引排序,也可以按照列索引排序

B..sort_index()方法表示按照值进行排序

C..sort_values()方法表示按照索引进行排序

D.默认情况下,sort_index()方法按照降序排列

 

6.6、下列关于DataFrame说法正确的是( )。

A.DataFrame结构是由索引和数据组成

B.DataFrame的行索引位于最右侧

C.创建一个DataFrame对象时需要指定索引

D.DataFrame每列的数据类型必须是相同的

 

7.7、下面哪种算法防过拟合的能力相对较好()

A.逻辑回归

B.决策树

C.神经网络

D.支持向量机

 

8.8、逻辑回归与多元回归分析有哪些不同?()

A.逻辑回归预测某事件发生的概率

B.逻辑回归有较高的拟合效果

C.逻辑回归回归系数的评估

D.以上全选

 

9.9、下面哪个超参数的增加可能会造成随机森林数据过拟合?()

A.树的数量

B.树的深度

C.学习速率

D.样本数量

 

10.10、下列属于无监督学习的是()

A.K-means

B.SVM

C.逻辑回归

D.神经网络

 

11.11、下列哪些情况有可能造成过拟合()

A.特征过多

B.样本过多

C.参数过多

D.都不是

 

12.12、下列哪个算法是Bagging的集成学习算法()

A.GBDT

B.Random Forest

C.xgboost

D.都不是

 

13.13、对k-means聚类算法解释正确的是()

A.能自动识别类的个数,随机挑选初始点为中心点计算

B.能自动识别类的个数,不是随机挑选初始点为中心点计算

C.不能自动识别类的个数,随机挑选初始点为中心点计算

D.不能自动识别类的个数,不是随机挑选初始点为中心点计算

 

14.14、在以下不同的场景中,使用的分析方法不正确的有()

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

 

15.15、在以下不同的场景中,使用的分析方法不正确的有()

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

 

16.16、关联规则算法有( )

A.决策树、对数回归、关联模式

B.K均值法、SOM 神经网络

C.Apriori算法、FP-Tree 算法

D.RBF神经网络、K 均值法、决策树

 

17.17、逻辑回归算法适用于以下哪些分析场景( )

A.文本识别

B.客户流失预测

C.客户分层

D.财务收入预测

 

18.18、以下哪些方法不可以直接来对文本分类? ( )

A.Kmeans

B.决策树

C.支持向量机

D.KNN

 

19.19、以下哪个算法,既可实现连续值得目标,也可实现分类目标的预测()

A.C4.5

B.线性回归

C.聚类分析

D.C&RT

 

20.20、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()

A.关联规则发现

B.聚类

C.分类

D.自然语言处理

 

21.21、下面属于用来降维的一种方法的是: ( )

A.主成分分析

B.特征提取

C.特征加权

D.离散化

 

22.22、以下哪些算法是分类算法,()

A.DBSCAN

B.C4.5

C.K-Mean

D.EM

 

23.23、以下有关随机森林算法的说法错误的是()

A.随机森林算法的分类精度不会随着决策树数量的增加而提高

B.随机森林算法对异常值和缺失值不敏感

C.随机森林算法不需要考虑过拟合问题

D.对于不平衡的分类样本集来说,随机森林可以平衡误差

 

24.24、下面哪一项用决策树法训练大量数据集最节约时间?()

 

1. 增加树的深度

 

2. 增加学习率

 

3. 减少数的深度

 

4..减少树的个数

A.2

B.1 and 2

C.3

D.3 and 4

 

25.25、以下哪种业务问题可以用聚类算法?()

A.客户流失

B.交叉销售

C.客户细分

D.倾向性分析

 

26.二、判断题

 

1、使用pip命令也可以查看Anconda安装的包。

 

27.2、Pandas是一个基于NumPy的数据分析包,它是为了解决数据分析任务而创建的。

 

28.3、Pandas既可以按照索引排序也可以按照数据排序。

 

29.4、Series和DataFrame都支持切片操作。

 

30.5、在操作DataFrame对象时,可以通过指定索引名的方式获取数据。

 

31.6、Pandas只有Series和DataFrame两种数据结构。

 

32.7、DataFrame的结构是由索引和数据组成的。

 

33.8、过拟合是有监督学习的挑战,而不是无监督学习。

 

34.9、如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度也能达到100%。

 

35.10、如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度也能达到100%()

 

36.11、K-means算法中聚类的个数K是由用户自定义的()

 

37.12、集成学习的效果一定把单个分类器的效果更好 ()

 

38.13、NumPy是高性能科学计算和数据分析的基础包。

 

39.14、对于Pandas索引操作,索引对象是可修改的。

 

40.15、下列Pandas方法中,用于求最大值和最小值的是max和min。

 

41.16、关于读写excel文件,.to_excel()方法表示将结构化数据读取到DataFrame中。

 

42.17、从训练样本中是否含有标注好的目标变量,可以将机器学习分为:

 

43.18、Xgboost不属于集成学习算法。

 

44.19、决策树属于机器学习的无监督算法。

 

45.20、线性回归是使用历史数据进行预测。

 

46.21、下列图形是在相同的训练数据上具有相同回归的三个不同的模型,图3的回归模型拟合得最好,因为它的训练错误最小。

 

47.22、在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型,从数据集中随机抽取样本来建立模型、使用在线学习算法、使用主成分分析法(PCA)对数据降维都能更高效地训练模型。

 

48.23、一个回归模型存在多重共线问题。在不损失过多信息的情况下,我们可以计算方差膨胀因子(variance inflation factor)来检查存在的多重共线性并采取相应的措施。

 

49.24、聚类算法属于机器学习的无监督算法。

 

50.25、DBSCAN属于聚类算法。

 

赞(0)
未经允许不得转载:奥鹏作业网 » 国开(软件学院)24秋《电子商务数据分析与应用》形考作业6【标准答案】