形考任务2
试卷总分:100 得分:100
1.1、下列关于为什么要做数据清理描述错误的是( )
A.数据有重复
B.数据有错误
C.数据有缺失
D.数据量太大
2.2、下列关于数据清理描述错误的是( )
A.数据清理能完全解决数据质量差的问题
B.数据清理在数据分析过程中是不可或缺的一个环节
C.数据清理的目的是提高数据质量
D.可以借助Kettle来完成大量的数据清理工作
3.3、下列关于使用参照表清洗数据说法错误的是( )
A.有些数据无法从内部发现错误,需要结合外部的数据进行参照
B.只要方法得当,数据内部是可以发现错误的,不需要借助参照表
C.使用参数表可以校验数据的准确性
D.使用参照表可以处理数据的一致性
4.4、某店铺2019年度会员信息表中,某会员的出生年份是1990年,但年龄却记录为25岁,此类错误需要进行( )。
A.缺失值清洗
B.重复值清洗
C.逻辑值清洗
D.无价值数据清洗
5.5、关于数据清洗的作用,下列说法正确的是( )。
A.去重、补漏、计算
B.去重、补漏、纠错
C.补漏、纠错、计算
D.去重、计算、纠错
6.6、数据清洗时,运营数据中出现“下单时间2088-12-12”,属于( )。
A.缺失值清洗
B.格式内容清洗
C.逻辑错误清洗
D.重复数据清洗
7.7、以下说法错误的是( )
A.数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约
B.数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用
C.冗余数据的删除既是一种数据清理形式,也是一种数据归约
D.整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流
8.8、处理噪声的方法一般有( )
A.分箱
B.回归
C.聚类
D.以上都是
9.9、数据集成的过程中需要处理的问题有( )
A.实体识别
B.冗余与相关性分析。
C.数据冲突和检测
D.以上都是
10.10、数据归约的方法有( )
A.维度归约
B.数量归约
C.数据压缩
D.以上都是
11.11、关于数据重塑的说法中,下列选项描述错误的是()。
A.数据重塑可以将DataFrame转换为Series
B.stack()方法可以将列索引转换为行索引
C.对一个DataFrame使用stack()方法后返回的一定是一个Series
D..unstack()方法可以将行索引转换为列索引
12.12.请阅读下面的程序: 执行上述程序后,最终输出的结果为()。
A.0 False1 False2 True
B..0 True1 True2 False
C..0 False1 False2 False
D..0 True1 True2 True
13.13、下列选项中,关于drop_duplicates()方法描述错误的是()。
A.仅支持单一特征数据的去重
B..仅对Series和DataFrame对象有效
C.数据去重时默认保留第一个数据
D.该方法不会改变原始数据排列
14.14、下列选项中,关于dropna()方法描述正确的是()。
A.dropna()方法只会删除值为NaN的数据
B.dropna()方法不会删除值为None的数据
C.dropna()方法会删除值为None和NaN的数据
D.dropna()方法只会检测缺失数据和空值
15.15、下列选项中,关于duplicated()方法描述正确的是()。
A.duplicate()方法用于删除重复值
B.duplicate()方法用于标记重复值
C.duplicate()方法会改变原始数据
D.duplicate()方法会将重复的数据标记为False
16.16、下列选项中,属于数据处理的目的是()
A.使数据更加适用于分析
B.对无意义的数据进行清洗
C.整合数据
D.以上全部
17.17、数据清洗的主要内容包括( )。
A.缺失值清洗
B.格式内容清洗
C.逻辑错误清洗
D.以上全部
18.18、在数据表里,缺失值常见的表现形式是( )。
A.空值
B.错误标识符
C.#DIV/0!
D.1
19.19、数据清洗时,处理缺失值的方法不包括( )。
A.删除单元格
B.删除记录
C.数据补齐
D.不处理
20.20、数据逻辑错误不包括( )。
A.数据不合理
B.数据自相矛盾
C.数据不符合规则
D.数据格式错误
21.21、下列选项中,关于数据预处理说法正确的是()。
A.数据清洗包含了数据标准化、数据合并和缺失值处理
B.数据合并按照合并轴的方向主要分为左连接、右连接、内连接和外连接
C.数据分析的预处理过程包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系
D.数据标准化的主要对象是类别型特征
22.22、检测出异常值之后,通常会采用哪些方式处理它们?()
A.直接将含有异常值的记录删除
B.用具体的值来进行替换,可用前后两个观测值的平均值修正该异常值
C.不处理,直接在具有异常值的数据集上进行统计分析
D.以上全部
23.23、下列函数中,可以对数据进行的合并的是()。
A.concat()
B..join()
C..merge()
D.以上全部
24.24、下列方法中,可以修改数据类型的是()。
A.desc()
B.to_numberic()
C.dim()
D.type()
25.25、下列关于重复值处理的说法中,错误的是()。
A.duplicated()方法可以标记重复数据
B.drop_duplicates()方法用于删除重复数据
C.重复数据的判断标准是两个数据中所有条目的值都相等
D.duplicated()方法支持从前向后和从后向前两种查找模式
26.二、判断题
1、数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。它一方面保论文作业答案请联系微信:1095258436证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。
27.2、重复数据会影响数据处理结果的正确性,从而导致数据分析出现偏差,因此需要将其删除。
28.3、具有多层索引的DataFrame对象经过stack()重塑后,返回的是一个Series对象。
29.4、使用merge()函数进行数据合并时,不需要指定合并键。
30.5、fillna()方法处理缺失数据时可以使用Series对象填充,但不可以使用DataFrame对象填充。
31.6、dropna()方法可以删除数据中所有的缺失值。
32.7、drop_duplicated()方法可以删除重复值。
33.8、rename()方法可以重命名索引名。
34.9、通过merge()函数合并数据时可以指定多个键。
35.10、join()方法可以使用左连接和右连接两种方式连接数据。
36.11、关于Pandas中的数据重塑,stack()方法可以将列索引转换为行索引。
37.12、关于预处理中的数据合并,concat()函数是最常用的主键合并函数,可以通过内连接和外连接的方式堆叠合并数据。
38.13、关于预处理中的数据合并,merge()函数是最常用的主键合并的函数,但不能够通过左连接和右连接的方式合并数据。
39.14、关于预处理中的数据合并,join()方法是最常用的主键合并方法之一,但不能够通过左连接和右连接的方式合并数据。
40.15、Pandas中可以使用boxplot()方法绘制箱形图,以实现对数据中的异常值进行检测。
41.16、关于空值和缺失值,NaN和None是完全一样的。
42.17、notnull()与isnull()方法都可以判断数据中是否存在空值或缺失值。
43.18、dropna()方法可以删除空值和缺失值
44.19、异常值处理中可以基于不同字段的均值和标准差求出异常数据分布范围,然后再对异常范围外 的数据做处理,例如填充为均值
45.20、数据处理中,大多数情况下重复值是需要去除的,使用数据框的drop_duplicates方法即可实现。
46.21、随机抽样即随机的抽取样本,可使用数据框的sample实现,并可通过参数n设置指 定抽样数量,或通过frac指定抽样比例。
47.22、字符串和日期的转换,可通过time或datetime库的strptime和strftime实现。
48.23、数据标准化通过将数据按比例缩放,使之落入一个小的特定区间 对象的操作。
49.24、MaxMin方法则是根据原始数据的最大值和最小值做数据处理,它将数据缩 放为特定范围[0,1]内。
50.25、丢弃缺失值是直接将含有NA值的记录丢弃,适用于NA值的记录较少,且整体 样本量较大的情况。