22秋学期(高起本1709-1803、全层次1809-2103)《网络爬虫与信息提取》在线作业-00002
试卷总分:100 得分:98
一、单选题 (共 20 道试题,共 40 分)
1.Redis若要进入交互环境,需要打开终端输入()
A.redis-cli
B.redis
C.redis-cmd
D.redis-start
2.可以通过()绕过网站登录。
A.session
B.cookies
C.moonpies
D.localstorage
3.Python中若定义object=(1, 2, 3, 4, 5),则print(object[1:3])输出()
A.12
B.123
C.23
D.234
4.当爬虫运行到yield scrapy.Request()或者yield item的时候,下列哪个爬虫中间件的方法被调用?
A.process_spider_output()
B.process_spider_exception()
C.process_spider_input()
D.process_start_ requests()
5.下面关于Charles使用说法错误的是()
A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰。
B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息。
C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过Charles。
D.Charles无法支持计算机上除了浏览器之外的其他软件。
6.在Linux中哪个命令是添加权限的()
A.chmod
B.sudo
C.cp
D.mkdir
7.Python中列表可以用()方法在末尾添加元素
A.add
B.append
C.plus
D.+
8.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表
B.元组
C.字典南开答案请进:opzy.net或请联系微信:1095258436
D.集合
9.Python中退出循环应用关键字()
A.break
B.continue
C.exit
D.return
10.以下哪个命令是创建文件夹命令()
A.curl
B.tar -zxvf
C.mkdir
D.cp
11.使用Xpath获取文本使用()
A.text
B.text()
C.content
D.content()
12.Python写CSV文件需要哪个方法()
A.CSVWriter
B.CsvWriter
C.DictWriter
D.FileWriter
13.使用UI Automator打开微信的操作是获取相应图标后使用命令()
A.touch
B.click
C.push
D.hover
14.Python中Object={1, 2, 3, 4, 5},则Objcet是()
A.列表
B.元组
C.字典
D.集合
15.()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具
A.Scrapyd
B.ScrapyDeploy
C.Deploy
D.Scrapy_Deploy
16.在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
17.启动MongoDB使用命令mongod –() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
18.HTTP常用状态码表明服务器上没有请求的资源的是()
A.500
B.503
C.403
D.404
19.以下表示请求资源重定向的HTTP状态码为
A.200
B.301
C.404
D.500
20.如果计算机上连接了很多台手机,查看这些手机串号,需要在终端输入以下命令:()
A.adb device
B.adb devices
C.adb devices -l
D.adb devices -list
二、多选题 (共 10 道试题,共 20 分)
21.一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B.在发现某个请求已经被设置过代理后,什么也不做,直接返回
C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D.周期性验证数据库中的无效代理,及时将其删除
22.Python中()容器有推导式
A.列表
B.元组
C.字典
D.集合
23.在配置ios使用Charles的操作中,正确的有()
A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
24.以下哪种方法是MongoDB的查找方法()
A.find
B.find_one
C.finds
D.find_all
25.如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A.服务器日志
B.数据库日志记录
C.程序日志记录
D.服务器监控
26.使用Selennium获取网页中元素的方法有
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
27.常用的会话跟踪技术是
A.session
B.cookies
C.moonpies
D.localstorage
28.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
29.PyMongo删除操作有()
A.delete
B.delete_all
C.delete_one
D.delete_many
30.Python中()与元组由类似的数据读取方式
A.字符串
B.列表
C.字典
D.集合
三、判断题 (共 20 道试题,共 40 分)
31.虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。
32.为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
33.process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
34.中间人攻击也是抓包的一种。
35.在使用多线程处理问题时,线程池设置越大越好
36.Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。
37.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
38.爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
39.爬虫中间件的激活需要另外写一个文件来进行
40.charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。
41.使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
42.Robo 3T与RoboMongo是完全不一样的软件
43.一般来说在页面都通过GET将用户登录信息传递到服务器端。
44.device.sleep()方法是使用UI Automatorr关闭屏幕的命令
45.上课传纸条。A要把纸条传给B,但是A与B距离太远,于是让C来转交纸条。此时,C先篡改纸条的内容再传给B,这是一种类似抓包的方式。
46.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
47.为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。
48.代理中间件的可用代理列表一定要写在settings.py里面
49.引用中间件时后面的数字代表的是中间件的执行顺序,例如 ‘AdvanceSpider.middlewares.ProxyMiddleware’: 543 中的543
50.数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击
奥鹏国开作业答案请进opzy.net或添加微信:1095258436