22秋学期(高起本1709-1803、全层次1809-2103)《网络爬虫与信息提取》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.Scrapy自带的待爬队列是()
A.deque
B.queue
C.list
D.lqueue
2.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
A.列表
B.元组
C.字典
D.集合
3.Redis是一个开源的使用()语言编写
A.ANSI C
B.C++
C.JAVA
D.Python
4.Python写CSV文件需要哪个方法()
A.CSVWriter
B.CsvWriter
C.DictWriter
D.FileWriter
5.使用Xpath构造属性值包含相同字符串的路径采用()方法
A.contain
B.contains
C.include
D.includes
6.以下关于Charles的说法正确的是( )
A.Charles是一个跨平台的HTTP抓包工具,可以截取HTTP或者HTTPS请求的数据包
B.Charles有Windows 32/64版和Linux 64 版,但是目前还没有对Mac OS进行有效的支持。
C.Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标,可以清停止抓包。
D.在Charles启动时,系统自带浏览器的部分HTTP流量不会经过Charles。
7.Redis中写数据到列表中,使用关键字()
A.push
B.append
C.lpush
D.lappend
8.打开终端,输入(),屏幕上会出现Python的路径
A.python path
B.path python
C.which python
D.python which
9.Python中跳过本次循环应用关键字()
A.break
B.continue
C.exit
D.return
10.Chrome的开发者工具中哪个选项可以查找到cookies
A.Elements
B.Sources
C.Network
D.Peformance
11.下列哪项不是HTTP的请求类型()
A.GET
B.POST
C.PUT
D.SET
12.通常使用()工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
13.chrome默认打开开发者工具的快捷是
A.F5
B.F11
C.F12
D.F2
14.Python中专门用来处理图像的第三方库是
A.lxml
B.Pillow
C.beautifulsoup
D.pytesseract
15.要想让Scrapy结合Redis,应该对Scrapy爬虫请求的调度算法进行修改,以下哪种修改不能完成这一任务?()
A.队列
B.栈
C.上锁
D.优先级队列
16.以下表示请求资源重定向的HTTP状态码为
A.200
B.301
C.404
D.500
17.请问按哪个键可以打开Chrome自带的开发者工具()
A.F10
B.F1
C.F11
D.F12
18.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个()
A.列表
B.元组
C.字典
D.集合
19.执行下面代码,结果为(): name_list = [] if name_list and name_list[100] == ‘张三’: print(‘OK’)
A.程序报错
B.OK
C.NULL
D.无输出
20.使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A.exist
B.exists
C.isnull
D.contains
二、多选题 (共 10 道试题,共 20 分)
21.为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法
A.仔细检查代码
B.开发爬虫中间件
C.开发下载器中间件
D.等待
22.使用BeautifulSoup对象后可以使用()来查找内容
A.find_all
B.find
C.search
D.search_all
23.MongoDB中获取名字为set1的集合的语句为()
A.database.set1
B.database(‘set1’)
C.database[‘set1’]
D.database{‘set1’}
24.以下哪些可以独立成为Python编译器()
A.Pycharm
B.IDLE
C.Eclipse
D.Visual Studio 2010
25.使用Selennium获取网页中元素的方法有
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
26.下列关于在IOS上配置charles的说法正确的是()
A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B.手机和电脑需要在同一个局域网下。
C.HTTP代理可以使用“自动”选项。
D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
27.网络爬虫的用途有()
A.收集数据
B.尽职调查
C.提高流量
D.攻击服务器
28.PyMongo删除操作有()
A.delete
B.delete_all
C.delete_one
D.delete_many
29.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
30.BS4可以用来从()中提取数据
A.HTML
B.XML
C.数据库
D.JSON
三、判断题 (共 20 道试题,共 40 分)
31.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
32.使用UI Automatorr操作实体键的命令为device.press.实体按键名称()
33.代理中间件的可用代理列表一定要写在settings.py里面
34.引用中间件时后面的数字代表的是中间件的执行顺序,例如 ‘AdvanceSpider.middlewares.ProxyMiddleware’: 543 中的543
35.如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程
36.对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888.
37.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
38.使用异步加载技术的网站,被加载的内容可以在源代码中找到
39.”curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫
40.Redis中使用lrange读取数据后数据也会删除
41.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
42.需要登录的网站一般通过GET请求就可以实现登录。
43.爬虫中间件的激活需要另外写一个文件来进行
44.requests中post请求方法的使用为requests.post(‘网址’, data=data)
45.数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击
46.数据在MongoDB中是按照“库(Database)”—“集合(Collections)”—“文档(Document)”的层级关系来存储的。
47.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
48.HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源
49.MongoDB是一个关系数据库产品
50.HTTP状态码302与307完全同义。
奥鹏国开作业答案请进opzy.net或添加微信:1095258436