它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。
分解复述:爬虫是一段代码,实现的功能是在网页上解析需要的信息。
如:http://www.jianshu.com/collection/dfcf1390085c
网络爬虫就是根据这些URL获取网页信息,再对获取到的网页源代码进行解析出所需要的信息。
1461832494093.png
代码输出部分截图:可以看到相同的字眼,这意味着,上面代码已经成功的抓取到了网页源代码。
?
01:发送请求,继而下载网页源代码
# 实现的和urllib代码相同的功能:
# -*- coding:utf-8 -*-
# To: learn module
# Date:2016.04.28
#
Referer字段, Referer 指的是HTTP头部的一个字段, 用来表示从哪儿链接到目前的网页,采用的格式是URL。