今天我们学习Scrapy通用爬虫,利用Scrapy通用爬虫来获取美食杰网站[1]。
,也就是普通的爬虫模板;•crawl模板是最常用于抓取常规网站的爬虫模板,通过指定一些爬取规则来实现页面的提取,很多情况下这个模板的爬取就足够通用;•csvfeed模板是Scrapy最简单的爬虫模板,主要用于解析
ItemLoader(item{}, response())变量名.add_选择器(数据字段名, 选择器规则)return 变量名.load_item()
其中:
•item是对象;•response是网页的响应数据
,其代码修改为如下代码:
"allowed_domains": ["www.meishij.net"],
修改next.py翻页
首先经过简单的查找,美食杰的下饭菜前几页的URL链接为:
https:/
引用链接
[1] 美食杰网站: https://www.meishij.net/
[2] 名人名言网站: https://quotes.toscrape.com/
[3] 美食杰的下饭菜: https: