网站分析进行爬虫之前首先需要了解网站结构,通过查看网站大致分析如下,上面是电影的一些信息,排名、封面,电影名等。除了最下面的列表的分页信息。77dianshi一页的电影信息不止这么点。
无眠觉醒吉娜·罗德里格兹,沙米尔·安德森,詹妮弗·杰森·李,阿丽亚娜·格林布拉特,巴里·佩珀,弗兰西丝·费舍,吉尔·贝罗斯,菲恩·琼斯,塞巴斯蒂安·皮戈特,塞尔吉奥·齐奥,亚历克斯·豪斯,卢修斯·霍约斯
·罗德里格兹,沙米尔·安德森,詹妮弗·杰森·李,阿丽亚娜·格林布拉特,巴里·佩珀,弗兰西丝·费舍,吉尔·贝罗斯,菲恩·琼斯,塞巴斯蒂安·皮戈特,塞尔吉奥·齐奥,亚历克斯·豪斯,卢修斯·霍约斯,特洛文·海斯
,伊丽莎白·班克斯,泰·辛普金斯,奥利维亚·王尔德,连姆·尼森,乔纳森·塔克,布莱恩·丹内利,瑞秋·迪肯,连尼·詹姆斯,杰森·贝盖,詹姆斯·兰索恩,莫兰·阿提艾斯,艾莎·辛德斯,丹尼尔·斯特恩}{cover
波西,迈克尔·拉帕波特,布鲁斯·邓恩,迈克尔·库立兹,保罗·莱维斯克}...这样我们就爬取了当前整页的电影信息 movie.py的完整代码如下:import scrapyclass MovieSpider