step1:首先打开我们要爬取的网站url:http:maoyan.comboard4;?
step2:简单的分析一下网页的源代码,找到我们要爬取的相关信息,以及信息在html源码中的位置,确定我们的正则表达式;?
re.S).findall(data) return resstep5:数据存储 dfopen(F:top100.txt,w,encodingutf-8) for i in range(10):#设置要爬取的页数
入野自由,夏木真理, 上映时间: 2001-07-20(日本), 评分: 9.3}{第1页的内容是:名称: 魂断蓝桥, 主演: 费雯·丽,罗伯特·泰勒,露塞尔·沃特森, 上映时间: 1940-05-17
(美国), 评分: 9.2}{第2页的内容是:名称: 喜剧之王, 主演: 周星驰,莫文蔚,张柏芝, 上映时间: 1999-02-13(中国香港), 评分: 9.2}{第2页的内容是:名称: 乱世佳人,