导语前几篇文章介绍了爬取静态网站的主要方法。今天写一个小项目实践一下。本项目可以在终端窗口查询全国3400多个区县的当天天气信息和近七天天气信息。
输入查询地:)test_id dict_ctest_id.append(.join(filter(str.isdigit, test_id)))print(城市ID:,test_id,sep) 爬取静态网站上的天气信息近七日天气信息在一个静态网站上
通过观察,可以确定所有需要的信息都在标签下。?通过find_all()方法获取所有这个标签下的信息。
找了点资料后发现原来这个网站是一个动态网站,需要等待JS脚本加载。爬取动态网页的方法有三种:逆向回溯法渲染动态网页法模拟浏览器行为法本文使用的是第三种方法,实现模拟浏览器行为的工具是Selenium。
仍然通过爬取静态网页的方法获得其中的信息。最后文件获取:相关程序和城市id文件可以在公众号 拇指笔记 后台回复天气预报获取。使用方法:在终端窗口运行程序,输入查询的区县名称(如:丰台、静安等)。