双击进入到斗破苍穹小说的介绍 ? 先进入第一章,观察网址的url的构成,http:www.doupoxs.comdoupocangqiong1.html ?
根据对小说的页数观察,我们发现该小说一共有1645页数据。于是我们就可以先构建url的列表推导式!urls 我们再根据打开谷歌检查器的检查,分析网页源码的构成。 ?
因为我们需要获取到每一章小说的标题提作为我们保存小说内容的文本名,所有根据网页源码的构成情况,利用BeautifulSoup将其获取。
Safari537.36 } def get_info(url): res requests.get(url, headersheaders) res.encoding utf-8 # 解析网页数据
f.close() # 程序主入口if __name__ __main__: urls for url in urls: get_info(url) print(本章url: + url) # 设置每次循环一次的休眠时间