想要爬取指定网页中的图片主要需要以下三个步骤:
(1)指定网站链接,抓取该网站的源代码(如果使用google浏览器就是按下鼠标右键 – Inspect- Elements 中的 html 内容)
(
2)根据你要抓取的内容设置正则表达式以匹配要抓取的内容
(3)设置循环列表,重复抓取和保存内容
以下介绍了两种方法实现抓取指定网页中图片
(1)方法一:使用正则表达式过滤抓到的 html 内容字符串
#
(jpg|png|gif))”‘, page) 这一块内容,如何设计正则表达式需要根据你想要抓取的内容设置。我的设计来源如下:
?
可以看到,因为这个网页上的图片都是 png 格式,所以写成imageList re.findall(r(https:[^s]*?(png))”‘, page)也是可以的。
,是Python内置的网页分析工具
import urllib # python自带的爬操作url的库
# 该方法传入url,返回url的html的源代码
def getHtmlCode(url):