所以,在这里给爬虫粗略定义:爬虫 爬取网页 + 解析目标数据 + 数据存储
爬取网页
所谓的爬取网页,就是通过请求,将展示在浏览器的网页获取到。
Jsoup.connect("https://www.baidu.com").get();
// 打印网页内容
System.out.println(doc.body())
href, content, sep
)
输出结果如果所示:
Java中使用Jsoup来解析,代码如下:
String html 上面的html代码;
// 将字符串格式化成
Document格式,connect()请求可以直接返回Document
Document doc Jsoup.parse(html);
String title doc.title
数据存储
数据存储就是将解析下来的数据格式化的存到一个地方,像这种打印在控制台上只是为了方便查看爬取的数据,并不会保存、我们需要通过程序将存放到MySQL的表中或者excel里面,方便数据的使用。