接下来给大家介绍正常的我们访问网页的过程,只有在清楚我们学习者是如何去找到网页,即上网的过程,才可以通过代码用机器模拟的形式爬取相应的资源。
Deep深度爬虫:一般爬取的是静态数据,一般包括网页的html、css等还有就是动态数据,包括js代码以及加密的js。
):
解析得到选手信息,包括包括选手姓名和选手个人百度百科页面链接,存JSON文件,保存到work目录下
bs BeautifulSoup(str(table_html
每个文件夹下均是每位明星的照片
?
《乘法破浪的姐姐》进行了爬取以及对其数据就明星的年龄做了简单的分析,当然,大家可以根据本人的代码,稍作修改,就可以对明星的身高、体重以及其他进行分析。