今天分析『奔跑吧』全系列的嘉宾名单,分析每位嘉宾参加次数(可能有的嘉宾参加过几季),以及统计嘉宾职业类型个数,最后进行可视化展示分析。
1、网页分析 通过网上查询,知道『奔跑吧』到目前为止一共9季,先是奔跑吧兄弟1~4,到后面改名为奔跑吧1~4,以及奔跑吧黄河篇。
对应的网页链接如下: url_list 1.分析网页结构 首先以奔跑吧第1季为例去分析网页结构(其他的链接网页结构一样) 咱们主要是爬取嘉宾姓名和明星类型(演员、歌手等) 本来想通过xpath解析网页方式去定位数据
import requestsfrom lxml import etreeimport jsonimport timeimport openpyxl 将9季的网页链接放到集合中url_list,同时定义
次数), ).render(统计每一位嘉宾参加次数排名(取前15).html) ) 从图中可以看到,参加奔跑吧节目最多的嘉宾是:林更新(3次),其他的最多的次数是两次。