一个是需要爬取的页码数,一般设置为49,因为网站只开放500条评论。另外有些电影评论有可能不足500条,所以需要调整,之前尝试通过正则匹配分析页面结构。?4. 数据清洗爬取出来的结果如下:?
, , zh)step2: 匹配pyecharts支持的城市列表一开始我不知道该库有城市列表资料(只找了官网,没看github)所以使用的方法如下,自己上网找中国城市字典,然后用excel 筛选和列表分割功能快速获得一个不包含省份和
,可能存在的情况有:· 两个字:北京· 三个字:攀枝花· 四个字:山东烟台· 五个字:四川攀枝花· 六个字:黑龙江哈尔滨…因此我做了简化处理:名称为2~4的,如果没匹配到,则提取后2个字,作为城市名。
(e)遍历dict,抽取信息赋值给attr和val为画图做准备。
,接着才想起来是影片中的姜文饰演的蓝爸爸,以此称呼姜导,可见铁杆粉丝的满满爱意~一步之遥同时可以发现评论中,姜文的另一部作品《一步之遥》也被提及较多。