好奇为什么 Python 不需要浏览器就能抓取网站数据。内心感叹到,这简直是太妙了。自己为了体验这种抓取数据的乐趣,所以写了很多的爬虫程序。随着自己知识面地拓展,自己了解到数据分析这领域。
pip install pyecharts02数据清洗数据清洗工作是数据分析必不可少的步骤。这一步是为了清洗一些脏数据。因为可能网站本身就有空数据,或者匹配抓取网站信息时,有些混乱的数据。
content file.read() data json.loads(content, encodingUTF-8) # print(data) return data接着对字典进行遍历, 统计每个城市的餐厅总数
def count_restaurants_sum(data): 对字典进行遍历, 统计每个城市的餐厅总数 results {} for key, value in data.items():
经过分析发现 (新区, 189), (南区, 189), (朝阳, 56) 是脏数据, 必胜客官网的地区选项中就有这三个名字 data.remove((新区, 189)) data.remove((