因为在爬取数据的数据没有进行数据清洗,网站上是什么就存储成什么,这也是为了保护数据的真实性但是在实际分析过程中,特别是建模中,这类数据通常都是存储成数值型,方便可视化的同时也能保证模型快速收敛。
所以在下一步处理的时候需要优先考虑处理数据类型缺失数据清洗先来查看区域缺失的那1条数据通过查询,最近的小区分别是安鸿峰景苑和万科公园里,它两所在的区域标识是龙岗区的布吉南岭(如图所示),所以可以直接使用布吉南岭进行该字段缺失值的填充
例如:房屋价格存在缺失,可以使用同一区域内的均价进行填充;房屋类型存在缺失,可以使用同一小区的其他房屋该字段的众数进行填充;多个房屋区域存在缺失,可以通过自定义距离函数计算最近的小区进行填充。
对应的填充代码如下:# 区域缺失填充df_data_2.loc 布吉南岭 异常数据清洗在本次数据集中,存在很多不标准的数据格式,例如:房屋总价的单位、房屋面积等,我们暂且称之为异常数据参考总价单价处理通过简单的汇总查看总价和单价分布情况可以看到参考总价有两种形式
,带单位的和不带单位的,一般处理都是直接确定成数值(方便在回归模型中应用)同理,参考单价字段可以采用同样的处理方式。