支持北京上海广州深圳等国内21个主要城市;支持Python2和Python3; 基于页面的数据爬取,稳定可靠; 丰富的代码注释,帮助理解代码并且方便扩展功能。
运行前,请指定要爬取的网站,见libconstspider.py里面的SPIDER_NAME变量。
清理数据,运行 python toolclean.py 小区房价数据爬取内容格式:采集日期,所属区县,板块名,小区名,挂牌均价,挂牌数内容如下:20180221,浦东,川沙,恒纬家苑,32176元m2,3
套在售二手房数据可以存入MySQLMongoDB数据库,用于进一步数据分析,比如排序,计算区县和版块均价。
MySQL数据库结构可以通过导入toollianjia_xiaoqu.sql建立。