,最近在研究Python的多进程和多线程AI智能引擎技术实现一个全网数据挖掘和分析的引擎,搜索引擎技术就是能够扫描全网,然后收录一些有用的价值,像百度搜索引擎、google搜索引擎,他们就是采用爬虫技术
,对全网进行24小时的扫描,然后把各种网站的数据进行采集做快照,基于这种搜索引擎技术,我们如果要爬取比天眼查、查查查更完整的数据,只要在我们搜索引擎里面植入我们自己的代理IP池技术,采用python的多进程技术进对目标网站进行分任务
,每个进程负责一个目标网站,然后采用python的多线程技术,每个来负责翻页爬取,每个线程负责10页的翻页,然后再启动守护进程24小时进行全网扫描。
http:www.xxx.comfirm_0a6ca0be1266656b93d03390abf4e40b.html, 基本信息: { 人员规模:: -, 企业地址:: 温州市鹿城区蒲鞋市街道车站大道
733号, 公司名: 温州均瑶集团有限公司, 公司类型:: 有限责任公司(自然人投资或控股), 地址: 温州市鹿城区蒲鞋市街道车站大道733号,