本文介绍的内容来自于笔者之前负责研发的爬虫管理平台, 专门抽象出了一个相对独立的功能模块为大家讲解如何使用nodejs开发专属于自己的爬虫平台.文章涵盖的知识点比较多,包含nodejs, 爬虫框架, 父子进程及其通信
nodejs第三方库和模块的使用使用umi3 + antd4.0搭建爬虫前台界面平台预览上图所示的就是我们要实现的爬虫平台, 我们可以输入指定网址来抓取该网站下的数据,并生成整个网页的快照.在抓取完之后我们可以下载数据和图片
:笔者要实现的爬虫主要使用了Apify集成的Puppeteer能力, 如果对Puppeteer不熟悉的可以去官网学习了解, 本文模块会一一列出项目使用的技术框架的文档地址.如何创建父子进程以及父子进程通信我们要想实现一个爬虫平台
eval(body, el > { el即为dom节点, 可以对body的子节点进行提取,分析 return {...}})复制代码nodejs第三方库和模块的使用为了搭建完整的node服务平台,
因为前端页面实现比较简单,整个前端代码使用hooks写不到200行,这里就不一一介绍了.大家可以在笔者的github上学习研究.github项目地址: 基于Apify+node+react搭建的有点意思的爬虫平台界面如下