正当我不明所以之际,盆友的微信语音通话接了进来
友:“看你在学python,爬虫写的怎么样了呀,我想抓一下某招聘网站的数据,能帮我整一个吗,不行的话我也去看看”
我:“哦哦,你不是技术嘛,自己来嘛
友:
fake_useragent 直译就是 假身份,作用和直译基本一样,是个表里不一的“人”
UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent
岗位 薪酬 年限
运营 30-50k 5-8年
技术 30-50k 5-8年
2)找到你需要的数据来源
盆友需要的是脉脉上的岗位信息,那么我们需要熟悉脉脉的岗位信息在哪可见,以及它们是如何展示的。
操作流程:
第1步,获取数据源URL地址: F12 打开浏览器开发者工具调试页面,选中network——xhr,刷新网页后选择 招聘,可以看见右侧有刷新调试页面有内容刷新,选中最近一个刷新的条目即可获取数据源
(list)
df.to_excel(rF:Python脉脉-字节跳动招聘岗位.xlsx,sheet_name岗位信息,index 0)