主要用于网络的请求和获取数据,可以支持不同形式的请求。
核心源码
1.获取数据
定义一个函数get_data,用于发起请求并获取数据,如下所示:
headers中的User-Agent主要用于模拟浏览器,不然会被反爬虫程序屏蔽,http状态码为418,意思是被网站的反爬程序返回的
encoding是要爬取的网站的编码为gbk,如果不加,会产生乱码,默认为utf-8
def get_data(req_url):
"""获取数据"""
headers {
User-Agent
月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市网新新思软件有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1.5-1.7
",
"工作地址": "深圳-宝安区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "java架构师",
"公司": "深圳市泓齐网络科技有限公司