因工作内容需要,尝试爬取所有海南的A级景区,因之前通过BeautifulSoup爬取过一些网站,这次仍旧选了该组件,不过爬取的结果有点不如人意,景区数量和实际不匹配,尽管如此,还是把代码帖一下吧。
Python做网络爬虫和网页内容解析是比较专业的,提供了很多专业的爬虫框架或组件,内容解析也有多种组件支持,各有各的利弊,在此不做赘述。
爬虫的难点有三点:1、针对自己的目标,爬取合适的网站2、爬取网站的入口,及url的入口和归纳3、网站内容的解析,需要了解网页的格式当然更多的难度在于系统验证和反爬手段,本次爬虫不涉及系统验证和反爬,也不多做详述了
整个…} #{No: 922, name: 平阳寺, star: AA, areaname: ,content: 位于浙江省绍兴县…} pass with open(jingqu.csv, w, newline