一键注册,加入手机圈
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
原文地址:利用后羿收集器收集旅游景点评价数据
由于今朝写论文需要爬些旅游景点的数据做数据分析,因此探讨了一番评价数据的收集,此处筹算把全部进程记录下来。曩昔我爬取数据的思绪都是各类F12然后找http哀告,剖析数据各类操纵,不外发现这个方式用在这里并不太适用,单个平台的反爬就已经很省事了,况且是携程、蚂蜂窝、美团、大众点评整整四个平台,估量等我搞定了,黄花菜也凉了。不外由于之前听过一些自动收集的软件,恍如挺强大,因而随意下载了个后羿收集器来准备试试,没想到,这玩意确切好用,没过量久,就把四个平台的数据都爬取下来了。由于我用得不深,不外爬取的数据结果还可以,话不多说,先上结果图吧:
携程收集功效:
蚂蜂窝收集功效:
固然,有些平台的数据也不够无缺,或存在些题目,我会在最初面说明。
先来先容下后羿收集器吧:(先说明下,并不是说这个收集器就必定是最好的,其他的比如火车头收集器等估量也可以实现,只是我用了这个,感觉用起来比力简单,也能完成收集使命)
后羿收集器
后羿收集器是由前谷歌搜索技术团队基于野生智能技术研发的新一代网页收集软件。具有以下特点;
- 自动化收集
- 支撑对数据停止清洗、过滤等
- 同时支撑Windows、Mac和Linux全操纵系统
- 支撑智能收集以及流程图收集两种形式,90%多的网页数据都可收集到
- 免费(固然,更强大的功用是免费的,不外普通的收集使命的话免费版就可以搞定了)
官网下载地址:后羿收集器_真免费!导出无穷制收集爬虫软件_野生智能数据收集软件
文档中心:数据收集教程_新手入门_新手入门必看_后羿收集器
具体下载安装法式参考文档即可。
下面就逐一先容各个平台的旅游评价数据收集进程。
携程
以`清江画廊` 这个景点为例,在携程官网首页搜索后便显现了关于该景点的具体先容,往下拉后可看到最初一个面板为`用户点评`,就显现了我们需要的评价数据,以分页的列表展现,每页10条,有238页,总的数据条数是2373。
复制该页面的地址:
```
德天瀑布门票,德天瀑布门票价格,德天瀑布门票团购【携程门票】
```
2. 设置法则
翻开后羿收集器,首页输入上一步中找到的页面地址,点击`智能收集`,智能收集的意义是收集器会识别你输入的网页机关,并找到列表数据,并自动停止翻页,直到收集到最初一页数据为止。
然落后入收集界面,收集器会自动在软件中翻开你输入的网页,并识别网页机关,找到数据列表。这需要一些时候,耐心期待即可。
不外一初步识别出来后能够是这样的:
似乎不是我们需要的评价数据啊, 证实自动识此外列表并不是我们想要的,那怎样办呢?
可以这样处置:
- 点击识别功效列表上面的`页面范例`下拉框
- `列表范例`点窜成`手动点选列表`,然后鼠标酿成了一只可以点击上方页面的笔,用鼠标分袂点击批评数据中第一条的评价内容,以及下方的用户名和时候,点击后就下面的功效列表中的数据就会酿成我们需要的评价数据啦。假如还需要增加字段,点击工具类最初的`增加字段`,挑选你需要增加的字段即可。
3. 初步收集使命
到此,我们设置好了需要收集的页面以及数据列表,而且可以在页面下方预览前10条数据,确认无误后,点击`初步收集即可`启动收集使命。此处可以设置各类选项,比如按时收集,加速、防屏障、启用代理等功用,本人按需设置,携程这个不需要任何设置也能收集到数据的。点击初步后,就进入了收集页面
最初面自动收集完成后,会提醒收集完成,将数据导出到当地即可。
由于后续其他平台操纵类似,故只会说明下需要留意的地方。
蚂蜂窝
蚂蜂窝页面显现的数据实在是不无缺的,以下图所示:
每页是15条,总的只能看到5页,总的75条,但实在总的是333条,因此,不管显现几多批评,收集的功效终极只是75条。
美团
和携程差不多,页面列表可以自动识别。
大众点评
大众点评稍微有点特别,检察评价时辰可以看到,需要登录后才能看到一切的评价。
因此,在后羿收集器中需要处置的一个题目就是登录后才能拿到数据,那具体应当怎样操纵呢?
在收集页面上面,有个预登陆功用
在弹出的页面上,停止登录后,点击`登录完成`,即可。
不外需要留意的是每页数据的url都是分歧的,比如:首页`http://www.dianping.com/shop/3328354/review_all`,第二页: `http://www.dianping.com/shop/3328354/review_all/p2`,那这类url怎样办呢?
可以看到,各个页面的前缀都是一样的,只是最初p2,p3数字分歧而已,收集器供给了一种针对这类有纪律的url天生器,详见下图,在参数那边填入初步的页面和终了的页面数字即可天生,复制网址预览中的url到`手动输入`栏中,并停止必定的点窜即可。
总结
实在从进程来说,还是挺简单的,只是能够一些设置法则、预登陆这类很多弄几次才会熟悉。大大都只要能在网页上看到的数据,都是可以经过收集器收集到的,固然,还有很多高级复杂的工具此处并没有触及到,后续碰到的话再去研讨研讨。
存在题目
由于收集器以及各个平台的不同性,收集到的数据难免存在些题目,这里仅记录我不雅观察到的比力明显的题目:
- 蚂蜂窝的数据不管评价数目几多,终极收集到的最多75条(网页上也只显现这么多)
- 美团上收集到的评价内容有些是空的,不晓得啥题目,今朝还没搞清楚
- 大众点评的评价数占有些是需要手动点击`展开批评`才能看到无缺内容的,因此收集功效有些并不无缺。
- 今朝来看,携程的批评数据是比力无缺的。
我的网站供给了一系列POI数据爬取、人流量爬取、数据可视化、以及舆图在线工具等功用,欢迎利用哦,地址:[BLT-LEAD 一个专注于分享与舆图数据相关的爬取、可视化、利用工具与常识的网站_](BLT-LEAD 一个专注于分享与舆图数据相关的爬取、可视化、利用工具与常识的网站_)
----------------------------- |