`

用 PHP 爬虫做旅游数据分析

阅读更多

之前做美女图片站时,数据都是用python采集的,是很好用,不过由于开发语言是php的,有些功能需要用到php,所以,也试了下用php的采集方式、

 

获取热门城市 -> 获取城市下的游记列表 -> 获取游记内容 -> 提取游记内容的游记标题、城市、出发时间等,接下来我们用三个步骤来实现它。。。

1、获取热门城市

http://www.mafengwo.cn/mdd/citylist/21536.html

首先我们要采集下这些热门城市

当我们点击页数的时候,发现他的数据是Ajax加载的,末页是297,而且使用的是POST方法

提交的参数如下:

很明显这个page就是页数了,这里就有个问题,phpspider框架是有 URL 去重机制的,POST的话URL只有一个,但是query_string是不影响POST数据的,我们可以在后面加上 ?page=1|2|3…,所以我们代码可以这么写:

设置列表页规则:

在入口回调函数入口所有城市列表:

 

2、获取热门城市下的游记列表

点击进入一个城市后,我们可以看到他下面的游记列表

当然和上面一样,也是Ajax加载的,我们可以打开chrome的开发者工具,点击Network,然后随意点击一个分页得到Ajax的URL:

和城市列表一样,也是POST,参数如下:

很明显page就是页数了,当然我们直接通过POST方式访问Ajax地址:

http://www.mafengwo.cn/gonglve/ajax.php?act=get_t…

是直接报错的,他需要来路,综合以上,我们代码可以这么来写:

首先我们要在 on_start 回调函数里面加上来路URL

和上面获取城市列表一样,设置列表匹配规则:

然后在 on_list_page 回调里面判断如果是第一页就获取总页数,然后循环入队列:

通过上面两个步骤,我们就把所有热门城市下的游记列表都放入到了队列,接下来我们进行第三步,从这些列表里面获取内容页URL,然后提取内容。

3、获取热门城市下的游记列表

在 on_list_page 方法里面会得到列表页的内容,从这些内容里面我们可以提取内容页的URL

接下来我们来配置field提取内容页字段

设计一张数据表:

当然我们还可以获取游记的浏览量、收藏、分享、置顶、游玩金额等等,太多了,方法类似。

到此程序就设计完了,总共不到200行的代码,得益于phpspider自带了多进程采集功能,数据很快就采集完成,总共7W多点。

得到这些数据以后,我们能干什么呢?!

Top10 旅游城市分别是

可以看得出,云南是一个好地方,也是博主日夜思念的地方啊。。。

五一和国庆期间旅游城市占比

可以看得出,五一的时候大家喜欢去西藏玩,国庆却更青睐青岛,好吧,这两个地方博主都没去过,表示好受伤~_~!

接下来我们来看看这一年来北京和杭州的旅游旺季

可以看出七八月份去北京的人会比较多,这个时候北京是最爽的,不热也不冷,博主就曾经有有一年8月份去的北京,舒服死了^_^

我们再来看看杭州

看得出3月底到4月中旬是杭州适合游玩的季节啊,那时候春暖花开,天气也不错,听说太子湾公园每年那时候都会有樱花和郁金花展,非常美,艾玛旅游病又犯了~_~!

好吧文章到此就结束了,其实还想分析更多,比如采集热门路线啊,热门景点啊,热门图集啊,还有旅游路线的价位啊,最终形成一个旅游的APP,如果你们有好的想法,也可以来告诉我,我把他采集下来,供大家参考 ^_^

最后,对源代码感兴趣的同学可以上github搜索phpspider哈 ^_^

分享到:
评论

相关推荐

    旅游网站的设计与实现(论文+源码)-kaic.zip

    此外,个性化推荐系统也是现代旅游网站的一大亮点,它通过分析用户行为和偏好,自动推荐符合其兴趣的旅游产品和服务。 安全性也是旅游网站设计的一个关键方面。由于网站会处理用户的个人信息和支付信息,因此必须...

    php168 v7_utf8

    通过以上分析,我们可以看出php168 v7_utf8是一个功能完善的CMS,集成了多种功能,如文章管理、目录展示、用户交互(如留言簿),并且提供了易于安装和升级的流程。其UTF-8编码保证了对中文字符的良好支持,适合搭建...

    个人项目开发作品

    开发者可能运用了爬虫技术抓取电商平台的数据,使用数据分析工具进行商品价格分析,同时通过推送服务实现消息通知。此项目涉及到了Web scraping、数据分析和移动应用开发技术。 4. **学生信息管理系统**: 这是一...

    TurismoLento:一个旨在提高年轻人对生态旅游意识的网站开发项目

    8. **数据分析**:通过Google Analytics等工具收集用户行为数据,可以了解哪些内容受欢迎,哪些功能使用频繁,从而持续优化网站,满足用户需求。 9. **响应式设计**:考虑到年轻人多使用移动设备浏览网络,网站应...

    最新Niucms3.45智慧城市小区乡村智慧城市生活服务平台+教程+采集+修复补丁

    - **智能管理**:通过数据分析,为城市管理提供决策支持。 2. **智慧城市**: 智慧城市是指利用信息技术和物联网技术,对城市基础设施进行智能化改造,提高城市管理效率和服务质量。Niucms3.45能够集成各种智慧...

Global site tag (gtag.js) - Google Analytics