之前做美女图片站时,数据都是用python采集的,是很好用,不过由于开发语言是php的,有些功能需要用到php,所以,也试了下用php的采集方式、
获取热门城市 -> 获取城市下的游记列表 -> 获取游记内容 -> 提取游记内容的游记标题、城市、出发时间等,接下来我们用三个步骤来实现它。。。
1、获取热门城市
http://www.mafengwo.cn/mdd/citylist/21536.html
首先我们要采集下这些热门城市
当我们点击页数的时候,发现他的数据是Ajax加载的,末页是297,而且使用的是POST方法
提交的参数如下:
很明显这个page就是页数了,这里就有个问题,phpspider框架是有 URL 去重机制的,POST的话URL只有一个,但是query_string是不影响POST数据的,我们可以在后面加上 ?page=1|2|3…,所以我们代码可以这么写:
设置列表页规则:
|
'list_url_regexes'=>array(
"http://www.mafengwo.cn/mdd/base/list/pagedata_citylist?page=d+",
)
|
在入口回调函数入口所有城市列表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
$spider->on_scan_page=function($page,$content,$phpspider)
{
// 上面Ajax分页的末页是297页
for($i=0;$i $url,
'method'=>'post',
'fields'=>array(
'mddid'=>21536,
'page'=>$i,
)
);
// 热点城市列表页URL入队列
$phpspider->add_url($url,$options);
}
};
|
2、获取热门城市下的游记列表
点击进入一个城市后,我们可以看到他下面的游记列表
当然和上面一样,也是Ajax加载的,我们可以打开chrome的开发者工具,点击Network,然后随意点击一个分页得到Ajax的URL:
和城市列表一样,也是POST,参数如下:
很明显page就是页数了,当然我们直接通过POST方式访问Ajax地址:
http://www.mafengwo.cn/gonglve/ajax.php?act=get_t…
是直接报错的,他需要来路,综合以上,我们代码可以这么来写:
首先我们要在 on_start 回调函数里面加上来路URL
|
$spider->on_start=function($phpspider)
{
$phpspider->add_header('Referer','http://www.mafengwo.cn/mdd/citylist/21536.html');
};
|
和上面获取城市列表一样,设置列表匹配规则:
|
'list_url_regexes'=>array(
"http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid=d+",
)
|
然后在 on_list_page 回调里面判断如果是第一页就获取总页数,然后循环入队列:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
preg_match('#<span class="count">共<span>(.*?)</span>页#',$data_page,$out);
for($i=0;$i<$out[1];$i++)
{
$v=$page['request']['fields']['mddid'];
$url="http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid={$v}&page={$i}";
$options=array(
'url_type'=>$url,
'method'=>'post',
'fields'=>array(
'mddid'=>$v,
'pageid'=>'mdd_index',
'sort'=>1,
'cost'=>0,
'days'=>0,
'month'=>0,
'tagid'=>0,
'page'=>$i,
)
);
// 游记列表页URL入队列
$phpspider->add_url($url,$options);
}
|
通过上面两个步骤,我们就把所有热门城市下的游记列表都放入到了队列,接下来我们进行第三步,从这些列表里面获取内容页URL,然后提取内容。
3、获取热门城市下的游记列表
在 on_list_page 方法里面会得到列表页的内容,从这些内容里面我们可以提取内容页的URL
|
// 获取内容页
preg_match_all('#<a href="/i/(.*?).html" target="_blank">#',$html,$out);
if(!empty($out[1]))
{
foreach($out[1]as$v)
{
$url="http://www.mafengwo.cn/i/{$v}.html";
// 内容页URL入队列
$phpspider->add_url($url);
}
}
|
接下来我们来配置field提取内容页字段
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
'fields'=>array(
// 标题
array(
'name'=>"name",
'selector'=>"//h1[contains(@class,'headtext')]",
'required'=>true,
),
// 分类
array(
'name'=>"city",
'selector'=>"//div[contains(@class,'relation_mdd')]//a",
'required'=>true,
),
// 出发时间
array(
'name'=>"date",
'selector'=>"//li[contains(@class,'time')]",
'required'=>true,
),
)
|
设计一张数据表:
当然我们还可以获取游记的浏览量、收藏、分享、置顶、游玩金额等等,太多了,方法类似。
到此程序就设计完了,总共不到200行的代码,得益于phpspider自带了多进程采集功能,数据很快就采集完成,总共7W多点。
得到这些数据以后,我们能干什么呢?!
Top10 旅游城市分别是
可以看得出,云南是一个好地方,也是博主日夜思念的地方啊。。。
五一和国庆期间旅游城市占比
可以看得出,五一的时候大家喜欢去西藏玩,国庆却更青睐青岛,好吧,这两个地方博主都没去过,表示好受伤~_~!
接下来我们来看看这一年来北京和杭州的旅游旺季
可以看出七八月份去北京的人会比较多,这个时候北京是最爽的,不热也不冷,博主就曾经有有一年8月份去的北京,舒服死了^_^
我们再来看看杭州
看得出3月底到4月中旬是杭州适合游玩的季节啊,那时候春暖花开,天气也不错,听说太子湾公园每年那时候都会有樱花和郁金花展,非常美,艾玛旅游病又犯了~_~!
好吧文章到此就结束了,其实还想分析更多,比如采集热门路线啊,热门景点啊,热门图集啊,还有旅游路线的价位啊,最终形成一个旅游的APP,如果你们有好的想法,也可以来告诉我,我把他采集下来,供大家参考 ^_^
最后,对源代码感兴趣的同学可以上github搜索phpspider哈 ^_^
相关推荐
基于BOSS直聘“数据分析师”职位信息的爬虫实现、数据分析、数据可视化及机器学习预测与结果分析基于BOSS直聘“数据分析师”职位信息的爬虫实现、数据分析、数据可视化及机器学习预测与结果分析基于BOSS直聘“数据...
借助 Python 和 Scrapy 语言框架基础,以“旅游网站”为爬取目标,通过分析当前现有Web crawler 的运行机理、功能单元以及算法程序,试探性的创建一个针对性比较强的网络爬虫,对课题的目标数据进行爬取。...
Python网络爬虫、数据采集与数据分析是现代信息技术领域中至关重要的技能,特别是在大数据时代,对互联网数据的获取、处理和分析已经成为许多企业和个人提升竞争力的关键。本资源集合涵盖了从基础的网页抓取到复杂的...
python基于爬虫技术的海量电影数据分析源码。架构 本系统主要分为四个部分,分别为后端爬虫抓取、数据处理分析可视化、GUI界面展示、启动运行,分别对应getData.py、pyec.py、GUI.py、main.py四个文件。 并且包含...
总结来说,这个大作业涵盖了Python编程基础、网络爬虫技术(包括BeautifulSoup和Scrapy的使用)、数据预处理(pandas库的应用)、数据分析(NumPy和SciPy的运用)以及数据可视化(matplotlib、Seaborn、Plotly或...
在这个项目中,我们将深入探讨如何运用爬虫技术、数据分析、自然语言处理以及数据可视化来剖析EDG夺冠背后的故事。 首先,爬虫技术是获取海量数据的第一步。对于电竞赛事而言,相关的数据可能散布在各个网站、论坛...
python-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析....
Python爬虫数据可视化分析大作业,python爬取猫眼评论数据,并做可视化分析。 python爬虫数据可视化分析大作业 python爬虫,并将数据进行可视化分析,数据可视化包含饼图、柱状图、漏斗图、词云、另附源代码和报告书...
Python作为一门广泛应用于数据分析、爬虫以及数据可视化的编程语言,因其简洁明了的语法而深受程序员喜爱。在这个"Python爬虫实战+数据分析+数据可视化.zip"的压缩包中,包含了一个名为“nba-master”的项目,我们...
7. 数据库技术:爬虫抓取到的数据往往需要存储在数据库中,以便于后续的数据分析和可视化展示。文档中提及的数据库技术可能是爬虫项目中数据存储的环节。 8. 数据可视化工具:数据可视化是将结构化数据转换为图形...
Python爬虫实战+数据分析+数据可视化,高分项目本项目是一套成熟的大作业项目系统,获取98分,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业。 Python爬虫...
资源中包含了爬虫代码、数据处理代码、数据分析代码,也包含了爬取数据集、可视化结果图,同时资源中也提供了一个对本项目进行简单介绍的readme文件,其中包含了对爬虫细节以及数据处理、数据分析、数据可视化的详细...
爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统...
【标题】:“爬虫采集行业数据_java_爬虫_数据分析_”揭示了这个主题的核心是使用Java编程语言来实现网络爬虫技术,从而获取并分析特定行业的数据。爬虫是自动化抓取网页信息的程序,它能高效地从互联网上收集大量...
Python爬虫实战+数据分析+数据可视化源码合集,高分项目本项目是一套成熟的大作业项目系统,获取98分,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业。...
因此越来越多的人观影需求增加以丰富精神生活,为分析当下用户的观影偏好以及方便人们从众多的影片中作出合适的选择,本文基于Spark分析平台及python爬虫技术等设计了一个豆瓣电影数据分析可视化系统,以完成对豆瓣...
该项目是关于使用Python爬虫技术来获取中国疫情数据,并对数据进行分析与可视化的毕业设计。这个主题结合了网络爬虫、数据分析和数据可视化等多个IT领域的知识点,对于学习和掌握这些技能具有很好的实践价值。 首先...