用 PHP 爬虫做旅游数据分析

yangjiyue

浏览: 23376 次
来自: ...

最近访客更多访客>>

aspireyc

youcp999

bluxs

mamaoyuan625

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

php
爬虫

php 爬虫

之前做美女图片站时，数据都是用python采集的，是很好用，不过由于开发语言是php的，有些功能需要用到php，所以，也试了下用php的采集方式、

获取热门城市 -> 获取城市下的游记列表 -> 获取游记内容 -> 提取游记内容的游记标题、城市、出发时间等，接下来我们用三个步骤来实现它。。。

首先我们要采集下这些热门城市

当我们点击页数的时候，发现他的数据是Ajax加载的，末页是297，而且使用的是POST方法

提交的参数如下：

很明显这个page就是页数了，这里就有个问题，phpspider框架是有 URL 去重机制的，POST的话URL只有一个，但是query_string是不影响POST数据的，我们可以在后面加上 ?page=1|2|3…，所以我们代码可以这么写：

设置列表页规则：

 
PHP
 
1
2
3

'list_url_regexes'=>array(

    "http://www.mafengwo.cn/mdd/base/list/pagedata_citylist?page=d+",
)

在入口回调函数入口所有城市列表：

 
PHP
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14

$spider->on_scan_page=function($page,$content,$phpspider)
{

    // 上面Ajax分页的末页是297页

    for($i=0;$i  $url,

            'method'=>'post',

            'fields'=>array(

                'mddid'=>21536,

                'page'=>$i,

            )

        );

        // 热点城市列表页URL入队列

        $phpspider->add_url($url,$options);

    }

};

2、获取热门城市下的游记列表

点击进入一个城市后，我们可以看到他下面的游记列表

当然和上面一样，也是Ajax加载的，我们可以打开chrome的开发者工具，点击Network，然后随意点击一个分页得到Ajax的URL：

和城市列表一样，也是POST，参数如下：

很明显page就是页数了，当然我们直接通过POST方式访问Ajax地址：

http://www.mafengwo.cn/gonglve/ajax.php?act=get_t…

是直接报错的，他需要来路，综合以上，我们代码可以这么来写：

首先我们要在 on_start 回调函数里面加上来路URL

 
PHP
 
1
2
3
4

$spider->on_start=function($phpspider)
{

    $phpspider->add_header('Referer','http://www.mafengwo.cn/mdd/citylist/21536.html');

};

和上面获取城市列表一样，设置列表匹配规则：

 
PHP
 
1
2
3

'list_url_regexes'=>array(

    "http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid=d+",
)

然后在 on_list_page 回调里面判断如果是第一页就获取总页数，然后循环入队列：

 
 
 
 
 
 
PHP
 


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22


preg_match('#<span class="count">共<span>(.*?)</span>页#',$data_page,$out);

for($i=0;$i<$out[1];$i++)
{

    $v=$page['request']['fields']['mddid'];

    $url="http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid={$v}&page={$i}";

    $options=array(

        'url_type'=>$url,

        'method'=>'post',

        'fields'=>array(

            'mddid'=>$v,

            'pageid'=>'mdd_index',

            'sort'=>1,

            'cost'=>0,

            'days'=>0,

            'month'=>0,

            'tagid'=>0,

            'page'=>$i,

        )

    );

    // 游记列表页URL入队列

    $phpspider->add_url($url,$options);
}

通过上面两个步骤，我们就把所有热门城市下的游记列表都放入到了队列，接下来我们进行第三步，从这些列表里面获取内容页URL，然后提取内容。

3、获取热门城市下的游记列表

在 on_list_page 方法里面会得到列表页的内容，从这些内容里面我们可以提取内容页的URL

 
PHP
 
1
2
3
4
5
6
7
8
9
10
11

// 获取内容页

preg_match_all('#<a href="/i/(.*?).html" target="_blank">#',$html,$out);

if(!empty($out[1]))
{

    foreach($out[1]as$v)

    {

        $url="http://www.mafengwo.cn/i/{$v}.html";

        // 内容页URL入队列

        $phpspider->add_url($url);

    }
}

接下来我们来配置field提取内容页字段

 
 
 
 
 
PHP
 


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20


'fields'=>array(

    // 标题

    array(

        'name'=>"name",

        'selector'=>"//h1[contains(@class,'headtext')]",

        'required'=>true,

    ),

    // 分类

    array(

        'name'=>"city",

        'selector'=>"//div[contains(@class,'relation_mdd')]//a",

        'required'=>true,

    ),

    // 出发时间

    array(

        'name'=>"date",

        'selector'=>"//li[contains(@class,'time')]",

        'required'=>true,

    ),
)