`
NealCai
  • 浏览: 143960 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

php 爬虫

    博客分类:
  • php
阅读更多
<?php

header("Content-Type:text/html; charset=gb2312");
$url1 = "http://i8i8.cc/";
$ch1 = curl_init();
curl_setopt($ch1, CURLOPT_URL, $url1 );
curl_setopt($ch1, CURLOPT_RETURNTRANSFER, true);
$output1 = curl_exec($ch1);
curl_close($ch1);
$regx1='/(<a href=")(\/cclass\/((9|10|11|12|13|14|15)_1\.html))(">)(.*)(<\/a>)/';
preg_match_all ($regx1,$output1,$result, PREG_SET_ORDER);

//print_r($result);
$conn=mysql_connect(localhost,test,111111);
mysql_select_db("test",$conn);
mysql_query('SET NAMES gb2312;');
foreach($result as $key =>$value)
{

$url2 = "http://i8i8.cc".$result[$key][2];
//print_r($url2);
$ch2 = curl_init();
curl_setopt($ch2, CURLOPT_URL, $url2 );
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, true);
$output2 = curl_exec($ch2);
//print_r($output2);
curl_close($ch2);
$regx2='/(<li>)(<a href=")(.*\.html)(.*)(<img src=")(.*)(" alt=)(.*)(<span>)(.*)(<\/span>)/';
preg_match_all ($regx2,$output2,$movie, PREG_SET_ORDER);

//print_r($movie);

foreach($movie as$k =>$v )
{
$movie[$k][3]=substr($movie[$k][3],2);
$movie[$k][3]="http://i8i8.cc".$movie[$k][3];
//print_r($movie[$k][3]);

$url3 = $movie[$k][3];
$ch3 = curl_init();
curl_setopt($ch3, CURLOPT_URL, $url3 );
curl_setopt($ch3, CURLOPT_RETURNTRANSFER, true);
$output3 = curl_exec($ch3);
//var_dump($output3);
curl_close($ch3);

$regx_name='/(<div class=")(row_right)("><strong>)(.*)<\/strong>/';
preg_match_all ($regx_name,$output3,$movie_name, PREG_SET_ORDER);

$regx_actor='/(<div class="img">)(.*)(artlist&keyword=)(.*)(>)(.*)(<\/a>)/';
preg_match_all ($regx_actor,$output3,$movie_actor, PREG_SET_ORDER);

$regx_catalog='/(<div class="row_right"><A href="\/cclass\/(.*).html">)(.*)(<\/A> )/';
preg_match_all ($regx_catalog,$output3,$movie_catalog, PREG_SET_ORDER);

$regx_year='/<a href="\/year\/(.*).html">(.*)<\/a>/';
preg_match_all ($regx_year,$output3,$movie_year, PREG_SET_ORDER);
//print_r($movie_year);//[2]

$regx_update='/(更新时间:<\/div><div class="row_right">)(.*)<\/div>/';
preg_match_all ($regx_update,$output3,$movie_update, PREG_SET_ORDER);
//print_r($movie_update);//[2]

$regx_desc='/(主演。)(.*)<\/div>/';
preg_match_all ($regx_desc,$output3,$movie_desc, PREG_SET_ORDER);
//var_dump($movie_desc);//[2]
}



//mysql_query("insert into t_catalog values('{$key}','{$result[$key][6]}');");
}
mysql_close($conn);
?>
0
0
分享到:
评论

相关推荐

    php爬虫 demo

    **PHP爬虫技术详解** PHP爬虫是一种使用PHP编程语言编写的应用程序,它能够自动浏览互联网上的网页,抓取所需信息。在这个名为"phpspider-master"的压缩包中,包含了一个PHP爬虫的示例项目,可以帮助我们理解并学习...

    php爬虫采集类-phpQuery:支持抓取网站,非常强大的php类库

    phpQuery支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样...

    PHP爬虫 - 豆瓣爬虫项目 php 采用 thinkphp5.2框架.zip

    在IT行业中,PHP爬虫是一种常见的技术,用于自动抓取网页数据。本项目是一个使用PHP编写的豆瓣(Douban)爬虫,基于流行的MVC框架ThinkPHP5.2进行开发。这个框架提供了丰富的功能和良好的可扩展性,使得开发过程更加...

    php爬虫抓取公司基本信息和联系人信息

    以下是一个简单的PHP爬虫代码示例(以`demo.php`为例): ```php &lt;?php // 初始化cURL会话 $ch = curl_init(); // 设置请求的URL $url = 'https://example.com/company'; // 设置cURL选项 curl_setopt($ch, ...

    php爬虫抓取50W数据

    下面我们将详细探讨PHP爬虫的相关知识点,以及多线程在爬虫中的应用。 1. PHP爬虫基础: PHP是一种广泛使用的服务器端脚本语言,尤其适合于Web开发。编写PHP爬虫主要涉及到以下几个关键概念: - cURL库:PHP中的...

    php爬虫--伪登录

    在IT领域,尤其是在Web开发和数据抓取方面,"php爬虫--伪登录"是一个重要的概念。这个主题涉及到使用PHP编程语言编写网络爬虫程序,模拟用户登录网站以获取受保护的数据。以下是对这一主题的详细说明: 1. **PHP...

    基于PHP的淘宝画报PHP爬虫PHP免费版.zip

    【标题】"基于PHP的淘宝画报PHP爬虫PHP免费版.zip" 提供的是一个使用PHP语言编写的淘宝画报数据爬虫程序。这个程序的主要目的是抓取淘宝画报上的商品信息,包括但不限于图片、价格、商品详情等,以便进行数据分析、...

    基于PHP的体育php爬虫采集.zip

    【标题】: "基于PHP的体育php爬虫采集" 指的是使用PHP编程语言开发的一种网络爬虫程序,专门用于收集体育领域的数据。在互联网上,大量的体育信息如比赛结果、运动员数据、赛事预告等散落在不同的网站上,通过编写...

    PHP爬虫升级版,基于swoole与QueryList.zip

    # PHP爬虫,基于swoole与QueryList **执行方式:CLI** - 启动: #php start.php - 停止: #php stop.php **运行环境** ``` php &gt;= 7.0 配置swoole扩展与redis扩展 ``` **执行顺序** ``` 1. 执行php tastqueue.php...

    基于PHP的葵堆动漫php爬虫程序 php版.zip

    【标题】中的“基于PHP的葵堆动漫php爬虫程序 php版.zip”表明这是一个使用PHP编程语言开发的爬虫程序,专门用于抓取葵堆动漫网站的数据。爬虫是网络数据采集的重要工具,它能够自动地按照一定的规则浏览网页并提取...

    PHP实例开发源码—淘宝画报PHP爬虫PHP免费版.zip

    在本资源中,我们主要关注的是"PHP实例开发源码—淘宝画报PHP爬虫PHP免费版.zip",这显然是一份使用PHP编程语言编写的爬虫程序,用于抓取淘宝画报的数据。PHP是一种广泛使用的开源脚本语言,特别适合于Web开发,可以...

    PHP爬虫实例-4K壁纸爬取测试

    PHP爬虫实例,4K壁纸爬取测试。本实例的目标网站是一个叫《彼岸网》的壁纸网站,使用技术是 QueryList(php爬虫库)。 只要爬取.clearfix li&gt;a&gt;img元素里面的src属性和alt属性即可获得图片url和图片标题,实现代码...

    基于PHP的葵堆小说php爬虫程序.zip

    【标题】: "基于PHP的葵堆小说php爬虫程序" 这个标题暗示了我们讨论的主题是关于使用PHP语言开发的一款网络爬虫程序,专门用于抓取葵堆小说网站上的数据。葵堆小说可能是一个在线文学平台,提供各种类型的小说供...

    phpspiderPHP蜘蛛爬虫框架

    总之,PHPSpider作为一款强大的PHP爬虫框架,提供了灵活的扩展性和高效的数据抓取能力。通过学习和使用PHPSpider,开发者可以更好地应对复杂的网络数据抓取任务,实现个性化的需求。在实际应用中,我们应始终遵循...

    PHP实例开发源码—葵堆动漫php爬虫程序 php版.zip

    在这个葵堆动漫PHP爬虫程序中,开发者可能使用了上述技术来抓取动漫相关的数据。他们可能首先分析目标网站的页面结构,找出数据所在的HTML标签,然后编写PHP代码来发送HTTP请求,解析响应内容,提取所需数据,并进行...

    PHP实例开发源码—体育php爬虫采集.zip

    【PHP实例开发源码—体育php爬虫采集.zip】是一个包含PHP编程语言的实际应用案例,主要涉及体育数据的网络爬虫开发。这个压缩包提供的源码可以帮助开发者了解如何使用PHP来抓取和处理体育类网站的数据。以下是这个...

    使用php基于网页之间的链接抓取网站列表的php程序-全网抓取的php爬虫程序小试验

    get_all_domain_php_program是全网抓取的php爬虫程序小试验。通过网站之间的链接抓取全网域名的php程序。闲时玩玩,然后动手实现了一下,通过对网站里的出站域名,一直循环抓取所有域名入库,来取得全网域名。域名...

    基于PHP的新浪爱问知识人PHP爬虫程序.zip

    【标题】中的“基于PHP的新浪爱问知识人PHP爬虫程序”表明这是一个使用PHP语言编写的爬虫程序,目标是抓取新浪爱问知识人的数据。新浪爱问知识人是一个在线问答平台,用户可以在这里提问和回答问题,涉及各种领域,...

    基于PHP的随风知道php爬虫采集(联盟计划).zip

    【标题】中的“基于PHP的随风知道php爬虫采集(联盟计划)”表明这是一个使用PHP编程语言开发的项目,主要用于网络数据抓取,即爬虫技术。随风知道可能是一个在线问答平台或知识分享网站,而“联盟计划”可能是该项目...

    基于PHP的7x8Y中英文对照词典(php爬虫).zip

    【标题】"基于PHP的7x8Y中英文对照词典(php爬虫).zip" 涉及的核心知识点是使用PHP编程语言构建一个网络爬虫来抓取并处理中英文对照词典的数据。网络爬虫是自动化地从互联网上获取信息的一种程序,通常用于数据挖掘、...

Global site tag (gtag.js) - Google Analytics