snoopy采集phpchina示例 -

kaindy7633

浏览: 81427 次
性别:
来自: 绵阳

最近访客更多访客>>

ripples

ailongni

a1071686003

ldmmyx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

snoopy采集phpchina示例

博客分类：

snoopy采集

snoopy采集phpchina示例
<?php
//采集phpchina

set_time_limit(0);

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

//登陆论坛

$submit_url = "http://www.phpchina.com/bbs/logging.php?action=lo gin";

$submit_vars["loginmode"] = "normal";

$submit_vars["styleid"] = "1";

$submit_vars["cookietime"] = "";

$submit_vars["loginfield"] = "username";

$submit_vars["username"] = "***"; //你的用户名

$submit_vars["password"] = "*****"; //你的密码

$submit_vars["questionid"] = "0";

$submit_vars["answer"] = "";

$submit_vars["loginsubmit"] = "提交";

$snoopy->submit($submit_url,$submit_vars);

$snoopy->fetchlinks("http://www.phpchina.com/bbs");

$url=array();

$url=$snoopy->results;

//print_r($url);

foreach ($url as $key=>$value)

{

//匹配http://www.phpchina.com/bbs/forumdisplay.php?fid=1 56&sid=VfcqTR地址即论坛板块地址

if (!preg_match("/^(http:\/\/www\.phpchina\.com\/bbs\ /forumdisplay\.php\?fid=)[0-9]*&sid=[a-zA-Z]{6}/i", $value))

{

unset($url[$key]);

}

}

//print_r($url);

//获取到板块数组$url，循环访问，此处获取第一个模块第一页的数据

$i=0;

foreach ($url as $key=>$value)

{

if ($i>=1)

{

//测试限制

break;

{

//匹配http://www.phpchina.com/bbs/viewthread.php?tid=681 27&extra=page%3D1&page=1&sid=iBLZfK

if (!preg_match("/^(http:\/\/www\.phpchina\.com\/bbs\ /viewthread\.php\?tid=)[0-9]*&extra=page\%3D1&a mp;page=[0-9]*&sid=[a-zA-Z]{6}/i",$value))

{

unset($tie[$i][$key]);

}

}

//print_r($tie[$i]);

//归类数组，将同一个帖子不同页面的内容放一个数组里

$left='';//连接左边公用地址

$j=0;

$page=array();

foreach ($tie[$i] as $key=>$value)

{

$left=substr($value,0,52);

$m=0;

foreach ($tie[$i] as $pkey=>$pvalue)

{

//重组数组

if (substr($pvalue,0,52)==$left)

{

for ($n=1;$n<$nums;$n++)

{

$paget[$n]=array_diff($page[$n],$page[$n-1]);

}

//去除多维数组重复值结束

//去除数组空值

unset($page);

$page=array();//重新定义page数组

$page=array_filter($paget);

//print_r($page);

$u=0;

$title=array();

$content=array();

$temp='';

$tt=array();

foreach ($page as $key=>$value)

{

//外围循环，针对一个帖子

if (is_array($value))

{

foreach ($value as $k1=>$v1)

{

//页内循环，针对一个帖子的N页

$snoopy=new Snoopy();

$snoopy->fetch($v1);

$temp=$snoopy->results;

//读取标题

if (!preg_match_all("/<h2>(.*)<\/h2>/i",$temp,$tt))

{

echo "no title";

exit;

}

else

{

$title[$u]=$tt[1][1];

}

unset($tt);

//读取内容

if (!preg_match_all("/<div id=\"postmessage_[0-9]{1,8}\" class=\"t_msgfont\">(.*)<\/div>/i",$temp,$tt))

{

print_r($tt);

echo "no content1";

exit;

}

else

{

foreach ($tt[1] as $c=>$c2)

{

$content[$u].=$c2;

}

}

}

}

else

{

//直接取页内容

$snoopy=new Snoopy();

$snoopy->fetch($value);

$temp=$snoopy->results;

//读取标题

if (!preg_match_all("/<h2>(.*)<\/h2>/i",$temp,$tt))

{

echo "no title";

exit;

}

else

{

$title[$u]=$tt[1][1];

}

unset($tt);

//读取内容

if (!preg_match_all("/<div id=\"postmessage_[0-9]*\" class=\"t_msgfont\">(.*)<\/div>/i",$temp,$tt))

{

echo "no content2";

exit;

}

else

{

foreach ($tt[1] as $c=>$c2)

{

$content[$u].=$c2;

}

}

}

<?php

//采集phpchina

set_time_limit(0);

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

//登陆论坛

$submit_url = "http://www.phpchina.com/bbs/logging.php?action=lo gin";

$submit_vars["loginmode"] = "normal";

$submit_vars["styleid"] = "1";

$submit_vars["cookietime"] = "";

$submit_vars["loginfield"] = "username";

$submit_vars["username"] = "***"; //你的用户名

$submit_vars["password"] = "*****"; //你的密码

$submit_vars["questionid"] = "0";

$submit_vars["answer"] = "";

$submit_vars["loginsubmit"] = "提交";

$snoopy->submit($submit_url,$submit_vars);

if ($snoopy->results)

{

//获取连接地址

$snoopy->fetchlinks("http://www.phpchina.com/bbs");

$url=array();

$url=$snoopy->results;

//print_r($url);

foreach ($url as $key=>$value)

{

//匹配http://www.phpchina.com/bbs/forumdisplay.php?fid=1 56&sid=VfcqTR地址即论坛板块地址

if (!preg_match("/^(http:\/\/www\.phpchina\.com\/bbs\ /forumdisplay\.php\?fid=)[0-9]*&sid=[a-zA-Z]{6}/i", $value))

{

unset($url[$key]);

}

}

//print_r($url);

//获取到板块数组$url，循环访问，此处获取第一个模块第一页的数据

$i=0;

foreach ($url as $key=>$value)

{

if ($i>=1)

{

//测试限制

break;

}

else

{

//访问该模块，提取帖子的连接地址，正式访问里需要提取帖子分页的数据，然后根据分页数据提取帖子数据

$snoopy=new Snoopy();

$snoopy->fetchlinks($value);

$tie=array();

$tie[$i]=$snoopy->results;

//print_r($tie);

//转换数组

foreach ($tie[$i] as $key=>$value)

{

//匹配http://www.phpchina.com/bbs/viewthread.php?tid=681 27&extra=page%3D1&page=1&sid=iBLZfK

if (!preg_match("/^(http:\/\/www\.phpchina\.com\/bbs\ /viewthread\.php\?tid=)[0-9]*&extra=page\%3D1&a mp;page=[0-9]*&sid=[a-zA-Z]{6}/i",$value))

{

unset($tie[$i][$key]);

}

}

//print_r($tie[$i]);

//归类数组，将同一个帖子不同页面的内容放一个数组里

$left='';//连接左边公用地址

$j=0;

$page=array();

foreach ($tie[$i] as $key=>$value)

{

$left=substr($value,0,52);

$m=0;

foreach ($tie[$i] as $pkey=>$pvalue)

{

//重组数组

if (substr($pvalue,0,52)==$left)

{

$page[$j][$m]=$pvalue;

$m++;

}

}

$j++;

}

//去除重复项开始

//$page=array_unique($page);只能用于一维数组

$paget[0]=$page[0];

$nums=count($page);

for ($n=1;$n<$nums;$n++)

{

$paget[$n]=array_diff($page[$n],$page[$n-1]);

}

//去除多维数组重复值结束

//去除数组空值

unset($page);

$page=array();//重新定义page数组

$page=array_filter($paget);

//print_r($page);

$u=0;

$title=array();

$content=array();

$temp='';

$tt=array();

foreach ($page as $key=>$value)

{

//外围循环，针对一个帖子

if (is_array($value))

{

foreach ($value as $k1=>$v1)

{

//页内循环，针对一个帖子的N页

$snoopy=new Snoopy();

$snoopy->fetch($v1);

$temp=$snoopy->results;

//读取标题

if (!preg_match_all("/<h2>(.*)<\/h2>/i",$temp,$tt))

{

echo "no title";

exit;

}

else

{

$title[$u]=$tt[1][1];

}

unset($tt);

//读取内容

if (!preg_match_all("/<div id=\"postmessage_[0-9]{1,8}\" class=\"t_msgfont\">(.*)<\/div>/i",$temp,$tt))

{

print_r($tt);

echo "no content1";

exit;

}

else

{

foreach ($tt[1] as $c=>$c2)

{

$content[$u].=$c2;

}

}

}

}

else

{

//直接取页内容

$snoopy=new Snoopy();

$snoopy->fetch($value);

$temp=$snoopy->results;

//读取标题

if (!preg_match_all("/<h2>(.*)<\/h2>/i",$temp,$tt))

{

echo "no title";

exit;

}

else

{

$title[$u]=$tt[1][1];

}

unset($tt);

//读取内容

if (!preg_match_all("/<div id=\"postmessage_[0-9]*\" class=\"t_msgfont\">(.*)<\/div>/i",$temp,$tt))

{

echo "no content2";

exit;

}

else

{

foreach ($tt[1] as $c=>$c2)

{

$content[$u].=$c2;

}

}

}

$u++;

}

print_r($content);

}

$i++;

}

}

else

{

echo "login failed";

exit;

}

?>

分享到：

【转】css去掉a标签点击后的虚线框 | Snoopy.class.php文件采集

2012-08-07 21:00
浏览 1887
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

snoopy采集phpchina示例

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

snoopy采集phpchina示例

评论

发表评论

相关推荐

windows下用Apache配置虚拟主机

php通过腾迅的api接口获取ip地址以及所在城市

获取某字符串的字符编码

【转】正确拆分中英文混合字符串的函数

jQuery处理AJAX返回的数据

【转】PHPMailer 类综合应用

Snoopy.class.php文件采集

Snoopy.class.php

PHP检测内网服务器状态的方法！

【转】在Thinkphp中使用AJAX实现无刷新分页

ThinkPHP模板输入一维数组

【转】MYSQL删除表的记录后如何使ID从1开始

[转]ThinkPHP中分页加上搜索

mysqldump 常用备份选项,只备份数据或结构的方法

用PHP+批处理+计划任务实现OA系统远程修改客户服务器密码

[转]php使用mysqldump命令导出数据 文件内容为空 的解决(密码不能为空)

[转]分享一个thinkphp提示页面代码

【转】ThinkPHP页面跳转success与error方法,PHP

PHP写入文件时回车的问题

最近访客更多访客>>

[转]php使用mysqldump命令导出数据文件内容为空的解决(密码不能为空)