- 浏览: 408093 次
- 性别:
- 来自: 深圳
文章分类
最新评论
-
wcjagta:
...
dedecms插件开发教程 -
xc2013:
看起来不错 先下载来试试
ECSHOP完全静态化解决方法 -
greemranqq:
你好,我在xp 上做实验,也是JS css带不过来,关于 ro ...
nginx资源定向 css js路径问题 -
hotsmile:
表结构给出来吧,测试的提示说要注册,
中国移动CMPP短信开发平台通讯包 2.8 -
mengdejun:
gang80306176 写道这个插件怎么用和安装普通插件一样 ...
phpcms2008 sp4单网页编辑器插件
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持。
一、Snoopy的一些特点:
1.抓取网页的内容 fetch
2.抓取网页的文本内容 (去除HTML标签) fetchtext
3.抓取网页的链接,表单 fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码验证
6.支持设置user_agent, referer(来路), cookies和header content(头文件)
7.支持浏览器重定向,并能控制重定向深度
8.能把网页中的链接扩展成高质量的url(默认)
9.提交数据并且获取返回值
10.支持跟踪HTML框架
11.支持重定向的时候传递cookies,要求php4以上就可以了,由于本身是php一个类,无需扩支持,服务器不支持curl时候的最好选择。
二、类方法:
fetch($URI)
———–
这是为了抓取网页的内容而使用的方法。$URI参数是被抓取网页的URL地址。抓取的结果被存储在 $this->results 中。如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。
fetchtext($URI)
—————
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。
fetchform($URI)
—————
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。
fetchlinks($URI)
—————-
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
submit($URI,$formvars)
———————-
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。
submittext($URI,$formvars)
————————–
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。
submitlinks($URI)
—————-
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
三、类属性: (缺省值在括号里)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies, 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)
设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false
四、以下是demo
include "Snoopy.class.php"; $snoopy = new Snoopy; $snoopy->proxy_host = "www.baidu.com"; $snoopy->proxy_port = "8080"; $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; $snoopy->referer = "http://www.baidu.com/"; $snoopy->cookies["SessionID"] = 238472834723489l; $snoopy->cookies["favoriteColor"] = "RED"; $snoopy->rawheaders["Pragma"] = "no-cache"; $snoopy->maxredirs = 2; $snoopy->offsiteok = false; $snoopy->expandlinks = false; $snoopy->user = "joe"; $snoopy->pass = "bloe"; if($snoopy->fetchtext("http://www.baidu.com")) { echo " <PRE>".htmlspecialchars($snoopy->results)." </PRE>\n"; <BR> } <BR> else <BR> echo "error fetching document: ".$snoopy->error."\n"; snoopy采集phpchina示例 <?php //采集phpchina set_time_limit(0); require_once("Snoopy.class.php"); $snoopy=new Snoopy(); //登陆论坛 $submit_url = "http://www.phpchina.com/bbs/logging.php?action=login"; $submit_vars["loginmode"] = "normal"; $submit_vars["styleid"] = "1"; $submit_vars["cookietime"] = "315360000"; $submit_vars["loginfield"] = "username"; $submit_vars["username"] = "***"; //你的用户名 $submit_vars["password"] = "*****"; //你的密码 $submit_vars["questionid"] = "0"; $submit_vars["answer"] = ""; $submit_vars["loginsubmit"] = "提 交"; $snoopy->submit($submit_url,$submit_vars); if ($snoopy->results) { //获取连接地址 $snoopy->fetchlinks("http://www.phpchina.com/bbs"); $url=array(); $url=$snoopy->results; //print_r($url); foreach ($url as $key=>$value) { //匹配http://www.phpchina.com/bbs/forumdisplay.php?fid=156&sid=VfcqTR地址即论坛板块地址 if (!preg_match("/^(http:\/\/www\.phpchina\.com\/bbs\/forumdisplay\.php\?fid=)[0-9]*&sid=[a-zA-Z]{6}/i",$value)) { unset($url[$key]); } } //print_r($url); //获取到板块数组$url,循环访问,此处获取第一个模块第一页的数据 $i=0; foreach ($url as $key=>$value) { if ($i>=1) { //测试限制 break; } else { //访问该模块,提取帖子的连接地址,正式访问里需要提取帖子分页的数据,然后根据分页数据提取帖子数据 $snoopy=new Snoopy(); $snoopy->fetchlinks($value); $tie=array(); $tie[$i]=$snoopy->results; //print_r($tie); //转换数组 foreach ($tie[$i] as $key=>$value) { //匹配http://www.phpchina.com/bbs/viewthread.php?tid=68127& extra=page%3D1&page=1&sid=iBLZfK if (!preg_match("/^(http:\/\/www\.phpchina\.com\/bbs\/viewthread\.php\?tid=)[0-9]*&extra=page\%3D1&page=[0-9]*&sid=[a-zA-Z]{6}/i",$value)) { unset($tie[$i][$key]); } } //print_r($tie[$i]); //归类数组,将同一个帖子不同页面的内容放一个数组里 $left='';//连接左边公用地址 $j=0; $page=array(); foreach ($tie[$i] as $key=>$value) { $left=substr($value,0,52); $m=0; foreach ($tie[$i] as $pkey=>$pvalue) { //重组数组 if (substr($pvalue,0,52)==$left) { $page[$j][$m]=$pvalue; $m++; } } $j++; } //去除重复项开始 //$page=array_unique($page);只能用于一维数组 $paget[0]=$page[0]; $nums=count($page); for ($n=1;$n <$nums;$n++) { $paget[$n]=array_diff($page[$n],$page[$n-1]); } //去除多维数组重复值结束 //去除数组空值 unset($page); $page=array();//重新定义page数组 $page=array_filter($paget); //print_r($page); $u=0; $title=array(); $content=array(); $temp=''; $tt=array(); foreach ($page as $key=>$value) { //外围循环,针对一个帖子 if (is_array($value)) { foreach ($value as $k1=>$v1) { //页内循环,针对一个帖子的N页 $snoopy=new Snoopy(); $snoopy->fetch($v1); $temp=$snoopy->results; //读取标题 if (!preg_match_all("/ <h2>(.*) <\/h2>/i",$temp,$tt)) { echo "no title"; exit; } else { $title[$u]=$tt[1][1]; } unset($tt); //读取内容 if (!preg_match_all("/ <div id=\"postmessage_[0-9]{1,8}\" class=\"t_msgfont\">(.*) <\/div>/i",$temp,$tt)) { print_r($tt); echo "no content1"; exit; } else { foreach ($tt[1] as $c=>$c2) { $content[$u].=$c2; } } } } else { //直接取页内容 $snoopy=new Snoopy(); $snoopy->fetch($value); $temp=$snoopy->results; //读取标题 if (!preg_match_all("/ <h2>(.*) <\/h2>/i",$temp,$tt)) { echo "no title"; exit; } else { $title[$u]=$tt[1][1]; } unset($tt); //读取内容 if (!preg_match_all("/ <div id=\"postmessage_[0-9]*\" class=\"t_msgfont\">(.*) <\/div>/i",$temp,$tt)) { echo "no content2"; exit; } else { foreach ($tt[1] as $c=>$c2) { $content[$u].=$c2; } } } $u++; } print_r($content); } $i++; } } else { echo "login failed"; exit; } ?>
- Snoopy-1.2.4.zip (23.7 KB)
- 下载次数: 93
发表评论
-
php异步操作类库
2011-06-05 16:01 1830httpclient for php 的选择常用方案有以 ... -
织梦HTTP IMAGE下载类
2011-06-05 14:57 1876<?php if(!defined('DEDEINC ... -
php汉字转拼音
2011-06-05 14:41 1612<?php /**************** ... -
php异步调用 提高用户体验
2011-05-30 14:22 1320这是我的一个技术很好的朋友写的,要我发表在我的博客上可让php ... -
PHP 异步调用 后台调用 持续执行 断开连接/浏览器
2011-05-26 10:31 1720标题很怪,因为我也 ... -
php socket模拟POST GET请求 fsockopen版
2011-05-26 10:14 7389function httpRequestGET($url){ ... -
php socket GET POST提交方法(HttpClient) 框架
2011-05-25 18:29 5559<?php /* Version 0.9, 6th ... -
mantis
2011-05-25 09:50 1295mantis 缺陷管理平台Mantis,也做Mantis ... -
Curl参数一览
2011-05-06 17:30 1486* 目录 1. 介绍 ... -
PHPRPC
2011-04-24 11:01 1330PHPRPC 是一个轻型的、安全的、跨网际的、跨语言的、跨平台 ... -
PHP身份证验证程序
2011-04-24 10:56 1272<?php // 计算身份证校验码,根据国家标准GB 116 ... -
nginx 502 Bad Gateway 错误问题收集
2011-04-23 09:43 1792502是FastCGI出现问题,所以从FastCGI配置入手。 ... -
深入理解PHP内存管理之谁动了我的内存
2011-04-12 21:57 850首先让我们看一个问题: ... -
socket模拟post表单
2011-04-11 15:40 2809post的本质就是发送给目的程序一个标志为post的协议串如下 ... -
OAUTH协议
2011-04-09 09:59 1116OAUTH协议为用户资源的 ... -
nginx/windows: 让nginx以服务的方式运行
2011-04-09 09:33 1157在windows下安装了nginx, 郁闷是发现它没有以服 ... -
ThinkPHP处理海量数据分表机制详细代码
2011-04-07 18:27 7226应用ThinkPHP内置的分表算法处理百万级用户数据. ... -
php 分库分表hash算法
2011-04-07 18:16 1702//分库分表算法 function calc_hash_d ... -
nginx配置文件实例: php (fastcgi), perl, proxy, rrd, nagios
2011-04-06 20:33 1840nginx.conf worker_processes 5; ... -
Nginx location 指令的使用(中文翻译)
2011-04-06 20:31 1169location syntax: location [=|~ ...
相关推荐
使用Snoopy来模拟登陆,然后采集登陆后的页面非常管用! Snoopy的特点: 1、抓取网页的内容 fetch 2、抓取网页的文本内容 (去除HTML标签) fetchtext 3、抓取网页的链接,表单 fetchlinks fetchform 4、支持代理主机 ...
(下载snoopy) Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。 Snoopy的一些特点: * 方便抓取网页的内容 * 方便抓取网页的文本内容 (去除HTML标签) * 方便抓取网页的链接 *...
标题 "PHP采集器Snoopy详解" 描述的是一个用于PHP的网络数据抓取工具,名为Snoopy。Snoopy作为一个PHP类,其主要功能是模拟浏览器的行为,包括获取网页内容、处理表单提交等。它需要PHP版本在4以上,并依赖于PCRE...
Snoopy.class.php 是一个广泛使用的PHP类库,主要用于实现HTTP客户端的功能,它允许开发者模拟浏览器行为,发送HTTP请求,并获取服务器的响应。这个库在处理网页抓取、数据采集和自动化测试等任务时非常有用。 ...
【标题】"PHP实例开发源码—snoopy 强大的PHP采集类.zip" 提供的是一个使用PHP编写的名为Snoopy的网络爬虫类的源代码实例。Snoopy是一个广泛应用于PHP项目的网页抓取工具,它可以帮助开发者轻松地获取网页内容,模拟...
【标题】"基于PHP的snoopy强大的PHP采集类源码.zip" 提供的是一个用于网页数据抓取的工具,Snoopy是一个流行的PHP类库,专为处理Web抓取和模拟浏览器行为而设计。在PHP开发中,当需要从网站获取数据而没有提供API时...
标题"Snoopy"指的是一个名为"Snoopy"的PHP类库,它在PHP开发中用于模拟Web浏览器的行为,实现HTTP请求的功能。Snoopy库允许开发者通过PHP代码发送GET、POST和其他HTTP请求,获取网页内容,这对于网页抓取、数据分析...
### Snoopy PHP 类详解 #### 一、简介 Snoopy 是一个强大的 PHP 类库,主要功能在于模拟 Web 浏览器的行为。...通过合理的配置和使用方法,开发者可以利用 Snoopy 实现高效的网络数据采集与处理工作。
使用Snoopy类库时,开发者首先需要包含"Snoopy.class.php"文件,然后创建Snoopy对象,配置所需参数,如代理、cookies等,接着发起请求并获取响应。其基本使用流程如下: ```php require_once('Snoopy.class.php'); ...
通过深入理解Snoopy的工作原理和使用方法,我们可以更好地优化系统性能,找出潜在的问题,并进行有效的故障排查。 首先,Snoopy的核心功能在于记录进程的启动、运行和结束,这包括进程ID(PID)、父进程ID(PPID)...
《基于PHP的Snoopy:强大的PHP采集类详解》 在Web开发中,数据抓取或网络爬虫是一项常见的任务,用于从网站上获取信息,分析网页内容,甚至构建搜索引擎。PHP作为流行的服务器端脚本语言,也拥有许多用于网络爬虫的...
使用Snoopy类时,首先需要包含`snoopy.class.php`文件,然后创建一个Snoopy对象并配置相关属性。例如,以下代码演示了如何设置代理服务器并抓取网页内容: ```php include "Snoopy.class.php"; $snoopy = new ...
在使用Snoopy之前,需要确保服务器环境安装了PHP,并且版本至少为3.0.9以上,同时支持Perl Compatible Regular Expressions (PCRE)。为了支持读取超时功能,还需要PHP 4 Beta 4或更高版本。 #### Snoopy的核心功能 ...
使用php curl族的多线程函数,并结合开源的snoopy 和simple_html_dom 对html的处理,使采集特定区域的内容轻松起来。当然,您也可以设置通过正则来采集。程序也可以采集远程图片到本地。详细使用说明见readme.html. ...
Snoopy是一个用来模拟浏览器的一些简单功能的php类,可以获取网页内容,发送表单等操作,Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持,由于...
Snoopy类的使用非常广泛,尤其在开发采集程序和小偷程序时,能提供便捷的接口实现数据采集任务。 3. Snoopy类的下载和使用 使用Snoopy之前,需要从其官方提供的地址下载Snoopy类库文件。下载后,需要将该类文件包含...
- **PHP版本**:Snoopy要求使用带有PCRE(Perl Compatible Regular Expressions)扩展的PHP,最低版本为PHP 3.0.9。为了支持读取超时功能,则需要PHP 4 Beta 4或更高版本。 - **测试环境**:Snoopy在PHP 3.0.12环境...
Snoopy.class.php,实现网页下载, 网页采集类,Snoopy的一些功能特点: 抓取网页的内容 fetch() 抓取网页的文本内容 (去除HTML标签) fetchtext() 抓取网页的链接,表单 fetchlinks() fetchform() 支持代理...