snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
官方网站 http://snoopy.sourceforge.net/
下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies
下面是简单的例子,比如说我们抓取百度的文字
<?php
include "Snoopy.class.php" ;
$snoopy = new Snoopy ;
$snoopy -> fetchtext ( "http://www.baidu.com" );
echo $snoopy -> results ;
echo "<br/><font color='red'>上面是抓取网址上面的文字,下面这个却是抓取网址上面的链接地址</font><br/>";
$snoopy -> fetchlinks("http://www.baidu.com");
print_r( $snoopy -> results);
?>
运行出的结果为:
百度一下,你就知道 body{margin:4px 0}p{margin:0;padding:0}img{border:0}td,p,#u{font-size:12px}#b,#u,#l td,a{font-family:arial}#kw{font:16px Verdana;height:1.78em;padding-top:2px}#b{height:30px;padding-top:4px}#b,#b a{color:#77c}#u{padding-right:10px;line-height:19px;text-align:right;margin:0 0 3px !important;margin:0 0 10px}#sb{height:2em;width:5.6em}#km{height:50px}#l{margin:0 0 5px 15px}#l td{padding-left:107px}p,table{width:650px;border:0}#l td,#sb,#km{font-size:14px}#l a,#l b{margin-right:1.14em}a{color:#00c}a:active{color:#f60}#hp{position:absolute;margin-left:6px}#lg{margin:-26px 0 -44px}#lk{width:auto;line-height:18px;vertical-align:top}form{position:relative;z-index:9} 登录新 闻网 页贴 吧知 道MP3图 片视 频设置高级空间 hao123 | 更多>> 把百度设为主页加入百度推广 | 搜索风云榜 | 关于百度 | About Baidu?009 Baidu 使用百度前必读 京ICP证030173号
上面是抓取网址上面的文字,下面这个却是抓取网址上面的链接地址Array ( [0] => http://passport.baidu.com/?login&tpl=mn [1] => http://news.baidu.com [2] => http://tieba.baidu.com [3] => http://zhidao.baidu.com [4] => http://mp3.baidu.com [5] => http://image.baidu.com [6] => http://video.baidu.com [7] => http://www.baidu.com/gaoji/preferences.html [8] => http://www.baidu.com/gaoji/advanced.html [9] => http://hi.baidu.com [10] => http://www.hao123.com [11] => http://www.baidu.com/more/ [12] => http://utility.baidu.com/traf/click.php?id=215&url=http://www.baidu.com [13] => http://e.baidu.com [14] => http://top.baidu.com [15] => http://home.baidu.com [16] => http://ir.baidu.com [17] => http://www.baidu.com/duty/ [18] => http://www.miibeian.gov.cn )
分享到:
相关推荐
【PHP小偷原理及改进】 PHP小偷,也被称为网页抓取或网页爬虫,是一种技术,用于自动从网站上抓取数据。它通常通过解析HTML文档,利用正则表达式或其他解析工具来提取特定信息,如文章标题、内容、链接等。在原始的...
**PHP小偷程序原理与实例解析** PHP小偷程序,也称为PHP爬虫或PHP抓取程序,是一种利用PHP语言实现的网页数据抓取技术。它通过模拟浏览器发送HTTP请求,获取并处理互联网上的HTML或其他格式的数据,常用于数据分析...
1、初识正则表达式 ^([a-zA-Z0-9_-]... 若省略参数返回的数组,找到则返回值为 True 否则 返回 False ereg() 有区分大小写,eregi() 无区分大小写3、file_get_contents 读取整个文件函数4、写一个天气预报小偷的程序
在使用【美图小偷PHP源码】时,首先需要理解其核心原理。PHP是一种服务器端的脚本语言,常用于网页开发。源码中可能包含了HTTP请求、正则表达式匹配、DOM解析等技术,用于从目标网站获取HTML内容,然后从中提取出...
在运行前,确保具备PHP运行环境,并理解程序的工作原理和可能的风险,如服务器负载、版权问题等。 总的来说,"baidu搜索小偷程序PHP版本"是一个用于数据采集的工具,它利用PHP的网络请求和HTML解析能力,实现了对...
软件介绍 1、初识正则表达式 ^([a-zA-Z0-9_-]) @([a-zA-Z0-9_-]) (\.[a-zA-Z0-9_-]) 用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换...4、写一个天气预报小偷的程序
【PHP小偷程序,偷取百度搜索结果】 在IT领域,"PHP小偷程序"通常指的是使用PHP语言编写的脚本,它通过抓取并解析其他网站的数据来获取信息,这种行为在技术上称为网络爬虫。在这个特定的场景中,程序的目标是获取...
标题中的“PHP的天气预报小偷”指的是一个利用PHP编程语言编写的程序,该程序能够从特定的天气预报网站,如“问天网”,抓取并获取天气预报数据。这样的程序通常被称为网络爬虫或者数据抓取器,它通过模拟用户访问...
QQ空间音乐查看小偷 PHP 版是一个用于获取他人QQ空间音乐播放列表的程序。通过这款PHP源码,用户可以输入他人的QQ号码,程序将抓取并显示该QQ空间所设置的背景音乐列表。这个工具可能对那些对编程感兴趣、想要了解...
从【压缩包子文件的文件名称列表】中,我们可以看出该工具的工作原理和使用的一些关键文件: 1. **web.config**:这是ASP.NET应用程序的配置文件,用于定义网站的运行时行为,如URL重写规则、身份验证设置等,可能...
【网易新闻小偷 v2.0.rar】是一个基于PHP的新闻采集工具,主要功能是自动抓取并...通过学习和掌握其工作原理,用户不仅可以自定义界面,还可以了解到PHP动态网站的基本构建和数据处理方式,对提升PHP编程技能大有裨益。
简单的适合初学者的。php小偷程序原理代码
首先,我们来深入了解360软件下载小偷的工作原理。它通过网络接口与360软件管家的服务器进行通信,采用特定的API或者网页抓取技术(如正则表达式或DOM解析),检索到用户输入的软件名称相关的所有可用下载信息。这些...
1. **源码分享**:程序是开源的,意味着其他开发者可以查看、学习甚至修改它的代码,这对于初学者理解搜索引擎工作原理和PHP编程有极大帮助。 2. **小偷采集**:这是一种特殊的编程技术,用于自动化地从互联网获取...
源码的提供意味着开发人员或者对编程感兴趣的人可以深入理解程序的工作原理,学习PHP编程技巧,甚至根据自己的需求进行定制化开发。 【标签解析】 标签"PHP"明确指出这个项目使用的是PHP语言。PHP是一种广泛应用的...
【标题】"非主流图片小偷 php版 build 0610.rar" 是一个基于PHP的图片采集程序,主要用于自动化地从互联网上抓取非主流风格的图片资源,减轻了网站管理员频繁手动更新图片内容的工作负担。这个版本的构建日期为2006...
PHP搜索引擎爬虫的工作原理: 1. **爬取网页**:程序会通过HTTP/HTTPS协议向目标网站发送请求,获取网页的HTML内容。 2. **解析HTML**:使用DOM解析库(如PHP的DOMDocument)解析网页内容,提取出链接、标题、描述、...
理解搜索引擎的工作原理和排名算法,如Google的PageRank,对于有效利用这类工具至关重要。 以上是对"问问小偷程序代码"的详细解读和相关知识点的展开,这些知识涵盖了Web开发、服务器配置、SEO优化等多个领域。
理解其工作原理和使用方法对于开发动态网站、数据分析和自动化测试等领域至关重要。然而,使用此类技术时应遵守道德规范和法律法规,尊重网站的robots.txt规则,避免对目标服务器造成过大的负担。
PHP100视频教程16:PHP小偷程序原理和实例 PHP100视频教程17:PHP面向对象开发的学习(一) PHP100视频教程18:PHP面向对象开发的学习(二) PHP100视频教程19:PHP面向对象开发的学习(三) PHP100视频教程20:...