- 浏览: 40024 次
- 性别:
- 来自: 厦门
最新评论
//获得当前网址 function get_php_url(){ if(!empty($_SERVER["REQUEST_URI"])){ $scriptName = $_SERVER["REQUEST_URI"]; $nowurl = $scriptName; }else{ $scriptName = $_SERVER["PHP_SELF"]; if(empty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName; else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"]; } return $nowurl; } //把全角数字转为半角数字 function GetAlabNum($fnum){ $nums = array("0","1","2","3","4","5","6","7","8","9"); $fnums = "0123456789"; for($i=0;$i<=9;$i++) $fnum = str_replace($nums[$i],$fnums[$i],$fnum); $fnum = ereg_replace("[^0-9\.]|^0{1,}","",$fnum); if($fnum=="") $fnum=0; return $fnum; } //去除HTML标记 function Text2Html($txt){ $txt = str_replace(" "," ",$txt); $txt = str_replace("<","<",$txt); $txt = str_replace(">",">",$txt); $txt = preg_replace("/[\r\n]{1,}/isU","<br/>\r\n",$txt); return $txt; } //清除HTML标记 function ClearHtml($str){ $str = str_replace(‘<’,'<’,$str); $str = str_replace(‘>’,'>’,$str); return $str; } //相对路径转化成绝对路径 function relative_to_absolute($content, $feed_url) { preg_match(‘/(http|https|ftp):///’, $feed_url, $protocol); $server_url = preg_replace("/(http|https|ftp|news):\/\//", "", $feed_url); $server_url = preg_replace("/\/.*/", "", $server_url); if ($server_url == ”) { return $content; } if (isset($protocol[0])) { $new_content = preg_replace(‘/href="\//’, ‘href="’.$protocol[0].$server_url.’/', $content); $new_content = preg_replace(‘/src="\//’, ’src="’.$protocol[0].$server_url.’/', $new_content); } else { $new_content = $content; } return $new_content; } //取得所有链接 function get_all_url($code){ preg_match_all(‘/<as+href=["|\']?([^>" ]+)["|\']?\s*[^>]*>([^>]+)<\/a>/i’,$code,$arr); return array(‘name’=>$arr[2],’url’=>$arr[1]); } //获取指定标记中的内容 function get_tag_data($str, $start, $end){ if ( $start == ” || $end == ” ){ return; } $str = explode($start, $str); $str = explode($end, $str[1]); return $str[0]; } //HTML表格的每行转为CSV格式数组 function get_tr_array($table) { $table = preg_replace("’<td[^>]*?>’si",’"’,$table); $table = str_replace("</td>",’",’,$table); $table = str_replace("</tr>","{tr}",$table); //去掉 HTML 标记 $table = preg_replace("’<[\/\!]*?[^<>]*?>’si","",$table); //去掉空白字符 $table = preg_replace("’([\r\n])[\s]+’","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode(",{tr}",$table); array_pop($table); return $table; } //将HTML表格的每行每列转为数组,采集表格数据 function get_td_array($table) { $table = preg_replace("’<table[^>]*?>’si","",$table); $table = preg_replace("’<tr[^>]*?>’si","",$table); $table = preg_replace("’<td[^>]*?>’si","",$table); $table = str_replace("</tr>","{tr}",$table); $table = str_replace("</td>","{td}",$table); //去掉 HTML 标记 $table = preg_replace("’<[\/\!]*?[^<>]*?>’si","",$table); //去掉空白字符 $table = preg_replace("’([\r\n])[\s]+’","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode(‘{tr}’, $table); array_pop($table); foreach ($table as $key=>$tr) { $td = explode(‘{td}’, $tr); array_pop($td); $td_array[] = $td; } return $td_array; } //返回字符串中的所有单词 $distinct=true 去除重复 function split_en_str($str,$distinct=true) { preg_match_all(‘/([a-zA-Z]+)/’,$str,$match); if ($distinct == true) { $match[1] = array_unique($match[1]); } }
个人认为采集程序重点主要在于正则的运用。
发表评论
-
PHP+JavaScript 实现动态显示服务器端运行进度条(转)
2010-12-24 09:48 1728我有一个 PHP 程序,需要循环调用 XMLRPC 500 次 ... -
ecshop数据字典(五)---关于优惠活动和品牌
2010-09-18 22:08 1043促销活动 -- -- Table structure fo ... -
ecshop数据字典(四)--关于会员,会员等级积分以及订单
2010-09-18 22:04 1920会员表 -- -- Table structure for ... -
AJAX中文乱码PHP完美解决(IE和Firefox兼容)--转载
2010-09-18 21:54 1017最近在做一个项目,遇到AJAX中文乱码问题,经过一个下午的努力 ... -
php的错误和异常(转载)
2010-09-05 10:02 1171一个正规的程序或项目 ... -
ecshop数据字典(三)---关于搜索与属性
2010-08-15 08:06 1192-- -- 表的结构 `ecs_attribute` -- ... -
ecshop数据字典(二)
2010-08-15 08:05 1145<pre lang='sql' line='1'> ... -
ecshop的数据字典(一)
2010-08-15 08:04 1266-- -- 表的结构 `ecs_shop_config` ... -
UTC和GMT时间
2010-08-15 08:01 953每个地区都有自己的本地时间,在网上以及无线电通信中时间转 ... -
php时间戳的使用
2010-08-15 07:59 780说得通俗一些,时间戳就是根据当前系统时间生成的一组随机 ... -
php中正则的使用
2010-08-15 07:57 702正则表达式,作为一种 ... -
解决php中文乱码
2010-08-15 07:55 2861一.首先是PHP网页的编码 1.php文件本身的编码与网页的 ... -
关于php的缓存技术
2010-08-15 07:40 1074在比较大型的项目中, ... -
php的魔术方法_call运用于dbObject封装,转自IBM的一篇文章
2010-08-15 07:35 772PHP V5 新的面向对象编程 ... -
安装Apache+PHP在Windows+IIS下
2009-11-04 10:24 701Linux+Apache+PHP+MySQL是一个 ...
相关推荐
在编写PHP采集程序时,会使用到一系列特定的函数来处理网页内容、获取信息、转换路径等任务。下面根据提供的内容详细解析这些常用函数的知识点。 1. 获得当前脚本的URL 在PHP采集程序中,有时需要获取当前页面的...
总的来说,PHP采集程序是Web开发中的一个重要工具,它帮助我们高效地获取网络信息,而宋正河的分享无疑为学习和实践提供了宝贵的资源。通过不断学习和实践,开发者可以掌握更复杂的网页抓取技巧,为数据分析、搜索...
PHP采集程序中常用的函数 PHP随机产生指定长度中文字符串 SMTP类 url地址参数加密 一些常用验证函数 下拉-单选框选择 创建多级目录 删除数组中相同元素,只保留一个 判断路径是绝对目录还是相对目录 利用...
【PHP采集程序的基础知识】 PHP采集程序,也称为“小偷程序”,是一种使用PHP语言编写的脚本,用于从互联网上自动抓取和处理数据。这些数据通常包括网页内容、文章、图片等,并且可以被用于建立镜像网站、数据分析...
以下是一个简单的PHP采集程序框架: ```php <?php $url = 'http://example.com'; // 目标网址 $content = file_get_contents($url); // 获取网页内容 $dom = new DOMDocument(); libxml_use_internal_errors(true)...
当前的脚本网址 function get_php_url(){ if(!empty($_SERVER[“REQUEST_URI”])){ $scriptName = $_SERVER[“REQUEST_URI”]; $nowurl = $scriptName; }else{ $scriptName = $_SERVER[“PHP_SELF”]; if(empty($_...
电影采集程序的实现涉及到的技术可能包括PHP编程、数据库操作(如MySQL)、HTML/CSS/JavaScript前端开发,以及可能的爬虫技术来自动获取网络上的电影数据。为了保证采集的合法性,开发者需要遵循网站的robots.txt...
【标题】:“图片采集程序 PHP源码”是一个用于自动化收集网络上图片的PHP脚本,它可以帮助用户批量获取并下载指定网站上的图像资源。这样的程序在网页数据抓取、图片库构建、网络监控等领域有着广泛的应用。 ...
在PHP中实现采集功能,主要涉及到以下几个关键知识点: ...理解并掌握这些知识点对于构建一个高效的PHP采集程序至关重要。同时,持续关注PHP社区的新技术和最佳实践,可以提升程序的性能和稳定性。
下面将详细讨论PHP采集程序的基本概念、常用方法以及可能涉及到的技术。 **1. PHP基础** PHP(Hypertext Preprocessor)是一种广泛使用的开源脚本语言,特别适合于Web开发,可嵌入到HTML中。它提供了丰富的函数库,...
用户可以通过阅读此文档了解如何正确使用这个壁纸采集程序。 4. **css**目录:包含了样式表文件,这些文件定义了网页的布局和视觉样式。CSS(层叠样式表)允许开发者独立于内容来控制网页的外观,使得页面设计更加...
在这个名为“PHP采集程序大全.txt”的文件中,你将找到关于这些知识点的详细解释和实践示例,无论你是PHP新手还是希望深化理解的开发者,都能从中受益。通过学习和实践,你将能够独立编写出高效的PHP采集程序,从而...
【标题】"基于PHP的域名镜像克隆采集程序源码"揭示了这是一个使用PHP编程语言编写的程序,它的主要功能是实现域名镜像和内容采集。在互联网中,域名镜像指的是创建一个网站的完全复制,通常用于备份、负载均衡或者...
【描述】中的信息简洁明了,"基于PHP的MYCMS有声小说采集程序 php版.zip" 指出这是PHP语言实现的,专用于有声小说数据采集的程序。.zip文件意味着这是一个压缩包,里面包含了程序的所有必要文件和资源,用户需要解压...
本话题将深入探讨如何使用PHP进行网站数据采集,包括基础概念、常用方法以及两个具体的PHP脚本示例——hehe.php和txt.php。 首先,理解数据采集的基本原理至关重要。数据采集,也称为网页抓取或网络爬虫,是指通过...
【描述】:描述中的“基于PHP的Mars_Qvod资源采集程序php版源码.zip”再次强调了这个项目是用PHP语言编写的,专为Mars_Qvod资源采集而设计。源码的提供意味着用户可以查看、学习、修改和扩展程序的功能,以适应自己...
【标题】"基于PHP的PiPiCMSphp皮皮影视采集程序正式版UTF8源码.zip"揭示了这个压缩包中的核心内容是一个用PHP语言开发的PiPiCMS影视内容采集程序的正式版本,且源码是UTF8编码。PiPiCMS是一款常见的开源内容管理系统...
【标题】"基于PHP的英文仿论坛PHP采集程序源码.zip"揭示了这是一个使用PHP编程语言编写的程序,主要用于从互联网上抓取和处理英文论坛的数据。PHP是一种广泛使用的开源脚本语言,尤其适合Web开发,它允许开发者创建...