`
jimphei
  • 浏览: 38976 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
社区版块
存档分类
最新评论

PHP采集程序中常用的函数(转)

    博客分类:
  • php
阅读更多
//获得当前网址
function get_php_url(){
        if(!empty($_SERVER["REQUEST_URI"])){
                $scriptName = $_SERVER["REQUEST_URI"];
                $nowurl = $scriptName;
        }else{
                $scriptName = $_SERVER["PHP_SELF"];
                if(empty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName;
                else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"];
        }
        return $nowurl;
}
//把全角数字转为半角数字
function GetAlabNum($fnum){
        $nums = array("0","1","2","3","4","5","6","7","8","9");
        $fnums = "0123456789";
        for($i=0;$i<=9;$i++) $fnum = str_replace($nums[$i],$fnums[$i],$fnum);
        $fnum = ereg_replace("[^0-9\.]|^0{1,}","",$fnum);
        if($fnum=="") $fnum=0;
        return $fnum;
}
//去除HTML标记
function Text2Html($txt){
        $txt = str_replace("  "," ",$txt);
        $txt = str_replace("<","&lt;",$txt);
        $txt = str_replace(">","&gt;",$txt);
        $txt = preg_replace("/[\r\n]{1,}/isU","<br/>\r\n",$txt);
        return $txt;
}

//清除HTML标记
function ClearHtml($str){
        $str = str_replace(‘<’,'&lt;’,$str);
        $str = str_replace(‘>’,'&gt;’,$str);
        return $str;
}
//相对路径转化成绝对路径
function relative_to_absolute($content, $feed_url) {
    preg_match(‘/(http|https|ftp):///’, $feed_url, $protocol);
    $server_url = preg_replace("/(http|https|ftp|news):\/\//", "", $feed_url);
    $server_url = preg_replace("/\/.*/", "", $server_url);

    if ($server_url == ”) {
        return $content;
    }

    if (isset($protocol[0])) {
        $new_content = preg_replace(‘/href="\//’, ‘href="’.$protocol[0].$server_url.’/', $content);
        $new_content = preg_replace(‘/src="\//’, ’src="’.$protocol[0].$server_url.’/', $new_content);
    } else {
        $new_content = $content;
    }
    return $new_content;
}
//取得所有链接
function get_all_url($code){
        preg_match_all(‘/<as+href=["|\']?([^>" ]+)["|\']?\s*[^>]*>([^>]+)<\/a>/i’,$code,$arr);
        return array(‘name’=>$arr[2],’url’=>$arr[1]);
}

//获取指定标记中的内容
function get_tag_data($str, $start, $end){
        if ( $start == ” || $end == ” ){
               return;
        }
        $str = explode($start, $str);
        $str = explode($end, $str[1]);
        return $str[0];
}
//HTML表格的每行转为CSV格式数组
function get_tr_array($table) {
        $table = preg_replace("’<td[^>]*?>’si",’"’,$table);
        $table = str_replace("</td>",’",’,$table);
        $table = str_replace("</tr>","{tr}",$table);
        //去掉 HTML 标记
        $table = preg_replace("’<[\/\!]*?[^<>]*?>’si","",$table);
        //去掉空白字符
        $table = preg_replace("’([\r\n])[\s]+’","",$table);
        $table = str_replace(" ","",$table);
        $table = str_replace(" ","",$table);

        $table = explode(",{tr}",$table);
        array_pop($table);
        return $table;
}

//将HTML表格的每行每列转为数组,采集表格数据
function get_td_array($table) {
        $table = preg_replace("’<table[^>]*?>’si","",$table);
        $table = preg_replace("’<tr[^>]*?>’si","",$table);
        $table = preg_replace("’<td[^>]*?>’si","",$table);
        $table = str_replace("</tr>","{tr}",$table);
        $table = str_replace("</td>","{td}",$table);
        //去掉 HTML 标记
        $table = preg_replace("’<[\/\!]*?[^<>]*?>’si","",$table);
        //去掉空白字符
        $table = preg_replace("’([\r\n])[\s]+’","",$table);
        $table = str_replace(" ","",$table);
        $table = str_replace(" ","",$table);

        $table = explode(‘{tr}’, $table);
        array_pop($table);
        foreach ($table as $key=>$tr) {
                $td = explode(‘{td}’, $tr);
                array_pop($td);
            $td_array[] = $td;
        }
        return $td_array;
}

//返回字符串中的所有单词 $distinct=true 去除重复
function split_en_str($str,$distinct=true) {
        preg_match_all(‘/([a-zA-Z]+)/’,$str,$match);
        if ($distinct == true) {
                $match[1] = array_unique($match[1]);
        }
}

 个人认为采集程序重点主要在于正则的运用。

分享到:
评论

相关推荐

    PHP 采集程序中常用的函数

    在编写PHP采集程序时,会使用到一系列特定的函数来处理网页内容、获取信息、转换路径等任务。下面根据提供的内容详细解析这些常用函数的知识点。 1. 获得当前脚本的URL 在PHP采集程序中,有时需要获取当前页面的...

    php采集程序 宋正河

    总的来说,PHP采集程序是Web开发中的一个重要工具,它帮助我们高效地获取网络信息,而宋正河的分享无疑为学习和实践提供了宝贵的资源。通过不断学习和实践,开发者可以掌握更复杂的网页抓取技巧,为数据分析、搜索...

    PHP函数库,PHP函数大全,PHP函数实例,PHP函数手册,PHP5函数库实例

    PHP采集程序中常用的函数 PHP随机产生指定长度中文字符串 SMTP类 url地址参数加密 一些常用验证函数 下拉-单选框选择 创建多级目录 删除数组中相同元素,只保留一个 判断路径是绝对目录还是相对目录 利用...

    一个php采集的程序

    【PHP采集程序的基础知识】 PHP采集程序,也称为“小偷程序”,是一种使用PHP语言编写的脚本,用于从互联网上自动抓取和处理数据。这些数据通常包括网页内容、文章、图片等,并且可以被用于建立镜像网站、数据分析...

    PHP 简单的采集程序

    以下是一个简单的PHP采集程序框架: ```php &lt;?php $url = 'http://example.com'; // 目标网址 $content = file_get_contents($url); // 获取网页内容 $dom = new DOMDocument(); libxml_use_internal_errors(true)...

    PHP 采集程序 常用函数

    当前的脚本网址 function get_php_url(){ if(!empty($_SERVER[“REQUEST_URI”])){ $scriptName = $_SERVER[“REQUEST_URI”]; $nowurl = $scriptName; }else{ $scriptName = $_SERVER[“PHP_SELF”]; if(empty($_...

    电影程序带采集

    电影采集程序的实现涉及到的技术可能包括PHP编程、数据库操作(如MySQL)、HTML/CSS/JavaScript前端开发,以及可能的爬虫技术来自动获取网络上的电影数据。为了保证采集的合法性,开发者需要遵循网站的robots.txt...

    图片采集程序 PHP源码

    【标题】:“图片采集程序 PHP源码”是一个用于自动化收集网络上图片的PHP脚本,它可以帮助用户批量获取并下载指定网站上的图像资源。这样的程序在网页数据抓取、图片库构建、网络监控等领域有着广泛的应用。 ...

    PHP 采集程序原码

    在PHP中实现采集功能,主要涉及到以下几个关键知识点: ...理解并掌握这些知识点对于构建一个高效的PHP采集程序至关重要。同时,持续关注PHP社区的新技术和最佳实践,可以提升程序的性能和稳定性。

    初级的用php写的采集程序

    下面将详细讨论PHP采集程序的基本概念、常用方法以及可能涉及到的技术。 **1. PHP基础** PHP(Hypertext Preprocessor)是一种广泛使用的开源脚本语言,特别适合于Web开发,可嵌入到HTML中。它提供了丰富的函数库,...

    自动采集壁纸PHP程序

    用户可以通过阅读此文档了解如何正确使用这个壁纸采集程序。 4. **css**目录:包含了样式表文件,这些文件定义了网页的布局和视觉样式。CSS(层叠样式表)允许开发者独立于内容来控制网页的外观,使得页面设计更加...

    PHP采集程序大全 菜鸟必看 包含思路 小偷程序

    在这个名为“PHP采集程序大全.txt”的文件中,你将找到关于这些知识点的详细解释和实践示例,无论你是PHP新手还是希望深化理解的开发者,都能从中受益。通过学习和实践,你将能够独立编写出高效的PHP采集程序,从而...

    基于PHP的域名镜像克隆采集程序源码.zip

    【标题】"基于PHP的域名镜像克隆采集程序源码"揭示了这是一个使用PHP编程语言编写的程序,它的主要功能是实现域名镜像和内容采集。在互联网中,域名镜像指的是创建一个网站的完全复制,通常用于备份、负载均衡或者...

    基于PHP的MYCMS有声小说采集程序 php版.zip

    【描述】中的信息简洁明了,"基于PHP的MYCMS有声小说采集程序 php版.zip" 指出这是PHP语言实现的,专用于有声小说数据采集的程序。.zip文件意味着这是一个压缩包,里面包含了程序的所有必要文件和资源,用户需要解压...

    php采集,网站采集

    本话题将深入探讨如何使用PHP进行网站数据采集,包括基础概念、常用方法以及两个具体的PHP脚本示例——hehe.php和txt.php。 首先,理解数据采集的基本原理至关重要。数据采集,也称为网页抓取或网络爬虫,是指通过...

    基于PHP的Mars_Qvod资源采集程序php版源码.zip

    【描述】:描述中的“基于PHP的Mars_Qvod资源采集程序php版源码.zip”再次强调了这个项目是用PHP语言编写的,专为Mars_Qvod资源采集而设计。源码的提供意味着用户可以查看、学习、修改和扩展程序的功能,以适应自己...

    基于PHP的英文仿论坛PHP采集程序源码.zip

    【标题】"基于PHP的英文仿论坛PHP采集程序源码.zip"揭示了这是一个使用PHP编程语言编写的程序,主要用于从互联网上抓取和处理英文论坛的数据。PHP是一种广泛使用的开源脚本语言,尤其适合Web开发,它允许开发者创建...

    基于PHP的PiPiCMSphp皮皮影视采集程序正式版UTF8源码.zip

    【标题】"基于PHP的PiPiCMSphp皮皮影视采集程序正式版UTF8源码.zip"揭示了这个压缩包中的核心内容是一个用PHP语言开发的PiPiCMS影视内容采集程序的正式版本,且源码是UTF8编码。PiPiCMS是一款常见的开源内容管理系统...

Global site tag (gtag.js) - Google Analytics