`
abcs007
  • 浏览: 73242 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

php 抓取页面内容

    博客分类:
  • php
阅读更多

1,运用函数file_get_contents函数

<?php

$url = "http://www.baidu.com ";
$contents = file_get_contents($url);
//如果出现中文乱码使用下面代码
$getcontent = iconv("gb2312", "utf-8",$contents); 
echo $contents;

?>

注意,$url可以说本地的路径,如果指向网络路径,需要加上协议,如http

如果超时,可以改成如下代码:

 

$opts = array(
           'http'=array(
             'method'="GET",
             'timeout'=60, //设置超时,单位是秒
        )
    );
$context = stream_context_create($opts);
$contents = file_get_contents($url,false,$context);

 

2,运用curl(一个利用URL语法在命令行方式下工作的文件传输工具)

<?php

$url = "http://www.baidu.com ";
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;

?>

3,fopen->fread->fclose

<?php

$handle = fopen ("http://www.baidu.com/ ", "rb");
$contents = "";
do {
   $data = fread($handle, 1024);
   if (strlen($data) == 0) {
   break;
   }
   $contents .= $data;
} while(true);
fclose ($handle);
echo $contents;

?>

注:
1.使用file_get_contents和fopen必须空间开启allow_url_fopen。

        方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。
2.使用curl必须空间开启curl。

        方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉(似乎这样就好)(而且需要拷贝 ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安装curl扩展。)

分享到:
评论
1 楼 qlglandzjl 2012-07-17  
$opts = array(
           'http'=array(
             'method'="GET",
             'timeout'=60, //设置超时,单位是秒
        )
    );

这个地方错了,不是这么写的吧,
$opts = array(
           'http'=>array(
             'method'=>"GET",
             'timeout'=>60, //设置超时,单位是秒
        )
    );

相关推荐

    php应用curl扩展抓取网页类.zip

    4. **处理响应**:类可能会包含正则表达式(RegEx)方法,如`extractTitle()`和`extractContent()`,用于从网页内容中提取标题和文章内容。正则表达式是强大的文本匹配工具,可以精确地定位和提取所需信息。 5. **...

    PHP抓取网页程序库

    **PHP抓取网页程序库——PHPCrawl详解** 在互联网数据挖掘和信息处理领域,PHP抓取网页程序库,如PHPCrawl,扮演着至关重要的角色。PHP是一种广泛使用的服务器端脚本语言,尤其在Web开发中应用广泛,而PHPCrawl则是...

    PHP抓取网页数据代码

    通常,这涉及到发送HTTP请求到目标网站,然后解析返回的HTML或其他格式的网页内容,提取所需的数据。 在PHP中,我们可以使用内置的`file_get_contents`函数来获取网页的HTML源代码,或者使用cURL库来实现更复杂的...

    Snoopy_PHP网页抓取工具

    Snoopy_PHP网页抓取工具 snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。

    php抓取网页

    php抓取网页中的信息

    PHP抓取网页新闻函数(包含示例)

    - PHP的`file_get_contents()`函数:这是最基础的获取网页内容的方法,通过URL直接获取HTML源码。 - `cURL`库:提供更灵活的HTTP请求功能,可以处理各种HTTP选项,如设置代理、cookies、HTTP头等。 2. **正则...

    PHP模拟baidu蜘蛛抓取网站链接

    接着,我们要理解HTTP协议,特别是GET方法,这是爬虫通常用来获取网页内容的方式。HTTP GET请求会从服务器获取指定URL的资源,这对于抓取网页的HTML至关重要。 然后,我们需要解析HTML文档。PHP提供了DOMDocument和...

    php网页抓取小偷程序

    【PHP网页抓取小偷程序】是一种用于自动化获取远程网页内容并将其存储到数据库的应用程序。这个程序通常由几个关键组件组成,包括处理命令的`command.php`、展示用户界面的`index.php`、实际执行抓取任务的`get.php`...

    php网页快速抓取类,立即可用

    php网页快速抓取类,简单配置立即可用,强大的PHP采集类) 实例应用

    PHP抓取网页数据插入数据库

    首先,我们要理解PHP抓取网页数据的基本原理。这通常涉及到HTTP请求和HTML解析。PHP可以使用cURL库发起HTTP请求,获取网页的HTML源代码。例如,可以创建一个cURL会话,设置URL,然后执行请求: ```php $ch = curl_...

    php网页分析内容抓取爬虫文件分析

    php网页分析内容抓取爬虫文件分析 好用实用

    php页面抓取源码(一个小文件)

    当我们需要从其他网站获取数据,比如价格、新闻或者任何公开的网页内容时,"页面抓取"(Web Scraping)技术就显得尤为重要。本文将详细讲解PHP如何实现页面抓取,以及相关的重要知识点。 首先,页面抓取的基本原理...

    php防恶意刷新,过度抓取页面脚本

    本文将详细讲解如何利用PHP实现防恶意刷新和过度抓取页面的脚本。 首先,我们需要理解恶意刷新和抓取的本质。恶意刷新通常是指用户短时间内连续点击页面按钮,导致服务器接收到大量的重复请求;过度抓取则常见于...

    网页形式导出成excel

    这个过程涉及到网页抓取、HTML解析以及数据格式转换等多个技术环节。下面将详细讲解这个过程及其相关知识点。 首先,我们需要理解网页表格的结构。网页中的表格通常由HTML的`&lt;table&gt;`标签定义,包含`&lt;thead&gt;`(表头...

    python抓取并保存html页面时乱码问题的解决方法

    这通常发生在读取、解析或保存网页内容时,由于编码不匹配导致字符无法正确显示。本篇文章将深入探讨Python抓取并保存HTML页面时乱码问题的解决方法。 首先,我们需要理解编码的基础知识。计算机内部存储和处理文本...

    用PHP抓取页面并分析

    【标题】: "用PHP抓取页面并分析" 涉及的知识点 在Web开发中,有时我们需要从其他网站获取数据或者分析网页内容,这时就需要用到网页抓取(Web Scraping)技术。PHP是一种广泛应用的服务器端脚本语言,非常适合进行...

    远程抓取网页到本地数据库

    在这里被用来远程获取网页内容。 3. **Jscript服务端脚本**:JScript是一种类似于JavaScript的脚本语言,可以在服务器端执行。它被用于处理数据和逻辑操作。 4. **ADO技术**:即ActiveX Data Objects,是一种用于...

    php应用curl扩展抓取网页类

    本篇文章将深入探讨如何使用PHP的cURL扩展来抓取网页内容,以及如何创建一个类来封装这个功能。我们将讨论以下几个方面: 1. **cURL介绍** cURL是一个命令行工具,同时也提供了PHP的扩展,使得开发者可以在PHP脚本...

    php抓取页面

    在PHP中,可以使用`file_get_contents()`函数来获取远程网页内容,或者使用cURL库进行更复杂的HTTP操作。 ```php $html = file_get_contents('http://example.com'); ``` 一旦有了HTML源代码,我们就可以解析和...

    php写的页面小偷 自动抓取页面并在本地重新生成HTML文件

    标题中的“php写的页面小偷 自动抓取页面并在本地重新生成HTML文件”是指一种使用PHP编程语言编写的网页爬虫程序。这种程序的主要功能是自动地从互联网上抓取指定网页的内容,并在本地计算机上生成对应的HTML文件,...

Global site tag (gtag.js) - Google Analytics