`
王之子
  • 浏览: 109845 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

curl 和 file_get_contents 抓取网页乱码的解决之道

阅读更多

    今天用 curl_init 函数抓取搜狐的网页时,发现采集的网页时乱码,经过分析发现原来是服务器开启了gzip压缩功能。只要往函数 curl_setopt 添加多个选项 CURLOPT_ENCODING 解析 gzip 就可以正确解码了。


    还有如果抓取的网页时 GBK 编码,但是脚本确是 utf-8 编码,还得把抓取的网页再用函数 mb_convert_encoding 转换下。

<?php

    $tmp = sys_get_temp_dir();

    $cookieDump = tempnam($tmp, 'cookies');
    $url = 'http://tv.sohu.com';
    $ch = curl_init();
    curl_setopt ($ch, CURLOPT_URL, $url);
    curl_setopt ($ch, CURLOPT_HEADER, 1);// 显示返回的Header区域内容
    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转
    curl_setopt ($ch, CURLOPT_TIMEOUT, 10);// 设置超时限制
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
    curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);// 链接超时限制
    curl_setopt ($ch, CURLOPT_HTTPHEADER,array('Accept-Encoding: gzip, deflate'));//设置 http 头信息
    curl_setopt ($ch, CURLOPT_ENCODING, 'gzip,deflate');//添加 gzip 解码的选项,即使网页没启用 gzip 也没关系
    curl_setopt ($ch, CURLOPT_COOKIEJAR, $cookieDump);  // 存放Cookie信息的文件名称
    $content = curl_exec($ch);
    // 把抓取的网页由 GBK 转换成 UTF-8 
    $content = mb_convert_encoding($content,"UTF-8","GBK");
?>

 

<?php
    $url = 'http://tv.sohu.com';
    // 只要添加 compress.zlib 选项,即使服务器启用了gzip 压缩功能,就能够解码了
    $content = file_get_contents("compress.zlib://".$url);
    // 把抓取的网页由 GBK 转换成 UTF-8 
    $content = mb_convert_encoding($content,"UTF-8","GBK");

?>

 

原文:http://woqilin.blogspot.com/2014/05/curl-filegetcontents.html

分享到:
评论

相关推荐

    PHP中使用file_get_contents抓取网页中文乱码问题解决方法

    总的来说,解决 PHP 使用 `file_get_contents` 抓取网页中文乱码问题的关键在于理解 HTTP 编码头信息、正确处理 GZIP 压缩以及确保字符编码转换的准确性。使用 `cURL` 或 `zlib` 结合合适的编码转换方法,可以有效地...

    解析file_get_contents模仿浏览器头(user_agent)获取数据

    在进行网络数据抓取或网页内容获取时,`file_get_contents` 是 PHP 内置的一个非常实用的函数,它能够方便地从指定的 URL 或本地文件读取内容。然而,在某些情况下,直接使用 `file_get_contents` 可能无法获取到...

    php 模拟浏览器请求网页见容

    $content = $response-&gt;getBody()-&gt;getContents(); ``` Guzzle支持链式调用,可以方便地配置各种请求参数。 在进行网页抓取时,还需要注意以下几点: - **遵守robots.txt**:尊重网站的爬虫规则,避免对服务器...

    php中抓取网页内容的实例详解

    本文将详细介绍两种在PHP中抓取网页内容的实例方法:使用`file_get_contents`函数和使用cURL库。 ### 方法一:使用`file_get_contents` `file_get_contents`是PHP内建的一个函数,用于读取文件或URL的内容。在抓取...

    SimpleHtmlDom:php使用simple_html_dom抓取网页数据的一个Demo

    通过结合cURL或file_get_contents等HTTP请求函数,可以构建强大的网页抓取系统。 总结来说,SimpleHtmlDom是一个实用的PHP库,提供了一种直观的方式来解析和操作HTML文档。尽管有其限制,但对许多开发者而言,它是...

    php获取网页内容方法总结

    抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的,以下就是几种常用的用php抓取网页中的内容的方法。1.file_get_contents PHP代码 复制代码 ...

    PHP抓取及分析网页的方法详解

    `file_get_contents`函数用于读取整个文件的内容,也可以用来获取网页内容。它的语法非常简单: ```php $data = file_get_contents($url); ``` 其中`$data`变量中存储了从指定URL地址抓取的内容。 2. 使用`...

    PHP读取网页文件内容的实现代码(fopen,curl等)

    本文提供了几种常见的方法来实现这一功能,主要包含fopen、curl以及file_get_contents函数等。 首先,我们来看使用fopen函数读取网页内容的实现。fopen函数是PHP中用于打开文件或者网络连接的函数,当传入一个URL时...

    比较全的获得ip地理信息的几种方法小结

    最后,文中还提到了几种网络抓取数据的方法:使用curl,file_get_contents以及fopen、fread和fclose。其中file_get_contents函数因其简便易用,是一个推荐的方法。对于PHP开发者来说,可以使用file_get_contents()...

    PHP 爬取网页的主要方法

    首先,PHP提供了多种方式来获取网页内容,常见的方法包括使用file()函数、file_get_contents()函数、fopen()-&gt;fread()-&gt;fclose()模式、curl方式、fsockopen()函数以及使用插件。每种方法都有其特点和适用场景。 1. ...

    webscraping

    cURL提供了一个更强大的接口,支持各种HTTP选项,而file_get_contents则相对简单,适用于基本的网页下载需求。 一旦获取了网页内容,下一步是解析HTML。PHP提供了DOMDocument类,可以将HTML文档转换为DOM树结构,...

    php生成网页桌面快捷方式

    2. 抓取网页内容,可能用到curl或file_get_contents等函数。 3. 使用PHP实现简单的登录、注册和密码修改功能,涉及数据库操作和表单处理。 4. 利用CutyCapt库进行网页截图,这可能涉及到图形处理和命令行调用。 5. ...

Global site tag (gtag.js) - Google Analytics