今天用 curl_init 函数抓取搜狐的网页时,发现采集的网页时乱码,经过分析发现原来是服务器开启了gzip压缩功能。只要往函数 curl_setopt 添加多个选项 CURLOPT_ENCODING 解析 gzip 就可以正确解码了。
还有如果抓取的网页时 GBK 编码,但是脚本确是 utf-8 编码,还得把抓取的网页再用函数 mb_convert_encoding 转换下。
<?php $tmp = sys_get_temp_dir(); $cookieDump = tempnam($tmp, 'cookies'); $url = 'http://tv.sohu.com'; $ch = curl_init(); curl_setopt ($ch, CURLOPT_URL, $url); curl_setopt ($ch, CURLOPT_HEADER, 1);// 显示返回的Header区域内容 curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转 curl_setopt ($ch, CURLOPT_TIMEOUT, 10);// 设置超时限制 curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回 curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);// 链接超时限制 curl_setopt ($ch, CURLOPT_HTTPHEADER,array('Accept-Encoding: gzip, deflate'));//设置 http 头信息 curl_setopt ($ch, CURLOPT_ENCODING, 'gzip,deflate');//添加 gzip 解码的选项,即使网页没启用 gzip 也没关系 curl_setopt ($ch, CURLOPT_COOKIEJAR, $cookieDump); // 存放Cookie信息的文件名称 $content = curl_exec($ch); // 把抓取的网页由 GBK 转换成 UTF-8 $content = mb_convert_encoding($content,"UTF-8","GBK"); ?>
<?php $url = 'http://tv.sohu.com'; // 只要添加 compress.zlib 选项,即使服务器启用了gzip 压缩功能,就能够解码了 $content = file_get_contents("compress.zlib://".$url); // 把抓取的网页由 GBK 转换成 UTF-8 $content = mb_convert_encoding($content,"UTF-8","GBK"); ?>
原文:http://woqilin.blogspot.com/2014/05/curl-filegetcontents.html
相关推荐
总的来说,解决 PHP 使用 `file_get_contents` 抓取网页中文乱码问题的关键在于理解 HTTP 编码头信息、正确处理 GZIP 压缩以及确保字符编码转换的准确性。使用 `cURL` 或 `zlib` 结合合适的编码转换方法,可以有效地...
在进行网络数据抓取或网页内容获取时,`file_get_contents` 是 PHP 内置的一个非常实用的函数,它能够方便地从指定的 URL 或本地文件读取内容。然而,在某些情况下,直接使用 `file_get_contents` 可能无法获取到...
$content = $response->getBody()->getContents(); ``` Guzzle支持链式调用,可以方便地配置各种请求参数。 在进行网页抓取时,还需要注意以下几点: - **遵守robots.txt**:尊重网站的爬虫规则,避免对服务器...
本文将详细介绍两种在PHP中抓取网页内容的实例方法:使用`file_get_contents`函数和使用cURL库。 ### 方法一:使用`file_get_contents` `file_get_contents`是PHP内建的一个函数,用于读取文件或URL的内容。在抓取...
通过结合cURL或file_get_contents等HTTP请求函数,可以构建强大的网页抓取系统。 总结来说,SimpleHtmlDom是一个实用的PHP库,提供了一种直观的方式来解析和操作HTML文档。尽管有其限制,但对许多开发者而言,它是...
抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的,以下就是几种常用的用php抓取网页中的内容的方法。1.file_get_contents PHP代码 复制代码 ...
`file_get_contents`函数用于读取整个文件的内容,也可以用来获取网页内容。它的语法非常简单: ```php $data = file_get_contents($url); ``` 其中`$data`变量中存储了从指定URL地址抓取的内容。 2. 使用`...
本文提供了几种常见的方法来实现这一功能,主要包含fopen、curl以及file_get_contents函数等。 首先,我们来看使用fopen函数读取网页内容的实现。fopen函数是PHP中用于打开文件或者网络连接的函数,当传入一个URL时...
最后,文中还提到了几种网络抓取数据的方法:使用curl,file_get_contents以及fopen、fread和fclose。其中file_get_contents函数因其简便易用,是一个推荐的方法。对于PHP开发者来说,可以使用file_get_contents()...
首先,PHP提供了多种方式来获取网页内容,常见的方法包括使用file()函数、file_get_contents()函数、fopen()->fread()->fclose()模式、curl方式、fsockopen()函数以及使用插件。每种方法都有其特点和适用场景。 1. ...
cURL提供了一个更强大的接口,支持各种HTTP选项,而file_get_contents则相对简单,适用于基本的网页下载需求。 一旦获取了网页内容,下一步是解析HTML。PHP提供了DOMDocument类,可以将HTML文档转换为DOM树结构,...
2. 抓取网页内容,可能用到curl或file_get_contents等函数。 3. 使用PHP实现简单的登录、注册和密码修改功能,涉及数据库操作和表单处理。 4. 利用CutyCapt库进行网页截图,这可能涉及到图形处理和命令行调用。 5. ...