如何使用代理IP进行数据抓取，PHP爬虫抓取亚马逊商品数据 -

小taomi_77

浏览: 44700 次
性别:
来自: 成都

最近访客更多访客>>

lyndon.lin

朝明11

简_单

ybb35789

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (26)

社区版块

存档分类

如何使用代理IP进行数据抓取，PHP爬虫抓取亚马逊商品数据

PHP

什么是代理？什么情况下会用到代理IP？
代理服务器（Proxy Server），其功能就是代用户去取得网络信息，然后返回给用户。形象的说：它是网络信息的中转站。通过代理IP访问目标站，可以隐藏用户的真实IP。
比如你要抓取一个网站数据，该网站有100万条内容，他们做了IP限制，每个IP每小时只能抓1000条，如果单个IP去抓因为受限，需要40天左右才能采集完，如果用了代理IP，不停的切换IP，就可以突破每小时1000条的频率限制，从而提高效率。

其他想切换IP或者隐藏身份的场景也会用到代理IP，比如SEO等。

代理IP有开放代理也有私密代理，开放代理是全网扫描而来的，不稳定，不适合爬虫，如果自己随便用用还好。用爬虫抓数据，最好使用私密代理。私密代理网上有很多提供商，稳定性参差不齐，现在我们公司使用的是“亿牛云”提供的私密代理。
我们公司有个项目是抓取亚马逊数据来进行分析销量、评论等，用PHP进行抓取，抓取亚马逊要特别注意header头，否则输出的数据就是空了。我们之前是使用的其他家代理的api模式的，但是自己管理ip池觉得很麻烦，所以选择了亿牛云提供的爬虫代理，动态转发模式的，不需要我们自己管理ip池，直接进行数据采集，这很方便也节约了很多时间。


        $url = "https://www.amazon.com/dp/B01H2S9F6C";
        $urls = "https://httpbin.org/ip";

        define("PROXY_SERVER", "tcp://t.16yun.cn:31111");

        define("PROXY_USER", "16YUN123");
        define("PROXY_PASS", "123456");

        $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);

        $tunnel = rand(1,10000);

        $headers = implode("\r\n", [
            "Proxy-Authorization: Basic {$proxyAuth}",
            "Proxy-Tunnel: ${tunnel}",
        ]);
        $sniServer = parse_url($urls, PHP_URL_HOST);
        $options = [
            "http" => [
                "proxy" => PROXY_SERVER,
                "header" => $headers,
                "method" => "GET",
                'request_fulluri' => true,
            ],
            'ssl' => array(
                    'SNI_enabled' => true, // Disable SNI for https over http proxies
                    'SNI_server_name' => $sniServer
            )
        ];
        print($url);
        $context = stream_context_create($options);
        $result = file_get_contents($url, false, $context);
        var_dump($result);
        print($urls);
        $context = stream_context_create($options);
        $result = file_get_contents($urls, false, $context);
        var_dump($result);?>

分享到：