`
小taomi_77
  • 浏览: 44184 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

如何使用代理IP进行数据抓取,PHP爬虫抓取亚马逊商品数据

PHP 
阅读更多

什么是代理?什么情况下会用到代理IP?
代理服务器(Proxy Server),其功能就是代用户去取得网络信息,然后返回给用户。形象的说:它是网络信息的中转站。通过代理IP访问目标站,可以隐藏用户的真实IP。
比如你要抓取一个网站数据,该网站有100万条内容,他们做了IP限制,每个IP每小时只能抓1000条,如果单个IP去抓因为受限,需要40天左右才能采集完,如果用了代理IP,不停的切换IP,就可以突破每小时1000条的频率限制,从而提高效率。

其他想切换IP或者隐藏身份的场景也会用到代理IP,比如SEO等。

代理IP有开放代理也有私密代理,开放代理是全网扫描而来的,不稳定,不适合爬虫,如果自己随便用用还好。用爬虫抓数据,最好使用私密代理。私密代理网上有很多提供商,稳定性参差不齐,现在我们公司使用的是“亿牛云”提供的私密代理。
我们公司有个项目是抓取亚马逊数据来进行分析销量、评论等,用PHP进行抓取,抓取亚马逊要特别注意header头,否则输出的数据就是空了。我们之前是使用的其他家代理的api模式的,但是自己管理ip池觉得很麻烦,所以选择了亿牛云提供的爬虫代理,动态转发模式的,不需要我们自己管理ip池,直接进行数据采集,这很方便也节约了很多时间。

     
        $url = "https://www.amazon.com/dp/B01H2S9F6C";
        $urls = "https://httpbin.org/ip";

        define("PROXY_SERVER", "tcp://t.16yun.cn:31111");

        define("PROXY_USER", "16YUN123");
        define("PROXY_PASS", "123456");

        $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);

        $tunnel = rand(1,10000);

        $headers = implode("\r\n", [
            "Proxy-Authorization: Basic {$proxyAuth}",
            "Proxy-Tunnel: ${tunnel}",
        ]);
        $sniServer = parse_url($urls, PHP_URL_HOST);
        $options = [
            "http" => [
                "proxy"  => PROXY_SERVER,
                "header" => $headers,
                "method" => "GET",
                'request_fulluri' => true,
            ],
            'ssl' => array(
                    'SNI_enabled' => true, // Disable SNI for https over http proxies
                    'SNI_server_name' => $sniServer
            )
        ];
        print($url);
        $context = stream_context_create($options);
        $result = file_get_contents($url, false, $context);
        var_dump($result);
        print($urls);
        $context = stream_context_create($options);
        $result = file_get_contents($urls, false, $context);
        var_dump($result);?>

分享到:
评论

相关推荐

    亚马逊爬虫抓取商品信息并数据分析.zip

    亚马逊爬虫抓取商品信息并数据分析.zip亚马逊爬虫抓取商品信息并数据分析.zip亚马逊爬虫抓取商品信息并数据分析.zip亚马逊爬虫抓取商品信息并数据分析.zip亚马逊爬虫抓取商品信息并数据分析.zip亚马逊爬虫抓取商品...

    Java网络爬虫抓取代理ip

    通过Java网络爬虫爬取指定代理ip网上的ip,利用了jsoup、httpclient技术实现

    京东,淘宝,苏宁,亚马逊爬虫抓取商品信息并分析数据.zip

    标题中的“京东,淘宝,苏宁,亚马逊爬虫抓取商品信息并分析数据”指的是使用网络爬虫技术从这四个知名电商平台(京东、淘宝、苏宁、亚马逊)获取商品的相关信息,并进行数据分析的过程。这个过程通常涉及以下几个...

    代理IP自动抓取器,好用的代理IP自动抓取软件

    在IT行业中,代理IP服务广泛应用于网络爬虫、数据抓取、网络安全测试等多种场景。"代理IP自动抓取器"是一款高效便捷的软件工具,它专门设计用于自动收集可用的代理IP地址,以满足用户对匿名浏览或大量网络请求的需求...

    爬虫游戏-数据抓取分析系统.zip

    爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统...

    京东商品数据抓取

    在IT行业中,数据抓取是一项重要的技能,尤其...总之,“京东商品数据抓取”项目涉及到了网络爬虫、API接口利用、数据解析存储、异常处理等多个IT领域的知识点,对于提升开发者的数据获取和分析能力具有很高的价值。

    php爬虫抓取50W数据

    在这个场景中,我们关注的是一个使用PHP语言编写的多线程爬虫,该爬虫能够高效地抓取50万条数据。下面我们将详细探讨PHP爬虫的相关知识点,以及多线程在爬虫中的应用。 1. PHP爬虫基础: PHP是一种广泛使用的...

    python抓取免费代理IP

    在IT行业中,网络爬虫和自动化任务经常需要借助代理IP来规避访问限制,提高数据抓取效率。本项目提供了一套完整的解决方案,利用Python来抓取免费代理IP,并将其存储到MySQL数据库中,同时实现定期检查和排除失效的...

    python爬虫,如何抓取网页数据

    python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...

    七麦APP数据爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    针对时光网抓取数据 爬虫

    在爬虫领域,通常会使用代理服务器来避免因为频繁请求同一网站而被封IP。一个代理池是多个HTTP代理的集合,爬虫在请求时可以从池中随机选取一个代理,以提高抓取效率和安全性。Python中的Scrapy框架就提供了对代理的...

    代理 住宅代理 数据抓取 IP 地址

    适用于数据抓取时遇到IP封禁的小伙伴,可以看下这篇文章

    Python爬虫抓取Ebay页面

    - 网络爬虫可能会受到目标网站的反爬策略限制,如IP封禁、验证码验证等,因此需要合理控制爬取频率,并考虑使用代理IP等手段降低被封风险。 - 在实际应用中,还需要考虑法律和道德问题,确保爬取行为符合相关法律...

    Jsoup 网络爬虫(动态ip代理,突破ip访问次数限制) 爬取全国各省市区数据

    在“Jsoup网络爬虫(动态ip代理,突破ip访问次数限制)爬取全国各省市区数据”这个项目中,我们将会深入探讨如何使用Jsoup进行网络爬虫开发,并且解决在爬虫过程中遇到的IP访问限制问题。 首先,我们需要理解Jsoup...

    加密货币市场数据抓取:使用爬虫技术的方法与实践

    本文将详细介绍如何使用爬虫技术进行加密货币市场数据的抓取,包括数据源选择、爬虫设计、数据解析、存储以及法律和伦理问题。 使用爬虫技术抓取加密货币市场数据是一种高效的数据收集方法。本文详细介绍了爬虫在...

    爬取淘宝商品数据项目的源代码

    该项目是关于使用Python爬虫技术抓取淘宝商品数据的一个实践案例。主要涉及以下几个核心知识点: 1. Python爬虫基础:Python是一种广泛用于Web爬虫开发的编程语言,因其语法简洁且有丰富的第三方库支持。本项目中...

    Python网络数据爬虫抓取代码

    Python网络数据抓取代码需要遵守网络爬虫法律法规,不能对数据进行商业用途。此外,为了防止对目标网站造成过大的流量压力,建议使用数据抓取框架或限制爬取频率。同时,网络数据抓取也需要遵守网络伦理和道德规范,...

    百度地图数据抓取

    因此,进行数据抓取时,可能需要模拟浏览器行为,更换IP,或者使用代理服务器。 5. **文件`getBaiduMap.exe`**: 这可能是一个用于数据抓取的可执行文件,用于自动化从百度地图上下载数据。但是,使用这样的工具时...

    企查查企业信息爬虫 ,企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等

    企查查企业信息爬虫 ,企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等。 每天定时抓取 自动刷新token 省份、市的所有代码 token自动刷新 根据地址自动将省份、市、区县进行分割 所有...

Global site tag (gtag.js) - Google Analytics