`

爬虫之-----各种浏览器代理

 
阅读更多

 

爬虫之-----各种浏览器代理

此博文来自博主尘缘,因本人懒得写,尊重作者,

原文请访问:http://www.4wei.cn/archives/1001007

IE
  而IE各个版本典型的userAgent如下:
  Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)
  Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)
  Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
  Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
  其中,版本号是MSIE之后的数字。

Firefox
  Firefox几个版本的userAgent大致如下:
  Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1
  Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3
  Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12  其中,版本号是Firefox之后的数字。

Opera
  Opera典型的userAgent如下:
  Opera/9.27 (Windows NT 5.2; U; zh-cn)
  Opera/8.0 (Macintosh; PPC Mac OS X; U; en)
  Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0 
  其中,版本号是靠近Opera的数字。

Safari
  Safari典型的userAgent如下:
  Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Version/3.1 Safari/525.13
  Mozilla/5.0 (iPhone; U; CPU like Mac OS X) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/4A93 Safari/419.3
  其版本号是Version之后的数字。

Chrome
  目前,Chrome的userAgent是:
Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13 
  其中,版本号在Chrome之后的数字。

Navigator
目前,Navigator的userAgent是:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6
其中,版本号在Navigator之后的数字。

以下是常见浏览器的自定义Agent

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; 360se)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; TencentTraveler 4.0; .NET CLR 2.0.50727)

其中,360浏览器是“360se”,腾讯TT浏览器是“TencentTraveler 4.0”,Sogou浏览器是“SE 2.X MetaSr 1.0”,NET框架版本是“.NET CLR 2.0.50727”。

分享到:
评论

相关推荐

    py爬虫bilibili-user-master

    - **反爬机制应对**:B站可能会采取各种措施来防止恶意爬虫,如验证码、IP封禁等。 - **解决方案**: - 设置合理的延时时间。 - 使用代理IP池。 - 模拟浏览器头部信息。 - **异常处理**:增强程序稳定性,避免因...

    Python网络爬虫实战-Scrapy14-17

    **Python网络爬虫实战-Scrapy14-17** 在Python编程领域,网络爬虫是一种常见的数据获取技术,用于自动化地从...掌握这些技能,能够帮助开发者构建更高效、更智能的网络爬虫,有效地处理各种复杂的网页结构和动态内容。

    python 爬虫开发--爬取某站小视频随机生成浏览器的头部信息demo源码.zip

    2. **代理IP**:使用代理IP可以增加爬虫的匿名性和生存能力,尤其是在频繁访问同一网站时。 3. **异常处理**:添加错误处理机制,如重试、跳过异常页面,以提高爬虫的健壮性。 4. **数据存储**:合理选择数据存储...

    Python爬虫算法-谷歌内部资料

    首先,Python之所以成为爬虫领域的首选语言,是因为它简洁易学、库丰富以及强大的网络请求处理能力。例如,requests库可以方便地发送HTTP请求,BeautifulSoup和lxml则提供了高效的HTML和XML解析功能。而Scrapy框架更...

    py爬虫weibo-crawler-master

    - **异常处理**:对于可能出现的各种异常情况(如网络错误、服务器返回错误等)进行捕获并妥善处理。 **爬虫模块化与分层设计:** - **数据获取层**:负责发送请求并获取原始HTML文档。 - **数据解析层**:使用...

    c#最好的网络爬虫下载---mtkos.com

    爬虫开发者需要模拟浏览器行为,更换IP,甚至使用代理服务器。 8. **法律与道德**:网络爬虫的使用必须遵循法律法规,尊重网站的robots.txt文件,不进行大规模无授权抓取,以免侵犯版权或隐私。 综上所述,C#为...

    网页爬虫 mysh-crawler

    4. **异常处理**:爬虫在运行过程中可能会遇到各种问题,如网络连接错误、超时、反爬策略等,因此需要有适当的异常处理机制,确保爬虫的稳定性和持久性。 5. **多线程或异步处理**:为了提高爬取效率,mysh-crawler...

    python爬虫源码-zhihu-spider-master.zip

    这个项目的核心是利用Python编程语言构建网络爬虫,以抓取并处理知乎上的各种信息,如问题、答案、用户资料等。Python在爬虫领域的应用广泛,得益于其丰富的库支持和简洁易读的语法。 首先,我们要了解Python爬虫的...

    「 爬虫用法-全网最详细教程」

    - **IP代理**:通过代理IP池避免被封IP。 - **延迟与随机间隔**:模拟人类浏览速度,降低服务器压力。 7. **爬虫伦理与法规**:了解数据抓取的道德边界,尊重网站Robots协议,避免触犯法律法规。 8. **爬虫项目...

    计算机-爬虫-基于Chrome浏览器插件的爬虫系统.pdf

    基于 Chrome 浏览器插件的爬虫系统 本文设计和实现了一种基于 Chrome 浏览器插件的爬虫系统,以解决当前网络爬虫系统开发难度大、稳定性差和使用不友好的问题。该系统具有开发扩展简单、稳定性高、适用范围广和使用...

    VB网络爬虫源码 - 智联爬虫(爬智联招聘的数据)

    首先,网络爬虫是一种自动化地从互联网上搜集信息的程序,它通过模拟浏览器发送HTTP请求到目标网站,并接收返回的HTML或JSON等格式的网页内容。VB作为一种相对简单的编程语言,非常适合初学者入门网络爬虫开发。 在...

    网络爬虫--获取中国留学网留学信息并显示

    对此,我们可以使用代理IP池,或者设置User-Agent头模拟浏览器行为,提高爬虫的存活率。对于动态加载的内容,可能需要引入Selenium等工具进行模拟浏览器操作。 获取到数据后,我们可以将其存储为CSV、JSON等格式,...

    第二代爬虫系统-爬虫管理套件.zip

    2. 用户代理伪装:模拟不同的浏览器或设备,避免被网站识别为爬虫。 3. 验证码识别:集成OCR技术或第三方服务,自动识别和填写验证码。 4. 延迟与随机等待:设置延迟时间或随机等待,模拟人类浏览行为,降低被检测...

    网络爬虫--用来提取网页内容和URL的程序

    因此,爬虫可能需要模拟浏览器行为,设置代理IP,定期更换User-Agent来应对这些挑战。 7. **分布式爬虫**:对于大规模的网站,单个爬虫可能无法高效完成任务。这时,可以设计分布式爬虫系统,将任务分配到多台机器...

    网络爬虫程序-网络爬虫程序

    网络爬虫通过模拟人类浏览器的行为,遵循HTTP/HTTPS协议,逐个请求网页,解析其中的数据,然后按照一定的规则进行存储或者进一步处理。 首先,我们要了解网络爬虫的基本工作流程。网络爬虫通常包括以下几个步骤: 1...

    Python爬虫--抓取百度百科的前1000个页面

    - **动态加载**:如果页面内容是通过JavaScript动态加载的,可能需要使用如Selenium这样的库来模拟浏览器行为。 - **反爬策略**:百度百科可能有防止爬虫的措施,如验证码、IP限制等,我们需要遵守网站的robots....

    python入门爬虫题目-100道(1).zip

    为了应对这些,我们可以使用代理IP、设置动态User-Agent、甚至使用Selenium等工具模拟浏览器行为。 爬虫的另一个关键环节是数据存储。Python提供了多种数据持久化方式,如文件(txt、csv、json等)、数据库(SQLite...

    python爬虫教学-python爬虫

    为应对这些问题,我们可以使用代理IP池、设置随机User-Agent、甚至使用Selenium等工具模拟浏览器行为。同时,尊重网站的robots.txt协议,避免对网站造成过大负担,也是爬虫开发者应有的道德准则。 在文件`python-...

    python 爬虫开发-爬取小视频之实时打印文件下载速度demo源码.zip

    - 爬虫在运行过程中可能会遇到各种错误,如网络连接问题、404错误等。因此,良好的异常处理机制是必要的,确保程序在遇到错误时能够恢复或者记录错误信息。 6. **多线程或异步下载**: - 为了提高下载效率,可以...

Global site tag (gtag.js) - Google Analytics