`

爬虫 User-Agent

    博客分类:
  • SEO
 
阅读更多

USER-AGENT是什么?

USER-AGENT:记录请求所来自的浏览器。

User-Agent分析网站 http://www.useragentstring.com/

通过解析User-Agent可以知道访问者信息。

特意截取了服务器一天的IIS日志进行分析!

robot 搜索机器人

像google、百度等搜索引擎都会有自动的爬虫程序在网上不停的爬取网页信息。来建立它们的搜索索引!

一下为爬虫的User-Agent:(按字母顺序排列)

Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度网页

Gigabot/3.0+(http://www.gigablast.com/spider.html) 外国绿色搜索

Googlebot-Image/1.0 google图片搜索

HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible;+MSIE+7.0;+http://www.huaweisymantec.com/en/IRL/spider)

华为赛门铁克

larbin+(larbin@unspecified.mail) 开源网络蜘蛛

MLBot+(www.metadatalabs.com/mlbot) 未知

Mozilla/5.0+(compatible;+008/0.83;+http://www.80legs.com/webcrawler.html;)+Gecko/2008032620 国外可自定义爬虫

Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm) 微软BING

Mozilla/5.0+(compatible;+crawler/3.0.0++http://www.notconfigured.com/) 未知

Mozilla/5.0+(compatible;+DotBot/1.1;+http://www.dotnetdotcom.org/,+crawler@dotnetdotcom.org) 外国互联网分析统计

Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) Google

Mozilla/5.0+(compatible;+MJ12bot/v1.3.3;+http://www.majestic12.co.uk/bot.php?+) 英国

Mozilla/5.0+(compatible;+Search17Bot/1.1;+http://www.search17.com/bot.php) 未知

Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp)  雅虎

Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)  雅虎

Mozilla/5.0+(compatible;+YandexBot/3.0;++http://yandex.com/bots) 俄罗斯搜索引擎

Mozilla/5.0+(compatible;+YandexBot/3.0;+MirrorDetector;++http://yandex.com/bots) 俄罗斯搜索引擎

Mozilla/5.0+(compatible;+YoudaoBot/1.0;+http://www.youdao.com/help/webmaster/spider/;+) 有道

Mozilla/5.0+(compatible;YodaoBot-Image/1.0;http://www.youdao.com/help/webmaster/spider/;) 有道图片

msnbot/2.0b+(+http://search.msn.com/msnbot.htm)._ MSN搜索

msnbot-media/1.1+(+http://search.msn.com/msnbot.htm) MSN搜索

panscient.com 国外垂直搜索

Sogou+Pic+Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 搜狗图片

Sogou-Test-Spider/4.0+(compatible;+MSIE+5.5;+Windows+98) 未知

Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm) 搜搜图片

Sosospider+(+http://help.soso.com/webspider.htm) 搜搜

Yeti/1.0+(NHN+Corp.;+http://help.naver.com/robots/) 韩国搜索

zawc/Nutch-1.0+(http://www.zawc.com)  准备转让汗

DoCoMo/2.0+P900i(c100;TB;W24H11)(compatible;+ichiro/mobile+goo;+http://help.goo.ne.jp/door/crawler.html) 日本的搜索

Mozilla/4.0+(compatible;+http://search.thunderstone.com/texis/websearch/about.html) 国外

Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)+Speedy+Spider+(http://www.entireweb.com/about/search_tech/speedy_spider/)

分析:

有这么多机器人访问!注意User-Agent是可以伪造的。很多搜索爬虫说明页都有提到。但可以分析IP来辨别!

其他的User-Agent

+(^_^) 汗!不知道是什么东西

AppleWebKit/532.7+(KHTML,+like+Gecko)+Chrome/4.0.271.1+Safari/532.7+TencentTraveler/5.0+QQBrowser/5.0.6587.400+(webkit)

BREW-Applet/0x20068888+(BREW/3.1.5.20;+DeviceId:+110006;+Lang:+zhcn)+ucweb-squid

HD2_T8585+Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+CE;+PPC)/UCWEB7.4.0.57/31/999

HD_mini_T5555+Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+CE;+PPC)/UCWEB7.4.1.61/31/999

HTC_HD2_T8585+Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+CE;+PPC)/UCWEB7.4.1.61/31/999

HUAWEI+C5110+Java/HWJa/1.0+Profile/MIDP-2.0+Configuration/CLDC-1.1+UNTRUSTED/1.0

J2ME

J2ME/UCWEB7.3.1.56/139/800

Jakarta+Commons-HttpClient/3.1

Java/1.6.0_10

LG-KG70+MIC/1.1.14+MIDP-2.0/CLDC-1.1+UNTRUSTED/1.0

MAUI_WAP_Browser

MOT-EM330/0.0.96+UNTRUSTED/1.0

MSIE+6.0

Microsoft-ATL-Native/9.00

Mozilla/4.0

Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+95) IE4、win95现在还有人用

Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+98)

Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+CE;+PPC)/UCWEB7.4.0.57/31/800

Mozilla/4.0+(compatible;+MSIE+6.0;)

Mozilla/4.0+(compatible;+MSIE+7.0;+Windows+NT+5.1;+360SE)

Mozilla/4.0+(compatible;+MSIE+8.0;+Windows+NT+5.1;+Trident/4.0)

Mozilla/5.0+(Linux;+U;+Android+2.1;+zh-cn;+T2+Build/ERD79)+AppleWebKit/530.17+(KHTML,+like+Gecko)+Version/4.0+Mobile+Safari/530.17

Mozilla/5.0+(Macintosh;+U;+Intel+Mac+OS+X+10_6;+zh-cn)+AppleWebKit/531.9+(KHTML,+like+Gecko)+Version/4.0.3+Safari/531.9

Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)+AppleWebKit/534.6+(KHTML,+like+Gecko)+Chrome/6.0.493.0+Safari/534.6

Mozilla/5.0+(iPhone;+U;+CPU+iPhone+OS+4_1+like+Mac+OS+X;+zh-cn)+AppleWebKit/532.9+(KHTML,+like+Gecko)+Mobile/8B117

NOKIA3250/UCWEB7.1.0.42/28/800 手机上的UC

Opera/9.80+(Windows+NT+5.1;+U;+zh-cn)+Presto/2.6.30+Version/10.60

Palm680/RC1+(iPhone;+U;+CPU+iPhone+OS+2_2_1+like+Mac+OS+X;+zh-cn)/UCWEB7.4.1.68/41/997

Python-urllib/1.17

SonyEricssonU100i/R1BA+Profile/MIDP-2.1+Configuration/CLDC-1.1

TencentTraveler+4.0

UCWEB7.4.0.57/28/999

UNTRUSTED/1.0

Unknown/GoBrowser/1.6.0.70

Wget/1.10.2+(Red+Hat+modified)

Wget/1.9+cvs-stable+(Red+Hat+modified)

ZTE-Me/Mobile

aboutthedomain 什么东西

kuanguang+Java/1.6.0_18

libwww-perl/5.836

 

分析:

看到上面的User-Agent会发现手机的User-Agent有多混乱!并且User-Agent里面还包含了大量的软件和系统信息!

为什么就没人给个标准规范!移动互联网平台各式各样!最终只会苦了我们这些程序员!

分享到:
评论

相关推荐

    爬虫User-Agent-List

    编写Python爬虫时,使用的User-Agent,该资源包含各浏览器及Android, iOS的User-Agent

    JavaUser-Agent解析库

    <artifactId>user-agent-utils <version>2a6db83 ``` 然后,可以使用提供的API来解析User-Agent字符串: ```java UserAgent userAgent = UserAgent.parseUserAgentString("User-Agent字符串"); Browser browser =...

    350个User-Agent任君选

    提供357个User-Agent任选,主要用于随机替换user-agent, 绕过各种通过user-agent对爬虫的限制,再也不用担心你的爬虫user-agent不够了。

    python爬虫模拟浏览器访问-User-Agent过程解析

    在介绍python爬虫模拟浏览器访问-User-Agent过程解析之前,需要了解几个基本概念。Python是一种广泛使用的高级编程语言,以其简洁明了的语法和强大的功能而闻名。爬虫是网络自动化脚本的一种,其主要功能是自动化地...

    2024最新设备python爬虫十万条UA User-Agent信息浏览器头信息包括手机

    2024最新设备python爬虫十万条UA User-Agent信息浏览器头信息包括手机

    App端user-agent请求头大全,几千个ua

    1. **爬虫开发**:通过分析不同的User-Agent,可以模拟各种浏览器或移动设备进行网页抓取,提高爬虫的隐蔽性和兼容性。 2. **服务器响应**:服务器可以根据不同的User-Agent提供定制化的页面内容或优化资源加载。 3....

    Nginx中配置过滤爬虫的User-Agent的简单方法

    本文将详细介绍如何通过Nginx配置文件实现这一功能,并提供一些常见的搜索引擎爬虫User-Agent字符串,以便避免误封合法爬虫。 首先,你需要访问你的Nginx配置文件,通常位于`/etc/nginx/nginx.conf`或`/etc/nginx/...

    各种浏览器的User-Agent信息包括手机端的浏览器

    ”暗示了这个列表可能被用作模拟不同浏览器环境的工具,比如在进行自动化测试或者爬虫编程时,我们可以设置User-Agent字符串来模拟不同的访问者,以便更好地模拟实际用户的浏览行为。 标签“浏览器”和“User-Agent...

    爬虫篇——User-Agent爬取备用及存储

    在爬虫技术中,User-Agent是一个非常重要的概念。它是一个字符串,用来标识访问网站的软件类型,通常是浏览器。网站服务器会根据User-Agent判断来访的是人类还是机器人,从而可能实施不同的响应策略,比如允许访问、...

    苹果user-agent 10000个

    网站后台收集的苹果UA10000个,可用于爬虫,浏览器多开等等,拿走不谢

    web端user-agent请求头

    - **适应网站规则**:某些网站会针对不同的User-Agent提供不同的内容或服务,正确设置User-Agent可以帮助爬虫获取完整数据。 - **规避反爬机制**:部分网站通过检测User-Agent来判断是否为爬虫访问,合理设置可以...

    2.5_User-agent伪装1

    2. **爬虫抓取**:在爬虫编程中,为了避免被目标网站识别为爬虫而封禁,可以通过随机选取或模拟常见的浏览器User-Agent来降低被检测的风险。 User-Agent 字符串的一般结构如下: `浏览器标识 (操作系统标识; 加密...

    谷歌浏览器插件 User-Agent Switcher

    **User-Agent Switcher** 是一款在谷歌浏览器上广泛使用的扩展程序,主要功能是允许用户更改浏览器发送的 **User-Agent** 字符串。User-Agent 是一个 HTTP 头字段,它包含了浏览器的身份信息,如浏览器类型、版本号...

    Python爬虫伪装请求头User-Agent数据

    Python爬虫伪装请求头User-Agent数据

    安卓user-agent 10000个

    网站后台收集的真实UA大全,放出10000个给大家使用,爬虫,多开等都可以使用到。

    user-agent.txt 移动端&PC;端,模拟浏览器

    描述中提到的"user-agent-pc.txt"和"user-agent-mobile.txt"分别代表了PC(个人电脑)和移动端的User-Agent字符串列表。PC版的User-Agent通常包含如"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...

    user-agent大全

    ### User-Agent大全解析 在IT领域,特别是在Web开发与维护工作中,User-Agent(用户代理)字符串扮演着极其重要的角色。User-Agent是HTTP请求头的一部分,它携带了客户端(如浏览器或其他HTTP客户端)的信息,帮助...

    scrapy随机user-agent

    在进行网页抓取时,为了防止被目标网站识别为机器人或爬虫,常常需要使用不同的User-Agent来模拟不同的浏览器访问。"scrapy随机user-agent"这个话题就是关于在Scrapy中如何实现User-Agent的随机切换,以便更自然地...

    时下流行的浏览器User-Agent大全(9038条数据)分为sql版本和excel版本,2018-1-27更新

    《全面解析浏览器User-Agent:九万条数据的深度探索》 在互联网的海洋中,User-Agent(简称UA)是每个网络请求背后隐藏的一份重要信息。它是一个字符串,由发送请求的客户端(通常是浏览器)携带,用于标识自身的...

    python 20、爬虫 03-1_requests模块高级、非结构化数据抓取、User-Agent及代理IP应对反爬.mp4

    python 20、爬虫 03-1_requests模块高级、非结构化数据抓取、User-Agent及代理IP应对反爬.mp4

Global site tag (gtag.js) - Google Analytics