`
jilong-liang
  • 浏览: 480477 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类

httpclient获取网页内容没设置User Agent导致有些网站抓不取到内容

阅读更多

 

log4j:WARN No appenders could be found for logger (org.apache.commons.httpclient.HttpClient).

log4j:WARN Please initialize the log4j system properly.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

    <meta name="keyword" content="ITeye,JavaEye,IT,开发,交流,社区,java, ruby, ajax, agile" />

    <title>您的访问请求被拒绝 - ITeye技术社区</title>

    <style type="text/css">

      .clearfix:after {

        content: ".";

        display: block;

        height: 0;

        clear: both;

        visibility: hidden;

      }

      .clearfix {

        display:block;

      }

      .left {

        float: left;

      }

      h1 {font-size: 20px;color: #6293BB;}

      p  {font-size: 14px;color: #6293BB;}

    </style>

  </head>

  <body>

    <div style="padding:50px 0 0 300px">

      <h1>您的访问请求被拒绝</h1>

    </div>

    <div class="clearfix">

      <div class="left" style="padding-left:120px">

        <img src="/images/filenotfound.jpg" width="128" height="128" />

      </div>

      <div class="left" style="width:700px;padding:30px 0 0 30px">

        <p>您可能使用了网络爬虫抓取ITeye网站页面!</p>

        <p>ITeye网站不允许您使用网络爬虫对ITeye进行恶意的网页抓取,请您立刻停止该抓取行为!</p>

        <p>如果您的网络爬虫不属于恶意抓取行为,希望ITeye网站允许你进行网页抓取,请和ITeye管理员联系,取得授权: webmaster<img src='/images/email.gif' alt="Email" />iteye.com</p>

        <p>如果您确实使用浏览器访问,但是被错误的识别为网络爬虫,请将您浏览器发送的“User Agent”信息告知我们,帮助我们解决错误: webmaster<img src='/images/email.gif' alt="Email" />iteye.com</p>

      </div>

    </div>

    <div style="padding:20px 0 0 500px">

      <a href="http://www.iteye.com"><img src='/images/logo_small.gif' border='0'></a>

    </div>

  </body>

</html>

HttpClient httpClient = new HttpClient();
		GetMethod getMethod = new GetMethod("http://www.iteye.com/");
		/**
		 * 设计USER_AGENT 如果不设置的话就禁止了改网页的内容
		 */
		String USER_AGENT="Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5.2-2.fc11 Firefox/3.5.2";
		String User_Agent="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5; .NET CLR 1.1.4322; .NET CLR 2.0.50727; Alexa Toolbar; MAXTHON 2.0)";
		
		httpClient.getParams().setParameter(HttpMethodParams.USER_AGENT,User_Agent);//设置信息

 

 

 

 

 

 

 

0
1
分享到:
评论

相关推荐

    Android例子源码使用HttpClient获取网页html源代码

    在Android开发中,有时我们需要从网络上获取网页的HTML源代码,这通常涉及到网络编程。本例子源码展示了如何利用Apache HttpClient库来实现这一功能,同时也对比了另一种常见的网络访问方式——URLConnection。以下...

    httpclient自动注册网站

    3. **设置请求头**:为了模拟浏览器行为,可能需要设置User-Agent、Accept-Language等请求头。同时,如果注册过程需要验证(如CSRF令牌),也需要将相关令牌添加到请求头中。 4. **构造POST数据**:自动注册通常...

    Android源码之用HttpClient获取网页

    在Android开发中,有时我们需要从网络获取数据,例如网页内容,这时就涉及到网络编程。本篇文章将深入探讨如何在Android源码中使用HttpClient库来获取网页。HttpClient是Apache的一个开源项目,提供了强大的HTTP...

    httpclient获取目标网站内容,get、post方式(可运行)

    本项目提供了可运行的示例,展示了如何使用HttpClient来获取目标网站内容。 首先,`pom.xml`是Maven项目的配置文件,它包含了项目所依赖的库,如Apache HttpClient库。在`pom.xml`中,你需要确保引入了正确的...

    httpclient httpclient.jar

    这个库广泛用于从Web服务器获取数据、发送请求、处理响应等任务,尤其在爬虫、API交互、自动化测试等领域有着广泛的应用。在本文中,我们将深入探讨HttpClient的核心概念、使用方法以及如何通过`httpclient.jar`进行...

    httpclient

    1. **数据抓取**:通过发送HTTP请求获取网页内容,然后使用HTML解析库(如Jsoup)解析数据。 2. **登录和cookie管理**:处理登录过程,保存和发送cookie,以便于访问需要登录的页面。 3. **模拟浏览器行为**:设置...

    user-agent大全

    ### User-Agent大全解析 在IT领域,特别是在Web开发与维护工作中,User-Agent(用户代理)字符串扮演着极其重要的角色。User-Agent是HTTP请求头的一部分,它携带了客户端(如浏览器或其他HTTP客户端)的信息,帮助...

    java web网站常用抓取其他网站内容

    Java Web网站抓取其他网站内容是一项常见的技术需求,主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本...

    Jsoup+httpclient 模拟登陆和抓取

    Jsoup+httpclient 模拟...通过上述知识点,可以了解到使用Jsoup和HttpClient进行网页登录和内容抓取的完整流程和关键技术点。在实际开发中,这些知识点可以帮助开发者高效地处理HTML页面数据,实现对网页的自动化操作。

    java动态提交网站httpclient

    Java HttpClient 是一个强大的工具,常用于执行HTTP请求,特别是在Java应用程序中进行网页抓取、自动化测试或模拟用户交互时。本篇文章将深入探讨如何使用Java的HttpClient库来动态提交网站数据。 首先,我们需要...

    httpclient抓取网页数据和所需的10个jar包

    3. **设置请求头**:如果需要设置特定的请求头,如User-Agent,可以通过`addHeader`方法添加。 4. **执行请求**:使用HttpClient对象的`execute`方法发起请求,得到`HttpResponse`对象。 5. **处理响应**:检查`...

    httpClient采集jsoup解析

    HttpClient可以设置Cookie和User-Agent来模拟浏览器行为,而Jsoup则可以通过执行JavaScript来处理动态加载的内容。同时,为了避免被目标网站封禁,应合理控制请求频率,并可能需要使用代理IP。 总的来说,...

    针对 httpclient4.* 绕验证码获取公司信息 包括 jsoup网页信息的爬虫及htmlUnit对动态网站信息的抓取

    本主题主要关注如何使用`httpclient4.*`库来绕过验证码获取公司信息,以及结合`jsoup`解析静态网页信息和`htmlUnit`处理动态网站的抓取。以下是对这些知识点的详细说明: 1. **httpclient4.***: Apache HttpClient...

    HttpClient模拟登录实例

    在本实例中,我们将探讨如何使用HttpClient库来模拟登录网站,获取用户信息,以及处理带有验证码的登录场景。 首先,我们需要理解HttpClient的基本使用。HttpClient的核心类包括HttpClient本身,HttpGet、HttpPost...

    jsoup+httpclient+jar包

    HttpClient与JSoup结合使用,可以实现更高级的网页访问和数据获取。 **结合使用JSoup和HTTPClient** 将JSoup与HTTPClient结合,可以创建一个高效且灵活的网页爬虫。首先,HTTPClient负责发起HTTP请求,获取网页的...

    HttpClient4模拟登录回贴

    在模拟登录过程中,通常需要设置请求头(例如User-Agent、Content-Type)和请求体(如登录表单数据)。HttpClient4允许我们添加自定义Header,并通过HttpEntityEnclosingRequestBase类的setEntity方法设置请求体。...

    httpClient+htmlParser

    在实际应用中,还可能需要处理反爬虫策略,如设置User-Agent、使用代理IP、模拟登录等。 总结来说,HttpClient 和 HtmlParser(通常指Jsoup)是网络爬虫开发中的重要工具,它们分别负责网络通信和HTML解析,结合...

    java爬虫抓取网页内容,下载网站图片

    在本场景中,我们将重点讨论如何利用Java编写爬虫来抓取网页内容并下载其中的图片。 首先,我们需要了解网络爬虫的基本原理。网络爬虫通过发送HTTP请求到目标网站,获取返回的HTML文档,然后解析这个文档以提取出...

    java实现httpClient样例

    3. **设置请求头**:你可以通过`setHeader`方法添加自定义请求头,例如设置User-Agent或者Content-Type: ```java httpPost.setHeader("Content-Type", "application/json"); httpPost.setHeader("User-Agent", ...

Global site tag (gtag.js) - Google Analytics