log4j:WARN No appenders could be found for logger (org.apache.commons.httpclient.HttpClient).
log4j:WARN Please initialize the log4j system properly.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta name="keyword" content="ITeye,JavaEye,IT,开发,交流,社区,java, ruby, ajax, agile" />
<title>您的访问请求被拒绝 - ITeye技术社区</title>
<style type="text/css">
.clearfix:after {
content: ".";
display: block;
height: 0;
clear: both;
visibility: hidden;
}
.clearfix {
display:block;
}
.left {
float: left;
}
h1 {font-size: 20px;color: #6293BB;}
p {font-size: 14px;color: #6293BB;}
</style>
</head>
<body>
<div style="padding:50px 0 0 300px">
<h1>您的访问请求被拒绝</h1>
</div>
<div class="clearfix">
<div class="left" style="padding-left:120px">
<img src="/images/filenotfound.jpg" width="128" height="128" />
</div>
<div class="left" style="width:700px;padding:30px 0 0 30px">
<p>您可能使用了网络爬虫抓取ITeye网站页面!</p>
<p>ITeye网站不允许您使用网络爬虫对ITeye进行恶意的网页抓取,请您立刻停止该抓取行为!</p>
<p>如果您的网络爬虫不属于恶意抓取行为,希望ITeye网站允许你进行网页抓取,请和ITeye管理员联系,取得授权: webmaster<img src='/images/email.gif' alt="Email" />iteye.com</p>
<p>如果您确实使用浏览器访问,但是被错误的识别为网络爬虫,请将您浏览器发送的“User Agent”信息告知我们,帮助我们解决错误: webmaster<img src='/images/email.gif' alt="Email" />iteye.com</p>
</div>
</div>
<div style="padding:20px 0 0 500px">
<a href="http://www.iteye.com"><img src='/images/logo_small.gif' border='0'></a>
</div>
</body>
</html>
HttpClient httpClient = new HttpClient(); GetMethod getMethod = new GetMethod("http://www.iteye.com/"); /** * 设计USER_AGENT 如果不设置的话就禁止了改网页的内容 */ String USER_AGENT="Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5.2-2.fc11 Firefox/3.5.2"; String User_Agent="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5; .NET CLR 1.1.4322; .NET CLR 2.0.50727; Alexa Toolbar; MAXTHON 2.0)"; httpClient.getParams().setParameter(HttpMethodParams.USER_AGENT,User_Agent);//设置信息
相关推荐
在Android开发中,有时我们需要从网络上获取网页的HTML源代码,这通常涉及到网络编程。本例子源码展示了如何利用Apache HttpClient库来实现这一功能,同时也对比了另一种常见的网络访问方式——URLConnection。以下...
3. **设置请求头**:为了模拟浏览器行为,可能需要设置User-Agent、Accept-Language等请求头。同时,如果注册过程需要验证(如CSRF令牌),也需要将相关令牌添加到请求头中。 4. **构造POST数据**:自动注册通常...
在Android开发中,有时我们需要从网络获取数据,例如网页内容,这时就涉及到网络编程。本篇文章将深入探讨如何在Android源码中使用HttpClient库来获取网页。HttpClient是Apache的一个开源项目,提供了强大的HTTP...
本项目提供了可运行的示例,展示了如何使用HttpClient来获取目标网站内容。 首先,`pom.xml`是Maven项目的配置文件,它包含了项目所依赖的库,如Apache HttpClient库。在`pom.xml`中,你需要确保引入了正确的...
这个库广泛用于从Web服务器获取数据、发送请求、处理响应等任务,尤其在爬虫、API交互、自动化测试等领域有着广泛的应用。在本文中,我们将深入探讨HttpClient的核心概念、使用方法以及如何通过`httpclient.jar`进行...
1. **数据抓取**:通过发送HTTP请求获取网页内容,然后使用HTML解析库(如Jsoup)解析数据。 2. **登录和cookie管理**:处理登录过程,保存和发送cookie,以便于访问需要登录的页面。 3. **模拟浏览器行为**:设置...
### User-Agent大全解析 在IT领域,特别是在Web开发与维护工作中,User-Agent(用户代理)字符串扮演着极其重要的角色。User-Agent是HTTP请求头的一部分,它携带了客户端(如浏览器或其他HTTP客户端)的信息,帮助...
Java Web网站抓取其他网站内容是一项常见的技术需求,主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本...
Jsoup+httpclient 模拟...通过上述知识点,可以了解到使用Jsoup和HttpClient进行网页登录和内容抓取的完整流程和关键技术点。在实际开发中,这些知识点可以帮助开发者高效地处理HTML页面数据,实现对网页的自动化操作。
Java HttpClient 是一个强大的工具,常用于执行HTTP请求,特别是在Java应用程序中进行网页抓取、自动化测试或模拟用户交互时。本篇文章将深入探讨如何使用Java的HttpClient库来动态提交网站数据。 首先,我们需要...
3. **设置请求头**:如果需要设置特定的请求头,如User-Agent,可以通过`addHeader`方法添加。 4. **执行请求**:使用HttpClient对象的`execute`方法发起请求,得到`HttpResponse`对象。 5. **处理响应**:检查`...
HttpClient可以设置Cookie和User-Agent来模拟浏览器行为,而Jsoup则可以通过执行JavaScript来处理动态加载的内容。同时,为了避免被目标网站封禁,应合理控制请求频率,并可能需要使用代理IP。 总的来说,...
本主题主要关注如何使用`httpclient4.*`库来绕过验证码获取公司信息,以及结合`jsoup`解析静态网页信息和`htmlUnit`处理动态网站的抓取。以下是对这些知识点的详细说明: 1. **httpclient4.***: Apache HttpClient...
HttpClient与JSoup结合使用,可以实现更高级的网页访问和数据获取。 **结合使用JSoup和HTTPClient** 将JSoup与HTTPClient结合,可以创建一个高效且灵活的网页爬虫。首先,HTTPClient负责发起HTTP请求,获取网页的...
在模拟登录过程中,通常需要设置请求头(例如User-Agent、Content-Type)和请求体(如登录表单数据)。HttpClient4允许我们添加自定义Header,并通过HttpEntityEnclosingRequestBase类的setEntity方法设置请求体。...
在实际应用中,还可能需要处理反爬虫策略,如设置User-Agent、使用代理IP、模拟登录等。 总结来说,HttpClient 和 HtmlParser(通常指Jsoup)是网络爬虫开发中的重要工具,它们分别负责网络通信和HTML解析,结合...
在本场景中,我们将重点讨论如何利用Java编写爬虫来抓取网页内容并下载其中的图片。 首先,我们需要了解网络爬虫的基本原理。网络爬虫通过发送HTTP请求到目标网站,获取返回的HTML文档,然后解析这个文档以提取出...
3. **设置请求头**:你可以通过`setHeader`方法添加自定义请求头,例如设置User-Agent或者Content-Type: ```java httpPost.setHeader("Content-Type", "application/json"); httpPost.setHeader("User-Agent", ...
5. **请求头**:HttpClient允许你添加自定义请求头,如设置User-Agent,Content-Type等。例如: ```java httpGet.setHeader("User-Agent", "MyApp/1.0"); ``` 6. **连接管理**:HttpClient提供了一种机制来管理...