HttpURLConnection抓取网页响应信息 - 夕弦 - ITeye博客

`

xixian

浏览: 220049 次
性别:
来自: 深圳

最近访客更多访客>>

zhangph739

javams

734994373

yugouai

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zjut_ww：非常感谢分享。。但是我在使用过程中遇到一点小问题。就是如果用来 ...
java正则表达式找出不包含特定字符串
mohican52：在吗，大哥
struts2首页forward跳转后执行action
hz2005_2009： Y轴中文问题怎么解决？
FusionChartsFree调用json数据的简单例子
xixian： chenhao_yssy 写道把num换称9.985和9.99 ...
Doublel保留两位小数
chenhao_yssy：把num换称9.985和9.995试试。
Doublel保留两位小数

HttpURLConnection抓取网页响应信息

博客分类：

java
html

阅读更多

	/**
	 * 获取网页信息
	 * @param remoteFile 网址url
	 * @return
	 * @throws IOException
	 */

public   String  getRemoteHtml(String remoteFile) throws IOException{
   	 	URL url = null;
		HttpURLConnection urlc = null;
		String sCurrentLine="";  
                java.io.BufferedReader l_reader=null;
		StringBuffer sTotalString = new StringBuffer("");  
		try {
  remoteFile=remoteFile.replaceAll("\\s", "%20");//转换空格
System.out.println("search ulr:"+remoteFile);
			url = new URL(remoteFile);
			urlc = (HttpURLConnection) url.openConnection();
			urlc.setRequestProperty("Accept-Language", "zh-cn");
//			urlc.setRequestProperty("User-Agent","Mozilla/6.0 (compatible; MSIE 5.0; Windows NT; DigExt)");//在linux下需注释该行
			// 输入流    
  l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(urlc.getInputStream(),"UTF-8"));  

			 //得到返回的信息
			 while ((sCurrentLine = l_reader.readLine()) != null) {  
 sTotalString.append(sCurrentLine); 
			  sTotalString.append("\n");
			 }
		}finally{
if(l_reader!=null)
			l_reader.close();
			if(urlc!=null)
			urlc.disconnect();
		}
		return sTotalString.toString();
 }

分享到：

java获取properties配置文件例子 | junit常用断言

2011-10-13 11:18
浏览 1795
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java抓取网页数据Demo: 在Java中，我们可以使用`java.net.URL`类来建立与目标网页的连接，并通过`java.io.BufferedReader`读取响应。例如： ```java URL url = new URL("http://example.com"); HttpURLConnection connection = ...

java网页抓取数据: Java网页抓取数据是互联网数据挖掘的一个重要领域，它允许开发者通过编程方式获取网页上的信息，从而实现自动化分析、监控或构建智能应用。在Java中，我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...

java简单抓取网页内容: 在Java编程语言中，抓取网页内容是一项常见的任务，尤其对于数据分析、信息提取以及网络爬虫等应用场景。本文将深入探讨如何使用Java实现简单的网页内容抓取，适合初学者入门学习。首先，我们需要理解网页抓取的...

java抓取网页数据实现: 网页抓取，也称为网络爬虫或网页刮取，是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到服务器，接收响应的HTML文档，然后解析文档以提取所需的数据。在Java中，我们可以使用`java.net....

java http方式抓取网页信息 JAVAＩＯ: 本知识点主要探讨如何使用Java实现HTTP请求来抓取网页信息，并利用Java IO流将其保存到本地文件。首先，我们需要理解HTTP协议的基本概念，它是客户端与服务器之间交互的一种协议，通常用于获取HTML页面。在Java中...

java抓取网页内容--生成静态页面: 在Java编程中，生成静态页面是一种常见的技术，它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容，并将其保存为一个HTML文件，即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

Java实现网页抓取: 在IT行业中，网页抓取是一项基础且重要的技能，它允许我们自动地从互联网上获取大量信息，进行数据分析、搜索引擎优化、市场研究等用途。在这个Java实现网页抓取的项目中，我们将探讨如何利用Java编程语言来抓取网页...

java抓取任何指定网页的数据: 通过上述分析我们可以看出，Java抓取网页数据主要依赖于`java.net.HttpURLConnection`和`java.util.regex.Pattern`等类。这些工具能够帮助开发者轻松地构建网络请求，并通过正则表达式解析响应内容。此外，还需注意...

Java网页抓取数据: Java网页抓取数据是互联网开发中的一个重要技能，它允许开发者从网页中提取所需的信息，如新闻、产品数据或用户评论，以供进一步分析或利用。本主题主要涵盖以下几个关键知识点： 1. **网络请求库**：在Java中，...

JSP抓取网页的代码: "JSP抓取网页的代码"通常指的是使用JSP来实现网络爬虫功能，即从互联网上自动抓取网页内容。下面我们将深入探讨这个主题。 1. **JSP基础** - JSP是由Sun Microsystems（现已被Oracle收购）开发的，它的核心是Java ...

java_zhizhu.rar_java LinkFilter_抓取网页_蜘蛛_蜘蛛程序: 在IT领域，网络爬虫（Spider）是一种自动化程序，它按照预定的规则遍历互联网上的网页，抓取所需的信息。本项目"java_zhizhu.rar"提供的就是一个使用Java实现的LinkFilter蜘蛛程序，用于抓取和分析网页内容，并将其...

java爬虫，抓取网页图片: 这就涉及到Java的网络输入/输出流（InputStream/OutputStream），使用HttpURLConnection或HttpClient类来发送GET请求并保存响应的图片数据到本地。 6. **多线程**：为了提高爬虫效率，可以使用多线程同时下载多个...

自己动手写网络爬虫可以抓取网页云盘 Java代码的内容只要自己修改下配置即可: 网络爬虫是一种自动化程序，用于从互联网上抓取大量数据，包括网页内容、图片、视频等。本项目提供了一个基础的Java实现，帮助你理解网络爬虫的工作原理，并且可以根据自己的需求进行配置来抓取特定的网页和云盘中的...

java抓取网页数据获取网页中所有的链接实例分享: 在`parser()`方法中，通过`URL`和`HttpURLConnection`类建立与目标网页的连接，设置请求属性并获取响应。接着，使用`getContentType()`方法获取服务器返回的MIME类型，从中提取出网页的字符编码。然后，通过`...

对指定页面进行抓取: 在本场景中，我们讨论的是使用Java中的HttpURLConnection类来实现对指定网页内容的抓取。这是一种基础的网络请求方法，适用于小型项目或学习网络爬虫的初级阶段。首先，了解`HttpURLConnection`是Java标准库中的一...

Jsp抓取页面内容: 在Web开发中，有时候我们需要从其他网站抓取数据，并将其展示在自己的网页上。这种需求可以通过多种方式实现，其中一种是利用Java Server Pages（JSP）技术。本文将详细介绍如何使用JSP来抓取并显示指定网页的内容。...

java抓取网站数据: 在开始抓取之前，需要对目标网站进行一定的分析，了解其结构和请求方式等信息。 ##### 2.1 目标网站分析 1. **请求URL**：抓取数据的第一步是确定目标URL。例如，在51job网站上搜索Java职位时，请求的URL为`...

java web网站常用抓取其他网站内容: 网页抓取，也称为网络爬虫或网页蜘蛛，是一种自动浏览互联网并获取网页信息的技术。它通过模拟浏览器发送HTTP请求到目标服务器，接收响应的HTML内容，然后解析这些内容以提取所需信息。 1. **HTTP请求**：在Java中...

java模拟http请求登陆抓取海投网信息: 3. **网页抓取**：登录成功后，我们可以使用相同的HTTP客户端库发送GET请求，抓取海投网上的特定信息。这通常涉及到解析HTML或JSON响应，使用如Jsoup或Jackson等库进行解析。抓取的信息可能包括职位信息、公司简介等...

jsp网页抓取天气预报源代码: "jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages（JSP）相关的项目，目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术，允许开发者在HTML页面中嵌入Java代码来处理服务器端...

Global site tag (gtag.js) - Google Analytics