/**
* 获取网页信息
* @param remoteFile 网址url
* @return
* @throws IOException
*/
public String getRemoteHtml(String remoteFile) throws IOException{
URL url = null;
HttpURLConnection urlc = null;
String sCurrentLine="";
java.io.BufferedReader l_reader=null;
StringBuffer sTotalString = new StringBuffer("");
try {
remoteFile=remoteFile.replaceAll("\\s", "%20");//转换空格
System.out.println("search ulr:"+remoteFile);
url = new URL(remoteFile);
urlc = (HttpURLConnection) url.openConnection();
urlc.setRequestProperty("Accept-Language", "zh-cn");
// urlc.setRequestProperty("User-Agent","Mozilla/6.0 (compatible; MSIE 5.0; Windows NT; DigExt)");//在linux下需注释该行
// 输入流
l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(urlc.getInputStream(),"UTF-8"));
//得到返回的信息
while ((sCurrentLine = l_reader.readLine()) != null) {
sTotalString.append(sCurrentLine);
sTotalString.append("\n");
}
}finally{
if(l_reader!=null)
l_reader.close();
if(urlc!=null)
urlc.disconnect();
}
return sTotalString.toString();
}
分享到:
相关推荐
在Java中,我们可以使用`java.net.URL`类来建立与目标网页的连接,并通过`java.io.BufferedReader`读取响应。例如: ```java URL url = new URL("http://example.com"); HttpURLConnection connection = ...
Java网页抓取数据是互联网数据挖掘的一个重要领域,它允许开发者通过编程方式获取网页上的信息,从而实现自动化分析、监控或构建智能应用。在Java中,我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...
在Java编程语言中,抓取网页内容是一项常见的任务,尤其对于数据分析、信息提取以及网络爬虫等应用场景。本文将深入探讨如何使用Java实现简单的网页内容抓取,适合初学者入门学习。 首先,我们需要理解网页抓取的...
网页抓取,也称为网络爬虫或网页刮取,是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到服务器,接收响应的HTML文档,然后解析文档以提取所需的数据。 在Java中,我们可以使用`java.net....
本知识点主要探讨如何使用Java实现HTTP请求来抓取网页信息,并利用Java IO流将其保存到本地文件。首先,我们需要理解HTTP协议的基本概念,它是客户端与服务器之间交互的一种协议,通常用于获取HTML页面。 在Java中...
在Java编程中,生成静态页面是一种常见的技术,它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容,并将其保存为一个HTML文件,即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...
在IT行业中,网页抓取是一项基础且重要的技能,它允许我们自动地从互联网上获取大量信息,进行数据分析、搜索引擎优化、市场研究等用途。在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页...
通过上述分析我们可以看出,Java抓取网页数据主要依赖于`java.net.HttpURLConnection`和`java.util.regex.Pattern`等类。这些工具能够帮助开发者轻松地构建网络请求,并通过正则表达式解析响应内容。此外,还需注意...
Java网页抓取数据是互联网开发中的一个重要技能,它允许开发者从网页中提取所需的信息,如新闻、产品数据或用户评论,以供进一步分析或利用。本主题主要涵盖以下几个关键知识点: 1. **网络请求库**:在Java中,...
"JSP抓取网页的代码"通常指的是使用JSP来实现网络爬虫功能,即从互联网上自动抓取网页内容。下面我们将深入探讨这个主题。 1. **JSP基础** - JSP是由Sun Microsystems(现已被Oracle收购)开发的,它的核心是Java ...
在IT领域,网络爬虫(Spider)是一种自动化程序,它按照预定的规则遍历互联网上的网页,抓取所需的信息。本项目"java_zhizhu.rar"提供的就是一个使用Java实现的LinkFilter蜘蛛程序,用于抓取和分析网页内容,并将其...
这就涉及到Java的网络输入/输出流(InputStream/OutputStream),使用HttpURLConnection或HttpClient类来发送GET请求并保存响应的图片数据到本地。 6. **多线程**:为了提高爬虫效率,可以使用多线程同时下载多个...
网络爬虫是一种自动化程序,用于从互联网上抓取大量数据,包括网页内容、图片、视频等。本项目提供了一个基础的Java实现,帮助你理解网络爬虫的工作原理,并且可以根据自己的需求进行配置来抓取特定的网页和云盘中的...
在`parser()`方法中,通过`URL`和`HttpURLConnection`类建立与目标网页的连接,设置请求属性并获取响应。接着,使用`getContentType()`方法获取服务器返回的MIME类型,从中提取出网页的字符编码。然后,通过`...
在本场景中,我们讨论的是使用Java中的HttpURLConnection类来实现对指定网页内容的抓取。这是一种基础的网络请求方法,适用于小型项目或学习网络爬虫的初级阶段。 首先,了解`HttpURLConnection`是Java标准库中的一...
在Web开发中,有时候我们需要从其他网站抓取数据,并将其展示在自己的网页上。这种需求可以通过多种方式实现,其中一种是利用Java Server Pages(JSP)技术。本文将详细介绍如何使用JSP来抓取并显示指定网页的内容。...
在开始抓取之前,需要对目标网站进行一定的分析,了解其结构和请求方式等信息。 ##### 2.1 目标网站分析 1. **请求URL**:抓取数据的第一步是确定目标URL。例如,在51job网站上搜索Java职位时,请求的URL为`...
网页抓取,也称为网络爬虫或网页蜘蛛,是一种自动浏览互联网并获取网页信息的技术。它通过模拟浏览器发送HTTP请求到目标服务器,接收响应的HTML内容,然后解析这些内容以提取所需信息。 1. **HTTP请求**:在Java中...
3. **网页抓取**:登录成功后,我们可以使用相同的HTTP客户端库发送GET请求,抓取海投网上的特定信息。这通常涉及到解析HTML或JSON响应,使用如Jsoup或Jackson等库进行解析。抓取的信息可能包括职位信息、公司简介等...
"jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages(JSP)相关的项目,目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术,允许开发者在HTML页面中嵌入Java代码来处理服务器端...