要分析某个网页中的代码构成,需要某个结点下的内容。用此原始方法可以得到整个网页的源码。其实更简单的方法是使用 WebClient 或 HtmlUtil 等开源方式 。
public class HtmlParser {
public static String getHtmlContent(URL url, String encode) {
StringBuffer contentBuffer = new StringBuffer();
int responseCode = -1;
HttpURLConnection con = null;
try {
con = (HttpURLConnection) url.openConnection();
con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE代理进行下载
con.setConnectTimeout(60000);
con.setReadTimeout(60000);
// 获得网页返回信息码
responseCode = con.getResponseCode();
if (responseCode == -1) {
System.out.println(url.toString() + " : connection is failure...");
con.disconnect();
return null;
}
if (responseCode >= 400) // 请求失败
{
System.out.println("请求失败:get response code: " + responseCode);
con.disconnect();
return null;
}
InputStream inStr = con.getInputStream();
InputStreamReader istreamReader = new InputStreamReader(inStr, encode);
BufferedReader buffStr = new BufferedReader(istreamReader);
String str = null;
while ((str = buffStr.readLine()) != null)
contentBuffer.append(str);
inStr.close();
} catch (IOException e) {
e.printStackTrace();
contentBuffer = null;
System.out.println("error: " + url.toString());
} finally {
con.disconnect();
}
return contentBuffer.toString();
}
public static String getHtmlContent(String url, String encode) {
if (!url.toLowerCase().startsWith("http://")) {
url = "http://" + url;
}
try {
URL rUrl = new URL(url);
return getHtmlContent(rUrl, encode);
} catch (Exception e) {
e.printStackTrace();
return null;
}
}
public static void main(String argsp[]){
System.out.println(getHtmlContent("www.baidu.com","utf-8")) ;
}
}
分享到:
相关推荐
这个RAR文件包含的"说明.txt"可能是详细的操作指南,而"根据URL获取因特网网页源文件"可能是一个Java源代码示例,用于演示如何实现这一功能。以下是对这个主题的详细讲解: 1. **网络编程基础**: 在Java中,进行...
在Java编程语言中,开发一个图形用户界面(GUI)来获取网页源代码涉及到多个关键知识点。这个项目使用了Java Swing库来创建JFrame窗口,并利用Java的网络编程能力来抓取网页内容。以下是对这些技术的详细解释: 1. ...
利用java进行网页的源代码获取 可以用在数据采集使用 可用于安卓平台
在本项目中,"纯Java实现整个网页截图项目源代码" 是一个利用Java编程语言来实现的实用程序,它能够捕获整个网页的图像并将其保存为图片文件。这个项目的核心在于利用DJNativeSwing组件,这是一个开源的Java库,它...
有时,我们可能需要获取用户通过WebView浏览的网页源代码,以便进行进一步的数据分析或者实现特定功能。这篇博客(原文链接:https://dai-lm.iteye.com/blog/1158470)讨论了如何在Android中通过WebView获取网页源...
"Java项目开源源码,共111个" 本资源提供了111个Java项目的开源源码,涵盖了各种Java项目类型,包括Web开发、移动应用开发、桌面应用开发等。这些源码可以作为学习Java编程的参考资源,也可以作为实际项目开发的...
### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...
本项目提供的"现实网页下载java源代码"旨在帮助开发者实现这一功能。Java作为一种多用途的编程语言,提供了多种方法来下载网页内容。下面将详细探讨相关知识点。 1. **HTTP协议**:网页下载的基本原理是通过HTTP...
在IT行业中,尤其是在软件开发领域,理解和操作网页源代码是至关重要的技能之一。"查看网页源代码的Frame"是一个基于Java Swing实现的应用程序,它允许用户便捷地查看和分析网页的HTML源代码。这个应用程序提供了...
在Java编程语言中,获取网页源代码是一项基本的网络操作,通常用于爬虫、数据分析或者自动化测试等场景。这个过程涉及到Java的`java.net`和`java.io`这两个核心包中的类和方法。下面我们将详细讲解如何实现这个功能...
Tcp服务端与客户端的JAVA实例源代码,一个简单的Java TCP服务器端程序,别外还有一个客户端的程序,两者互相配合可以开发出超多的网络程序,这是最基础的部分。 递归遍历矩阵 1个目标文件,简单! 多人聊天室 3...
本话题主要关注的是如何使用Java语言进行网页分析,结合了“Java”、“网页分析”和“源代码”三个关键标签,我们可以深入探讨这个领域的核心概念和技术。 Java是一种广泛使用的编程语言,因其跨平台的特性,常被...
Java爬虫是一个强大的工具,用于自动化地从互联网上获取数据,尤其在大数据分析、网站监控和内容抓取等领域中有着广泛的应用。在这个Java爬虫实例中,我们将深入探讨其核心概念和技术,帮助你理解如何使用Java来编写...
标题“java获取网页主信息之五:测试”暗示了这是一个关于Java获取网页信息系列教程的第五部分,重点可能放在测试和验证已经实现的代码功能上。在这个阶段,开发者通常会编写单元测试或者集成测试,确保代码能够正确...
网页源码下载工具是一款基于Java编程语言开发的实用软件,主要功能是帮助用户方便快捷地获取互联网上的网页源代码。对于需要分析网页结构、研究网页设计或者进行网页爬虫开发的人来说,这款工具提供了极大的便利。 ...
在Android平台上,获取网页源代码是一项常见的任务,尤其在进行网络爬虫或者解析网页内容时。本篇文章将详细讲解如何在Android应用中实现这一功能。 首先,我们需要了解Android中的网络访问方式。Android提供了多种...
这个项目,"java 生成网页图片Web源代码",显然关注的就是如何使用Java来创建和处理图片,特别是在Web环境中的应用。以下是相关的知识点详解: 1. **Java图像处理库**:Java提供了内置的`java.awt`和`javax.imageio...
在"Android网页源代码查看器"中,开发者可能通过WebView的`WebSettings`类设置允许获取网页源码的权限,然后利用WebView的`loadUrl()`方法加载网页,并通过`evaluateJavascript()`执行JavaScript代码来获取网页的...
Java获取任意http网页源代码的方法 Java获取任意http网页源代码的方法是Java开发者经常遇到的问题,今天我们将介绍一种使用Java获取任意http网页源代码的方法,并且还可以去除HTML标签的代码功能。 首先,我们需要...