`
iwebcode
  • 浏览: 2071766 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

java 获取网页源代码

 
阅读更多

要分析某个网页中的代码构成,需要某个结点下的内容。用此原始方法可以得到整个网页的源码。其实更简单的方法是使用 WebClient 或 HtmlUtil 等开源方式 。

public class HtmlParser {
	public static String getHtmlContent(URL url, String encode) {
		StringBuffer contentBuffer = new StringBuffer();

		int responseCode = -1;
		HttpURLConnection con = null;
		try {
			con = (HttpURLConnection) url.openConnection();
			con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE代理进行下载
			con.setConnectTimeout(60000);
			con.setReadTimeout(60000);
			// 获得网页返回信息码
			responseCode = con.getResponseCode();
			if (responseCode == -1) {
				System.out.println(url.toString() + " : connection is failure...");
				con.disconnect();
				return null;
			}
			if (responseCode >= 400) // 请求失败
			{
				System.out.println("请求失败:get response code: " + responseCode);
				con.disconnect();
				return null;
			}

			InputStream inStr = con.getInputStream();
			InputStreamReader istreamReader = new InputStreamReader(inStr, encode);
			BufferedReader buffStr = new BufferedReader(istreamReader);

			String str = null;
			while ((str = buffStr.readLine()) != null)
				contentBuffer.append(str);
			inStr.close();
		} catch (IOException e) {
			e.printStackTrace();
			contentBuffer = null;
			System.out.println("error: " + url.toString());
		} finally {
			con.disconnect();
		}
		return contentBuffer.toString();
	}

	public static String getHtmlContent(String url, String encode) {
		if (!url.toLowerCase().startsWith("http://")) {
			url = "http://" + url;
		}
		try {
			URL rUrl = new URL(url);
			return getHtmlContent(rUrl, encode);
		} catch (Exception e) {
			e.printStackTrace();
			return null;
		}
	}
	public static void main(String argsp[]){
		System.out.println(getHtmlContent("www.baidu.com","utf-8")) ;
		
	}
}


分享到:
评论

相关推荐

    Java源代码根据URL获取因特网网页源文件.rar

    这个RAR文件包含的"说明.txt"可能是详细的操作指南,而"根据URL获取因特网网页源文件"可能是一个Java源代码示例,用于演示如何实现这一功能。以下是对这个主题的详细讲解: 1. **网络编程基础**: 在Java中,进行...

    Java图形界面获取网页的源代码

    在Java编程语言中,开发一个图形用户界面(GUI)来获取网页源代码涉及到多个关键知识点。这个项目使用了Java Swing库来创建JFrame窗口,并利用Java的网络编程能力来抓取网页内容。以下是对这些技术的详细解释: 1. ...

    Java提交后获取网页源代码

    利用java进行网页的源代码获取 可以用在数据采集使用 可用于安卓平台

    纯Java实现整个网页截图项目源代码

    在本项目中,"纯Java实现整个网页截图项目源代码" 是一个利用Java编程语言来实现的实用程序,它能够捕获整个网页的图像并将其保存为图片文件。这个项目的核心在于利用DJNativeSwing组件,这是一个开源的Java库,它...

    [转帖]通过WebView获取访问网页的源代码

    有时,我们可能需要获取用户通过WebView浏览的网页源代码,以便进行进一步的数据分析或者实现特定功能。这篇博客(原文链接:https://dai-lm.iteye.com/blog/1158470)讨论了如何在Android中通过WebView获取网页源...

    Java项目开源源码,共111个

    "Java项目开源源码,共111个" 本资源提供了111个Java项目的开源源码,涵盖了各种Java项目类型,包括Web开发、移动应用开发、桌面应用开发等。这些源码可以作为学习Java编程的参考资源,也可以作为实际项目开发的...

    java抓取网页内容源代码

    ### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...

    现实网页下载java源代码

    本项目提供的"现实网页下载java源代码"旨在帮助开发者实现这一功能。Java作为一种多用途的编程语言,提供了多种方法来下载网页内容。下面将详细探讨相关知识点。 1. **HTTP协议**:网页下载的基本原理是通过HTTP...

    查看网页源代码的Frame

    在IT行业中,尤其是在软件开发领域,理解和操作网页源代码是至关重要的技能之一。"查看网页源代码的Frame"是一个基于Java Swing实现的应用程序,它允许用户便捷地查看和分析网页的HTML源代码。这个应用程序提供了...

    java 通过指定的URL可以获取网页的源代码

    在Java编程语言中,获取网页源代码是一项基本的网络操作,通常用于爬虫、数据分析或者自动化测试等场景。这个过程涉及到Java的`java.net`和`java.io`这两个核心包中的类和方法。下面我们将详细讲解如何实现这个功能...

    java源码包---java 源码 大量 实例

     Tcp服务端与客户端的JAVA实例源代码,一个简单的Java TCP服务器端程序,别外还有一个客户端的程序,两者互相配合可以开发出超多的网络程序,这是最基础的部分。 递归遍历矩阵 1个目标文件,简单! 多人聊天室 3...

    基于Java的网页分析代码

    本话题主要关注的是如何使用Java语言进行网页分析,结合了“Java”、“网页分析”和“源代码”三个关键标签,我们可以深入探讨这个领域的核心概念和技术。 Java是一种广泛使用的编程语言,因其跨平台的特性,常被...

    Java爬虫实例完整源码

    Java爬虫是一个强大的工具,用于自动化地从互联网上获取数据,尤其在大数据分析、网站监控和内容抓取等领域中有着广泛的应用。在这个Java爬虫实例中,我们将深入探讨其核心概念和技术,帮助你理解如何使用Java来编写...

    java获取网页主信息之五:测试

    标题“java获取网页主信息之五:测试”暗示了这是一个关于Java获取网页信息系列教程的第五部分,重点可能放在测试和验证已经实现的代码功能上。在这个阶段,开发者通常会编写单元测试或者集成测试,确保代码能够正确...

    网页源码下载工具

    网页源码下载工具是一款基于Java编程语言开发的实用软件,主要功能是帮助用户方便快捷地获取互联网上的网页源代码。对于需要分析网页结构、研究网页设计或者进行网页爬虫开发的人来说,这款工具提供了极大的便利。 ...

    android读取网页源代码

    在Android平台上,获取网页源代码是一项常见的任务,尤其在进行网络爬虫或者解析网页内容时。本篇文章将详细讲解如何在Android应用中实现这一功能。 首先,我们需要了解Android中的网络访问方式。Android提供了多种...

    java 生成网页图片Web源代码

    这个项目,"java 生成网页图片Web源代码",显然关注的就是如何使用Java来创建和处理图片,特别是在Web环境中的应用。以下是相关的知识点详解: 1. **Java图像处理库**:Java提供了内置的`java.awt`和`javax.imageio...

    Android网页源代码查看器___可运行源码

    在"Android网页源代码查看器"中,开发者可能通过WebView的`WebSettings`类设置允许获取网页源码的权限,然后利用WebView的`loadUrl()`方法加载网页,并通过`evaluateJavascript()`执行JavaScript代码来获取网页的...

    Java获取任意http网页源代码的方法

    Java获取任意http网页源代码的方法 Java获取任意http网页源代码的方法是Java开发者经常遇到的问题,今天我们将介绍一种使用Java获取任意http网页源代码的方法,并且还可以去除HTML标签的代码功能。 首先,我们需要...

Global site tag (gtag.js) - Google Analytics