`

JAVA抓取一个HTML源代码

    博客分类:
  • JAVA
阅读更多


package com.hyq.src;

import java.io.InputStream;
import java.net.URL;


public class Test {
	
	/**
	 * @param args
	 */
	public static void main(String[] args) {
		try{
			Test.testNetStream();
		}catch(Exception e){
			e.printStackTrace();
		}
	} 
	public static void testNetStream()throws Exception{
		URL url=new URL("http://www.imust.cn/");
		InputStream in=url.openStream();
		byte[] b=new byte[100000];
		in.read(b);
		in.close();
		String s=new String(b);
		System.out.println(s);
	}
}













package com.hyq.src;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;



public class Test {
	
	public static void main(String[] args)
	{
		System.out.println(Test.getHtmlSource("http://sports.163.com/zc/"));
	}
	
	public static String getHtmlSource(String url){
		StringBuffer stb=new StringBuffer();
		try{
			URLConnection uc=new URL(url).openConnection();
			BufferedReader br=new BufferedReader(new InputStreamReader(uc.getInputStream(),"gb2312"));
			String temp=null;
			while((temp=br.readLine())!=null){
				stb.append(temp).append("\n");
			}
			br.close();
			
		}catch(Exception e){
			e.printStackTrace();
		}
		return stb.toString();
		
	}

	
}



分享到:
评论

相关推荐

    java抓取网页内容源代码

    ### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...

    jsp网页抓取天气预报源代码

    "jsp网页抓取天气预报源代码" 这个标题表明这是一个与Java Server Pages(JSP)相关的项目,目标是实现从网页上抓取天气预报信息的功能。JSP是一种动态网页技术,允许开发者在HTML页面中嵌入Java代码来处理服务器端...

    java简单抓取网页内容

    Java中的`HttpURLConnection`或`HttpClient`库可以用来发送HTTP请求,获取网页的HTML源代码。接着,我们可以利用解析库,如Jsoup,来解析HTML,提取所需信息。 1. **发送HTTP请求**: - 使用`HttpURLConnection`:...

    Java 实例 - 网页抓取源代码+详细指导教程.zip

    在"Java 实例 - 网页抓取源代码"中,可能包含了使用Jsoup的示例代码,教你如何连接到一个网页,解析HTML文档,然后提取所需的数据。 例如,以下是一个简单的Jsoup使用示例: ```java import org.jsoup.Jsoup; ...

    Java抓取网页数据Demo

    这段代码会获取指定URL的HTML源代码。为了处理更复杂的网页,可以使用HTML解析库,如Jsoup。Jsoup提供了一套丰富的API,便于解析和提取HTML元素: ```java Document doc = Jsoup.connect("http://example.com").get...

    JAVA爬虫项目源代码

    【JAVA爬虫项目源代码】是一个使用JAVA编程语言编写的爬虫项目,它结合了多线程编程和队列管理技术来提升数据抓取的效率和并发性。在这个项目中,开发者利用了以下核心技术: 1. **HttpClinet**:HttpClinet是Java...

    搜索引擎源代码用java、jsp编写的搜索引擎源代码

    通过分析这些源代码,开发者可以了解到如何利用Java和JSP构建一个基本的搜索引擎,包括如何处理网络请求、解析HTML、构建索引结构、执行搜索算法以及生成动态网页。 总结来说,这个项目为学习者提供了实践搜索引擎...

    java网络编程抓取指定网页信息--UrlHtml(java源码)

    import java.io.DataInputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public ...

    java爬虫源代码

    Java爬虫源代码是用于自动化抓取网页信息的程序,主要应用于数据分析、信息提取和搜索引擎优化等领域。在Java中开发爬虫,可以利用其强大的类库和跨平台特性,实现高效稳定的数据抓取。本项目包含以下几个核心知识点...

    基于JAVA的网络爬虫程序源代码

    【标题】"基于JAVA的网络爬虫程序源代码"是一个涉及网络爬虫技术的Java编程项目,它提供了实现网络爬虫功能的完整源代码。网络爬虫是互联网上的自动化工具,用于系统地浏览、抓取网页信息并存储到本地数据库或文件中...

    一个用java实现的抓取网站程序

    本项目是一个基于Java实现的网站抓取程序,利用多线程技术和HTML解析技术,同时具备防屏蔽功能,以高效、稳定的方式从目标网站获取数据。 首先,我们要理解Java在编程中的地位。Java是一种跨平台的面向对象的编程...

    基于java开发的搜索引擎系统附源代码

    【标题】:“基于Java开发的搜索引擎系统附源代码”是一个以Java编程语言为基础构建的搜索引擎项目的实践案例。这个项目不仅提供了完整的源代码,而且适用于Java技术的学生或开发者作为毕业论文的研究对象,帮助他们...

    搜索源代码(JAVA实现)

    通过分析和学习这些源代码,开发者可以掌握如何用Java实现一个功能完备的搜索引擎,包括网络爬虫的构建、网页数据的处理以及搜索结果的展示。这不仅有助于理解搜索引擎的工作原理,也有助于提升实际的编程技能。

    搜索网页采集网络爬虫java源代码

    本压缩包文件包含的"搜索网页采集网络爬虫java源代码"为开发者提供了一个实现这一功能的实例。 首先,让我们深入了解一下Java网络爬虫的基础知识: 1. **HTTP协议**:网络爬虫的基础是HTTP(超文本传输协议),它...

    多线程搜索引擎java实现源代码

    本项目以"多线程搜索引擎java实现源代码"为标题,旨在介绍如何使用Java编程语言构建一个具备多线程特性的搜索引擎。这个搜索引擎可以抓取网络上的信息,存储网页快照,并建立索引,以便用户快速查询所需内容。下面...

    JAVA搜索引擎源代码,修正错误了

    Java搜索引擎源代码是一种用于理解和...通过分析和学习这个Java搜索引擎源代码,不仅可以提升Java编程技能,还能深入理解搜索引擎的内部运作机制,对于想要从事Web开发或信息检索领域的人来说,是一份宝贵的教育资源。

    [图灵社区]《深度学习搜索引擎开发:Java实现》源代码.zip

    本书的源代码包含了作者为阐述理论和技术而编写的Java程序,这些程序是理解并实践深度学习搜索引擎开发的关键。下面将详细讨论相关知识点。 一、深度学习基础 深度学习是机器学习的一个分支,它模拟人脑神经网络的...

    提取网页源代码

    当我们访问一个网站时,浏览器接收服务器发送的网页源代码并将其解析成我们看到的可视化页面。提取网页源代码是一项重要的技能,尤其在数据分析、网络爬虫和自动化测试等领域。 提取网页源代码主要有以下几种方法:...

    家装网源代码,网站源代码

    家装网源代码是指专门为家居装饰行业设计和开发的网站的全套源代码,这些代码是构建一个完整的家装服务平台的基础。源代码是程序员用编程语言编写的原始指令,是软件的核心部分,包含了网站的所有功能、逻辑和界面...

Global site tag (gtag.js) - Google Analytics