`

使用Java抓取网页内容

阅读更多
import java.net.*;
import java.io.*;


public class CheckURL {
     
     /**
     *
     * @param urlvalue
     *
     * @return 获取url内容
     */
  public static String check(String urlvalue ) {
	 
	 
	  String inputLine="";
	  String line2 = "";
	  
		try{
				URL url = new URL(urlvalue);
				
				HttpURLConnection urlConnection  = (HttpURLConnection)url.openConnection();
				
				BufferedReader in  = new BufferedReader(
			            new InputStreamReader(
			            		urlConnection.getInputStream()));
				while ((line2 = in.readLine()) != null) { 
				inputLine+=line2;
				}
		}
				catch(Exception e){
					e.printStackTrace();
				}
			//System.out.println(inputLine);  系统打印出抓取得验证结果
			
	    return inputLine;
  }

  public static void main(String a[]){
	System.out.println(CheckURL.check(a[0]));
  }


  }
分享到:
评论
1 楼 johnnyhg 2008-06-28  
解析部分呢?

相关推荐

    Java抓取网页内容三种方式

    Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础,它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java 语言抓取网页内容的三种方式...

    JAVA通过url获取网页内容

    本文将详细介绍如何使用 Java 通过 URL 获取网页内容。 一、使用 URL 类获取网页内容 在 Java 中,URL 类是用于表示统一资源定位符的类。通过使用 URL 类,可以获取指定 URL 的内容。在上面的代码中,我们使用了 ...

    Java抓取https网页数据

    Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)

    java简单的抓取网页内容的程序

    java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...

    java简单抓取网页内容

    本文将深入探讨如何使用Java实现简单的网页内容抓取,适合初学者入门学习。 首先,我们需要理解网页抓取的基本原理。网页本质上是由HTML(超文本标记语言)构成的,而HTTP(超文本传输协议)则是网页内容传输的基础...

    java web网站常用抓取其他网站内容

    4. **处理JavaScript**:很多现代网站使用JavaScript动态加载内容,单纯抓取HTML可能无法获取完整数据。这时需要利用如Selenium WebDriver这样的工具模拟浏览器执行JavaScript,获取动态渲染后的页面内容。 5. **...

    java抓取网页内容源代码

    ### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...

    java 获取json网页数据

    在Java编程中,获取JSON网页数据是常见的任务,特别是在处理Web API或者进行数据抓取时。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...

    Java抓取网页数据Demo

    本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...

    java抓取网站数据

    ### Java抓取网站数据知识点详解 #### 一、概述 在现代互联网开发中,抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘,掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...

    java网页抓取数据

    在网页抓取过程中,经常需要处理JavaScript渲染的内容,因为很多网站使用AJAX技术动态加载数据。这时,HtmlUnit这样的无头浏览器库就派上用场了,它可以执行JavaScript并呈现动态内容: ```java HtmlUnitClient ...

    java抓取网页内容--生成静态页面

    在Java编程中,生成静态页面是一种常见的技术,它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容,并将其保存为一个HTML文件,即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

    java抓取网页数据

    在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...

    java爬虫抓取网页内容,下载网站图片

    Java爬虫技术是一种用于自动化获取网页内容的程序,它能够模拟人类浏览器的行为,遍历互联网上的页面,提取所需的信息。在本场景中,我们将重点讨论如何利用Java编写爬虫来抓取网页内容并下载其中的图片。 首先,...

    Java实现网页抓取

    在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**:首先,理解HTTP协议是必要的,它是互联网上应用最广泛的一种...

    基于JAVA技术的网页内容智能抓取.doc

    3. 执行抓取任务:依据配置文件中的规则,发起HTTP请求获取网页内容。 4. 内容解析与处理:解析抓取到的HTML,根据预设规则提取目标内容并进行进一步的处理。 四、目前缺陷功能描述 尽管系统具有一定的实用性,但也...

    java抓取网页-java工具类

    java抓取网页java工具类java抓取网页java工具类

    基于JAVA技术的网页内容智能抓取

    【基于JAVA技术的网页内容智能抓取】是一个利用Java编程语言实现的网页内容抓取系统,它结合了XML解析、HTML解析以及多种开源组件来高效地获取和处理网络上的信息。核心技术和组件包括: 1. **XML解析**:DOM4J被...

    java http方式抓取网页信息 JAVAIO

    本知识点主要探讨如何使用Java实现HTTP请求来抓取网页信息,并利用Java IO流将其保存到本地文件。首先,我们需要理解HTTP协议的基本概念,它是客户端与服务器之间交互的一种协议,通常用于获取HTML页面。 在Java中...

    java抓取与采集页面内容 喜欢的拿去研究下

    3. **处理JavaScript**:许多现代网站使用AJAX加载内容,可能需要使用如Selenium这样的工具来执行JavaScript并获取动态加载的数据。 4. **异常处理和重试机制**:网络不稳定时,需要处理各种可能出现的异常,并设计...

Global site tag (gtag.js) - Google Analytics