通过JAVA的API可以顺利的抓取网络上的大部分指定的网页内容。最简单的一种抓取方法就是:
- URL url = new URL(myurl);
-
-
BufferedReader br = new BufferedReader(newInputStreamReader(url.openStream()));
-
-
String s = "";
-
-
StringBuffer sb = new StringBuffer("");
-
-
while ((s = br.readLine()) != null) {
-
- i++;
-
-
sb.append(s+"\r\n");
-
- }
URL url = new URL(myurl);
BufferedReader br = new BufferedReader(newInputStreamReader(url.openStream()));
String s = "";
StringBuffer sb = new StringBuffer("");
while ((s = br.readLine()) != null) {
i++;
sb.append(s+"\r\n");
}
这种方法抓取一般的网页应该没有问题,但当有些网页中存在一些嵌套的redirect连接时,它就会报Server redirected too many times这样的错误,这是因为此网页内部又有一些代码是转向其它网页的,循环过多导致程序出错。如果只想抓取本URL中的网页内容,而不愿意让它有其它的网页跳转,可以用以下的代码。
- URL urlmy = new URL(myurl);
-
- HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();
-
-
con.setFollowRedirects(true);
-
-
con.setInstanceFollowRedirects(false);
-
- con.connect();
-
-
BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));
-
-
String s = "";
-
-
StringBuffer sb = new StringBuffer("");
-
-
while ((s = br.readLine()) != null) {
-
-
sb.append(s+"\r\n");
-
- }
URL urlmy = new URL(myurl);
HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();
con.setFollowRedirects(true);
con.setInstanceFollowRedirects(false);
con.connect();
BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));
String s = "";
StringBuffer sb = new StringBuffer("");
while ((s = br.readLine()) != null) {
sb.append(s+"\r\n");
}
完整的示例代码 netpc.java :
package cn.com.bps.test;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class netpc {
public static void main(String[] args) {
//要获取的网页地址
String myurl = "http://localhost:8080/mydomain/index.jsp";
URL urlmy = null;
HttpURLConnection con =null;
try {
urlmy = new URL(myurl);
con = (HttpURLConnection) urlmy.openConnection();
// con.setFollowRedirects(true);
con.setInstanceFollowRedirects(false);
con.connect();
BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));
String len = "";
while ((len = br.readLine()) != null) {
//输出页面上取得的字符串做处理
System.out.println(len);
}
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
分享到:
相关推荐
在Java编程中,获取JSON网页数据是常见的任务,特别是在处理Web API或者进行数据抓取时。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...
本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...
在Java编程语言中,抓取网页内容是一项常见的任务,尤其对于数据分析、信息提取以及网络爬虫等应用场景。本文将深入探讨如何使用Java实现简单的网页内容抓取,适合初学者入门学习。 首先,我们需要理解网页抓取的...
Java网页抓取数据是互联网数据挖掘的一个重要领域,它允许开发者通过编程方式获取网页上的信息,从而实现自动化分析、监控或构建智能应用。在Java中,我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...
在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...
### Java抓取网页内容源代码解析与扩展 在IT领域,网页抓取(或称网络爬虫)是一项关键技能,广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码,旨在帮助...
在Java编程中,生成静态页面是一种常见的技术,它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容,并将其保存为一个HTML文件,即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...
3. 执行抓取任务:依据配置文件中的规则,发起HTTP请求获取网页内容。 4. 内容解析与处理:解析抓取到的HTML,根据预设规则提取目标内容并进行进一步的处理。 四、目前缺陷功能描述 尽管系统具有一定的实用性,但也...
在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**:首先,理解HTTP协议是必要的,它是互联网上应用最广泛的一种...
Java爬虫技术是一种用于自动化获取网页内容的程序,它能够模拟人类浏览器的行为,遍历互联网上的页面,提取所需的信息。在本场景中,我们将重点讨论如何利用Java编写爬虫来抓取网页内容并下载其中的图片。 首先,...
【基于JAVA技术的网页内容智能抓取】是一个利用Java编程语言实现的网页内容抓取系统,它结合了XML解析、HTML解析以及多种开源组件来高效地获取和处理网络上的信息。核心技术和组件包括: 1. **XML解析**:DOM4J被...
以下是一个基本示例,展示如何通过GET方法抓取网页内容: ```java import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; public class ...
在这个Java网页抓取示例中,HTTP Client库用于发起HTTP请求,获取网页内容。httpclient-4.1.2.jar和httpcore-4.2.1.jar分别是HTTP Client的核心库和基础核心组件,它们负责网络通信的部分。 在主类文件中,通常会...
例如,可以执行一个JavaScript脚本来获取网页的canvas元素,然后调用`toDataURL()`方法将canvas内容转换为Base64编码的图像数据。 5. **处理图像数据**:在Java端接收到Base64编码的图像数据后,将其解码并保存为...
Java 抓取网页是一种常见的应用场景,在 Web 开发和爬虫应用中尤其重要。下面,我们将介绍三种使用 Java 语言实现抓取网页的方式。 方式一:使用 URL 连接抓取网页 在第一个示例中,我们使用 Java 的 URL 连接来...
Java抓取网页的爬虫是一种自动化程序,用于从互联网上收集和处理大量数据。它模拟浏览器行为,通过HTTP协议向服务器发送请求,并接收返回的HTML或其他格式的网页内容。在这个过程中,开发者通常会使用到一系列Java库...
### Java抓取任何指定网页的数据 #### 知识点概览 本文主要介绍如何使用Java技术来抓取任何指定网页的数据。重点在于介绍抓取网页数据的方法、解析数据的手段,以及具体实施过程中的关键步骤。 #### 抓取网页数据...
### Java获取网页中图片的方法与判断网页代码中是否包含有效图片 在当今互联网时代,从网页中抓取图片是常见的需求之一,特别是在数据抓取、网络爬虫或内容分析等应用中。Java作为一种广泛使用的编程语言,提供了...
网页抓取,也称为网络爬虫或网页蜘蛛,是一种自动浏览互联网并获取网页信息的技术。它通过模拟浏览器发送HTTP请求到目标服务器,接收响应的HTML内容,然后解析这些内容以提取所需信息。 1. **HTTP请求**:在Java中...
以下是对"java抓取网页数据实现"这一主题的详细说明。 首先,我们需要了解网页抓取的基本原理。网页抓取,也称为网络爬虫或网页刮取,是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到...