java抓取网页 - xingcxb - ITeye博客

`

xingcxb

浏览: 51465 次
性别:
来自: 上海

最近访客更多访客>>

ralin

jndl99999

woodding2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wangjl_yt：怎样在myeclipse中，增加GMF插件
Myeclipse Access restriction 问题的解决

java抓取网页

阅读更多

import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;

public class Test {

/**
* @param args
*/
public static void main(String[] args) {
try {
URL url = new URL("http://jj.24365pt.com/index.jhtml");

URLConnection conn = url.openConnection();
conn.setDoOutput(true);
InputStream in = null;
in = url.openStream();
String content = pipe(in,"utf-8");
System.out.println(content);
} catch (Exception e) {
e.printStackTrace();
}
}

static String pipe(InputStream in,String charset) throws IOException {
        StringBuffer s = new StringBuffer();
        if(charset==null||"".equals(charset)){
        charset="utf-8";
        }
        String rLine = null;
        BufferedReader bReader = new BufferedReader(new InputStreamReader(in,charset));
        PrintWriter pw = null;

FileOutputStream fo = new FileOutputStream("../index.html");
OutputStreamWriter writer = new OutputStreamWriter(fo, "utf-8");
pw = new PrintWriter(writer);
        while ( (rLine = bReader.readLine()) != null) {
            String tmp_rLine = rLine;
            int str_len = tmp_rLine.length();
            if (str_len > 0) {
              s.append(tmp_rLine);
              pw.println(tmp_rLine);
              pw.flush();
            }
            tmp_rLine = null;
       }
        in.close();
        pw.close();
        return s.toString();
}
}

分享到：

Linux mysql | java 批量处理

2011-09-08 23:44
浏览 622
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java抓取网页内容三种方式: Java 抓取网页内容三种方式 Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础，它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java...

java抓取网页-java工具类: java抓取网页java工具类java抓取网页java工具类

java抓取网页数据: 在“java抓取网页数据”这个主题中，我们将深入探讨如何利用Java来抓取并处理互联网上的信息。首先，我们要了解什么是网络爬虫。网络爬虫（Web Crawler）是自动遍历互联网的程序，通过抓取网页内容并存储在本地，...

Java抓取网页数据Demo: 本文将详细讨论如何使用Java语言来抓取网页数据，包括两种主要方法：直接抓取原网页内容和处理网页中的JavaScript返回数据。首先，让我们探讨**抓取原网页**的方法。在Java中，我们可以使用`java.net.URL`类来建立...

java抓取网页三种方式: Java 抓取网页三种方式 Java 抓取网页是一种常见的应用场景，在 Web 开发和爬虫应用中尤其重要。下面，我们将介绍三种使用 Java 语言实现抓取网页的方式。方式一：使用 URL 连接抓取网页在第一个示例中，我们...

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java抓取网页数据实现: 以下是对"java抓取网页数据实现"这一主题的详细说明。首先，我们需要了解网页抓取的基本原理。网页抓取，也称为网络爬虫或网页刮取，是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到...

java抓取网页内容源代码: ### Java抓取网页内容源代码解析与扩展在IT领域，网页抓取（或称网络爬虫）是一项关键技能，广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码，旨在帮助...

java 获取json网页数据: 在Java编程中，获取JSON网页数据是常见的任务，特别是在处理Web API或者进行数据抓取时。JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...

java抓取网页的爬虫: Java抓取网页的爬虫是一种自动化程序，用于从互联网上收集和处理大量数据。它模拟浏览器行为，通过HTTP协议向服务器发送请求，并接收返回的HTML或其他格式的网页内容。在这个过程中，开发者通常会使用到一系列Java库...

java获取网页主信息之五:测试: 在Java编程领域，获取网页主信息是一项常见的任务，特别是在数据抓取、网页解析以及网络爬虫等应用场景中。本主题将深入探讨如何使用Java来提取网页的主要信息，以实现更高效的数据处理。以下是对给定标题和描述的...

java获取网页工程: 本项目“java获取网页工程”着重展示了如何使用Java技术来抓取和处理网页数据，包括调用新浪微博的网络接口以及对StringBuffer类的简单应用。下面我们将深入探讨这两个核心知识点。首先，让我们关注如何在Java中...

Java抓取网页图片链接地址: ### Java抓取网页图片链接地址 #### 知识点概览本文将详细介绍如何使用Java编程语言抓取网页上的图片链接。此技术广泛应用于网络爬虫、数据分析等领域，能够帮助开发者快速获取所需的图像资源。 #### 技术背景与...

java网页抓取数据: Java网页抓取数据是互联网数据挖掘的一个重要领域，它允许开发者通过编程方式获取网页上的信息，从而实现自动化分析、监控或构建智能应用。在Java中，我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...

JAVA获取网页有效邮箱地址: ### JAVA获取网页有效邮箱地址 #### 知识点解析本篇文章主要介绍了一种通过Java程序来抓取网页上的有效邮箱地址的方法。该程序能够接收一个网页URL作为输入，然后解析网页源代码并从中提取出所有符合标准格式的...

Java获取网页中url的图片资源.rar: Java获取网页中的图片资源，启动线程，智能解析URL，加载图片资源，显示图片数据，测试时候请用IE打开useTrackedImage.html 文件，载入图像文件，并获取该图像文件。本Java例子主要是利用java.awt.MediaTracker 类来...

java抓取网页内容--生成静态页面: 在Java编程中，生成静态页面是一种常见的技术，它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容，并将其保存为一个HTML文件，即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

java 实现整张网页快照: 例如，可以执行一个JavaScript脚本来获取网页的canvas元素，然后调用`toDataURL()`方法将canvas内容转换为Base64编码的图像数据。 5. **处理图像数据**：在Java端接收到Base64编码的图像数据后，将其解码并保存为...

java抓取网页数据获取网页中所有的链接实例分享: 在Java编程中，抓取网页数据是一项常见的任务，尤其在数据分析、信息爬取或者网站自动化测试等场景中。本实例分享了一个简单的Java程序，用于从指定网页中获取所有链接。通过创建一个名为`HtmlParser`的类，该程序...

Global site tag (gtag.js) - Google Analytics