java 抓取页面信息 - - ITeye博客

`

javaimlike

浏览: 96279 次
性别:
来自: 北京

最近访客更多访客>>

ganxueyun

mynumen

AriesChan

shun_liu

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bjmike：不错，兄弟，谢谢了
Jquery 可排序的表格
疯语无阻： thank u
Java 生成html文件

java 抓取页面信息

博客分类：

JAVA

阅读更多

public String CreateCrawlWebData(String myurl){

  String htmlContent = "";
try {

     java.io.InputStream inputStream;
     java.net.URL url = new java.net.URL(myurl);
     java.net.HttpURLConnection connection = (java.net.HttpURLConnection) url.openConnection();
     connection.connect();
     inputStream = connection.getInputStream();
     byte bytes[] = new byte[1024 * 2000];
     int index = 0;
     int count = inputStream.read(bytes, index, 1024 * 2000);
     while (count != -1) {
     index += count;
     count = inputStream.read(bytes, index, 1);

     htmlContent = new String(bytes, "gb2312");
     connection.disconnect();
     }
  }catch (Exception ex)
     {
      ex.printStackTrace();
     }
      return htmlContent.trim();
}

public static void main(String[] args) throws IOException {

String _src= getStaticPage(cwd.CreateCrawlWebData("http://www.baidu.com"));
     //System.out.println(cwd.CreateCrawlWebData("http://www.baidu.com"));
  File file = new File("d:\\aa.html");
  FileWriter resultFile = new FileWriter(file);
  PrintWriter myFile = new PrintWriter(resultFile);
   //写文件
    myFile.println(_src);
   resultFile.close();
   myFile.close();

}

分享到：

Sql Server 中一个非常强大的日期格式化函 ... | 一个div的圆角例子

2011-03-15 16:04
浏览 707
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java抓取与采集页面内容喜欢的拿去研究下: Java 抓取与采集页面内容是一项常见的任务，特别是在大数据分析、搜索引擎优化（SEO）和网络监控等领域。这个压缩包中的两个文件，`HttpCon.java` 和 `ChunkedInputStream.java`，可能包含了实现这一功能的基本组件...

java 抓取微信公众号文章: java抓取微信公众号最近10篇文章，基于微信搜狗搜索实现。java源码.git 仓库 http://git.oschina.net/hcxy/WechatSpider

java抓取网站数据: ### Java抓取网站数据知识点详解 #### 一、概述在现代互联网开发中，抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘，掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...

Java实现网页抓取: 在这个Java实现网页抓取的项目中，我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**：首先，理解HTTP协议是必要的，它是互联网上应用最广泛的一种...

java网页抓取数据: Java网页抓取数据是互联网数据挖掘的一个重要领域，它允许开发者通过编程方式获取网页上的信息，从而实现自动化分析、监控或构建智能应用。在Java中，我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...

java抓取网页数据: 在“java抓取网页数据”这个主题中，我们将深入探讨如何利用Java来抓取并处理互联网上的信息。首先，我们要了解什么是网络爬虫。网络爬虫（Web Crawler）是自动遍历互联网的程序，通过抓取网页内容并存储在本地，...

Java抓取网页数据Demo: 本文将详细讨论如何使用Java语言来抓取网页数据，包括两种主要方法：直接抓取原网页内容和处理网页中的JavaScript返回数据。首先，让我们探讨**抓取原网页**的方法。在Java中，我们可以使用`java.net.URL`类来建立...

java抓取任何指定网页的数据: ### Java抓取任何指定网页的数据 #### 知识点概览本文主要介绍如何使用Java技术来抓取任何指定网页的数据。重点在于介绍抓取网页数据的方法、解析数据的手段，以及具体实施过程中的关键步骤。 #### 抓取网页数据...

java网页抓取demo: Java网页抓取是一种技术，主要用于从互联网上自动提取或获取数据。这个"java网页抓取demo"项目提供了实现这一功能的实例代码。项目中的jar包是实现网页抓取的关键依赖库，包括Apache Commons Logging和HTTP Client。...

Java抓取网络资源并插入数据库: Java抓取网络资源并插入数据库（附详细代码）如有不懂处可加qq412546724

Java抓取网页内容三种方式: Java 抓取网页内容三种方式 Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础，它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java...

java抓取网页内容--生成静态页面: 在Java编程中，生成静态页面是一种常见的技术，它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容，并将其保存为一个HTML文件，即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

java抓取网页-java工具类: java抓取网页java工具类java抓取网页java工具类

java爬虫webmagic抓取静态页面demo: Java爬虫WebMagic是开发者常用来抓取网页数据的一个强大工具，尤其对于处理静态页面，它的易用性和灵活性使得在Java开发环境中非常受欢迎。WebMagic的设计理念是模块化，这使得我们可以灵活地组合各个组件来实现不同...

java抓取数据包源代码Jpcap: Java抓取数据包源代码Jpcap是一种在Java平台上实现的数据包捕获和分析的工具。Jpcap库为开发者提供了强大的功能，可以用来获取网络层的数据包信息，包括IP、TCP、UDP、ICMP等协议的数据包。它是Java版的libpcap库，...

Java网页抓取数据: Java网页抓取数据是互联网开发中的一个重要技能，它允许开发者从网页中提取所需的信息，如新闻、产品数据或用户评论，以供进一步分析或利用。本主题主要涵盖以下几个关键知识点： 1. **网络请求库**：在Java中，...

java抓取需要验证码登陆后的页面: java抓取页面需要验证码才能登陆的网站抓取登陆后的页面绝对可用，可以直接运行试下。。。

java网页数据抓取源代码: java抓取网页数据，主要用于抓取手机号和身份证查询网站的数据。

java抓取网页数据实现: Java作为一门广泛使用的编程语言，提供了强大的工具和库来帮助开发者抓取和处理网页数据。以下是对"java抓取网页数据实现"这一主题的详细说明。首先，我们需要了解网页抓取的基本原理。网页抓取，也称为网络爬虫或...

Global site tag (gtag.js) - Google Analytics