`
水雨田
  • 浏览: 1533 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

java HttpURLConnection抓取网页内容,将DOM文档转化成XM

 
阅读更多

在工作中要通java获取整个网页的html内容,或者某个网络文件的内容。这里我们可以使用java提供的HttpURLConnection类来实现对网页内容的抓取。

抓取爱图网www.iitu.net首页的内容, 在代码中我们将百度首页的内容存储到了一个byte数组中,当然我们有了 IO流以后还可以存储到文件中去了。

 

  1. URL url = new URL("http://www.iitu.net");  
  2. HttpURLConnection urlCon=(HttpURLConnection)url.openConnection();  
  3. urlCon.setConnectTimeout(50000);  
  4. urlCon.setReadTimeout(300000);  
  5. DataInputStream fIn;  
  6. byte[] content = new byte[MAX_FILE_SIZE];  
  7. fIn = new DataInputStream(urlCon.getInputStream());  
  8. int size = 0,f_size = 0;  
  9. while((size = fIn.read(content,f_size,2048))> 0){  
  10.     f_size += size;  
  11. }  

 

java实现从网页上抓取数据后写入本地库,我用的是DOM文档对象模型来抓取数据的,数据已经取到,我想把他写入文本文件不知道怎么实现?还有就是分析结构化数据写入数据库该怎么来实现才好?

将DOM文档转化成XML文件 

  1. // 获得将DOM文档转化为XML文件的转换器,有类TransformerFactory  
  2. // 来实现,类Transformer实现转化API。  
  3.             TransformerFactory tfactory = TransformerFactory.newInstance();  
  4.             Transformer transformer = tfactory.newTransformer();  
  5. // 将DOM对象转化为DOMSource类对象,该对象表现为转化成别的表达形式的信息容器。  
  6.             DOMSource source = new DOMSource(document);  
  7. // 获得一个StreamResult类对象,该对象是DOM文档转化成的其他形式的文档的容器,可以是XML文件,文本文件,HTML文件。这里为一个XML文件。  
  8.             StreamResult result = new StreamResult(new File(“text.xml”));  
  9. // 调用API,将DOM文档转化成XML文件。  
  10.             transformer.transform(source,result); 

 

分享到:
评论

相关推荐

    Java抓取网页内容三种方式

    本文将介绍使用 Java 语言抓取网页内容的三种方式:使用 URL 连接、使用 HttpURLConnection 和使用 Apache HttpClient。 第一种方式:使用 URL 连接 使用 URL 连接是最简单的抓取网页内容的方式。它使用 java.net....

    java简单抓取网页内容

    本文将深入探讨如何使用Java实现简单的网页内容抓取,适合初学者入门学习。 首先,我们需要理解网页抓取的基本原理。网页本质上是由HTML(超文本标记语言)构成的,而HTTP(超文本传输协议)则是网页内容传输的基础...

    java网页抓取数据

    本文将详细介绍如何在Java环境中进行网页抓取。 首先,了解基本概念。网页抓取,也称为网络爬虫或网页蜘蛛,是一种自动化程序,它按照一定的规则遍历互联网上的页面,提取所需的数据。这个过程涉及HTTP协议的理解,...

    Java抓取网页数据Demo

    本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...

    java抓取网页三种方式

    下面,我们将介绍三种使用 Java 语言实现抓取网页的方式。 方式一:使用 URL 连接抓取网页 在第一个示例中,我们使用 Java 的 URL 连接来抓取网页。在 GetURL.java 文件中,我们使用 URL 类来打开指定的 URL,然后...

    JAVA通过HttpURLConnection 上传和下载文件的方法

    下面将详细介绍JAVA通过HttpURLConnection上传和下载文件的方法。 一、HttpURLConnection的概述 HttpURLConnection是Java中的一个类,用于从网络中读取数据或向网络中写入数据。它可以用于发送HTTP请求,例如GET、...

    java抓取网页内容--生成静态页面

    在Java编程中,生成静态页面是一种常见的技术,它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容,并将其保存为一个HTML文件,即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

    java HttpURLConnection工具

    java HttpURLConnection示例 HttpURLConnection工具

    Java网页抓取数据

    Java网页抓取数据是互联网开发中的一个重要技能,它允许开发者从网页中提取所需的信息,如新闻、产品数据或用户评论,以供进一步分析或利用。本主题主要涵盖以下几个关键知识点: 1. **网络请求库**:在Java中,...

    Java实现网页抓取

    在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**:首先,理解HTTP协议是必要的,它是互联网上应用最广泛的一种...

    java web网站常用抓取其他网站内容

    本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本原理。网页抓取,也称为网络爬虫或网页蜘蛛,是一种自动浏览互联网并获取网页信息的技术。它通过模拟浏览器...

    HttpURLConnection获取网页内容取得节点

    jsoup是一个Java HTML Parser。能够从URL、文件或字符串解析HTML。利用DOM traversal或CSS selectors查找和抽取数据。能够操作HTML元素,属性和文本。能够依据一个白名单过滤用户提交的内容。

    Java的HttpURLConnection的封装类

    用于对基于HTTP的服务进行抓取 HttpClient 现在是HttpComponents 把问题搞复杂了 其实Java内置的HttpURLConnection很好的 内含文档 使用方法见http: blog csdn net jdgdf566 article details 16357677

    java http方式抓取网页信息 JAVAIO

    本知识点主要探讨如何使用Java实现HTTP请求来抓取网页信息,并利用Java IO流将其保存到本地文件。首先,我们需要理解HTTP协议的基本概念,它是客户端与服务器之间交互的一种协议,通常用于获取HTML页面。 在Java中...

    java抓取任何指定网页的数据

    通过上述分析我们可以看出,Java抓取网页数据主要依赖于`java.net.HttpURLConnection`和`java.util.regex.Pattern`等类。这些工具能够帮助开发者轻松地构建网络请求,并通过正则表达式解析响应内容。此外,还需注意...

    java抓取网页数据实现

    Java作为一门广泛使用的编程语言,提供了强大的工具和库来帮助开发者抓取和处理网页数据。以下是对"java抓取网页数据实现"这一主题的详细说明。 首先,我们需要了解网页抓取的基本原理。网页抓取,也称为网络爬虫或...

    java抓取与采集页面内容 喜欢的拿去研究下

    Java 抓取与采集页面内容是一项常见的任务,特别是在大数据分析、搜索引擎优化(SEO)和网络监控等领域。这个压缩包中的两个文件,`HttpCon.java` 和 `ChunkedInputStream.java`,可能包含了实现这一功能的基本组件...

    java URL转PDF文件

    在Java编程环境中,将一个URL链接的内容转换为PDF文件是一个常见的需求,这通常涉及到网络请求、HTML解析以及PDF生成等多个步骤。以下是一个详细的步骤指南,涵盖了这个过程中的关键知识点: 首先,我们需要处理URL...

    java爬虫,抓取网页图片

    Java爬虫技术是一种利用编程语言(本例中是Java)自动化地从互联网上...通过以上知识点的学习和实践,你可以构建一个基本的Java图片爬虫,实现从网页中抓取并下载图片的功能。记住,持续学习和实践是提升技能的关键。

    java抓取网站数据

    本篇文章将详细介绍如何使用Java语言抓取51job人才网上的Java职位需求数据。 #### 二、准备工作 在开始抓取之前,需要对目标网站进行一定的分析,了解其结构和请求方式等信息。 ##### 2.1 目标网站分析 1. **请求...

Global site tag (gtag.js) - Google Analytics