Java 抓取网页数据 - - ITeye博客

`

ruijiang.zhang

浏览: 11169 次
性别:
来自: 北京

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (2)

社区版块

存档分类

最新评论

w156445045：你这个就是抓取文本啊，比如我要抓取某些特定的数据呢？
Java 抓取网页数据

Java 抓取网页数据

阅读更多

题注：很多时候用到抓取网页数据的功能，以前工作中曾经用到过，今天总结了一下

目的：抓取网页数据多是读一些地址连续的URL，获得页面信息，进而对页面DOM进行分析，处理得到粗糙的数据，然后进行加工，得到我们想要的内容。

首先选择一个地址，比如http://www.51leba.com

代码部分如下：

try{
			URL url = new URL("http://www.51leba.com");
			URLConnection conn = url.openConnection();
			 
			BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));
			StringBuffer buffer = new StringBuffer();
			String str;
			while((str = is.readLine()) != null){
				buffer.append(str);
				buffer.append("\n");
				
			}
			str = buffer.toString().replaceAll("<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll("&nbsp;", " ");
			String[] s = str.split("\n");
			buffer = new StringBuffer();
			for(int i=0;i<s.length;i++){
				if(s[i].trim().equals("") ){
					continue;
				}else{
					buffer.append(s[i]);
					buffer.append("\n");
				}
			}
			System.out.println(buffer.toString());
			
			is.close();
			
		}catch (Exception e) {
			e.printStackTrace();
		}

得到的结果是：

欢迎光临51乐吧！
	欢迎光临51乐吧！
		回家倒计时
	 拼音转汉字

分享到：

Tomcat5配置数据源

2009-06-29 00:18
浏览 8796
评论(1)
查看更多

评论

1 楼 w156445045 2012-08-30

你这个就是抓取文本啊，比如我要抓取某些特定的数据呢？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java抓取网页数据: 在“java抓取网页数据”这个主题中，我们将深入探讨如何利用Java来抓取并处理互联网上的信息。首先，我们要了解什么是网络爬虫。网络爬虫（Web Crawler）是自动遍历互联网的程序，通过抓取网页内容并存储在本地，...

Java抓取网页数据Demo: 本文将详细讨论如何使用Java语言来抓取网页数据，包括两种主要方法：直接抓取原网页内容和处理网页中的JavaScript返回数据。首先，让我们探讨**抓取原网页**的方法。在Java中，我们可以使用`java.net.URL`类来建立...

java抓取网页数据实现: 以下是对"java抓取网页数据实现"这一主题的详细说明。首先，我们需要了解网页抓取的基本原理。网页抓取，也称为网络爬虫或网页刮取，是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到...

java网页抓取数据: Java网页抓取数据是互联网数据挖掘的一个重要领域，它允许开发者通过编程方式获取网页上的信息，从而实现自动化分析、监控或构建智能应用。在Java中，我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java 获取json网页数据: 在Java编程中，获取JSON网页数据是常见的任务，特别是在处理Web API或者进行数据抓取时。JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...

java抓取网站数据: ### Java抓取网站数据知识点详解 #### 一、概述在现代互联网开发中，抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘，掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...

Java获取网页数据步骤方法详解: Java获取网页数据步骤方法详解 Java获取网页数据是指使用Java语言从互联网上获取网页数据的过程。这个过程主要包括使用HttpClient请求网页、获取网页源码、查看源码是否有需要提取的数据、对源码进行拆解、获取需要...

java抓取任何指定网页的数据: 通过上述分析我们可以看出，Java抓取网页数据主要依赖于`java.net.HttpURLConnection`和`java.util.regex.Pattern`等类。这些工具能够帮助开发者轻松地构建网络请求，并通过正则表达式解析响应内容。此外，还需注意...

java网页数据抓取源代码: java抓取网页数据，主要用于抓取手机号和身份证查询网站的数据。

Java爬虫获取网页表格数据保存到MySQL: Java爬虫获取网页表格数据并保存到MySQL数据库，包含完整代码

Java网页抓取数据: 它们提供了发送HTTP请求并接收响应的功能，是抓取网页数据的基础。 2. **HTML解析**：解析HTML文档以提取所需数据，可以使用Jsoup库。Jsoup支持CSS选择器，能够方便地定位到网页元素，并提供API进行元素的操作和...

java网络爬虫抓取网页数据: Java网络爬虫是一种自动化程序，用于从互联网上抓取大量数据。它的工作原理是模拟浏览器发送HTTP请求到服务器，接收响应，并解析返回的HTML或XML文档以提取所需信息。在这个过程中，HttpClient是一个常用的Java库，...

java抓取网页数据获取网页中所有的链接实例分享: 在Java编程中，抓取网页数据是一项常见的任务，尤其在数据分析、信息爬取或者网站自动化测试等场景中。本实例分享了一个简单的Java程序，用于从指定网页中获取所有链接。通过创建一个名为`HtmlParser`的类，该程序...

Java抓取网页内容三种方式: 抓取网页内容是数据爬虫和网络爬虫的基础，它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java 语言抓取网页内容的三种方式：使用 URL 连接、使用 HttpURLConnection 和使用 Apache HttpClient。...

java爬虫抓取网页数据教程.pdf: 本文是一份关于使用Java语言进行网页数据抓取的教程，主要介绍了使用Apache HttpClient这个库来完成网络请求和数据获取的操作。Apache HttpClient是一个支持HTTP协议的客户端工具，被广泛应用于Java爬虫开发中，帮助...

java抓取网页数据示例: Java抓取网页数据是网络编程中的一个重要实践，通常用于数据挖掘、信息分析或自动化测试等场景。这个过程涉及到HTTP协议的理解以及Java内置的网络通信类库的使用。在Java中，我们可以使用`HttpURLConnection`类来...

使用Java抓取网页数据: 一、使用 HttpClient 抓取网页数据 public String getHtml(String htmlurl) throws IOException { StringBuffer sb = new StringBuffer(); String acceptEncoding = ""; /* 1.生成 HttpClinet 对象并设置参数 */...

java利用htmlparser抓取网页数据: 本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库，专门用于解析HTML文档，提取其中的数据。它的设计目标是简化HTML解析过程，即使面对不规范的HTML代码也能有效地处理。...

java爬虫抓取网页数据教程(20210809124656).pdf: 根据提供的文件信息，文档标题为“java爬虫抓取网页数据教程”，此文件属于IT技术类教程，特别关注于Java编程语言在编写网络爬虫方面的应用。在这份教程中，将会涉及到使用HttpClient工具在Java环境中抓取网页数据的...

Global site tag (gtag.js) - Google Analytics