`
endual
  • 浏览: 3566890 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Java 抓取网页数据

 
阅读更多

题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下

目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。

首先选择一个地址,比如http://www.51leba.com

 

代码部分如下: 

Java代码  收藏代码
  1. try{  
  2.             URL url = new URL("http://www.51leba.com");  
  3.             URLConnection conn = url.openConnection();  
  4.                
  5.             BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));  
  6.             StringBuffer buffer = new StringBuffer();  
  7.             String str;  
  8.             while((str = is.readLine()) != null){  
  9.                 buffer.append(str);  
  10.                 buffer.append("\n");  
  11.                   
  12.             }  
  13.             str = buffer.toString().replaceAll("<script(.|\n)+?</script>""").replaceAll("<(.|\n)+?>""").replaceAll("&nbsp;"" ");  
  14.             String[] s = str.split("\n");  
  15.             buffer = new StringBuffer();  
  16.             for(int i=0;i<s.length;i++){  
  17.                 if(s[i].trim().equals("") ){  
  18.                     continue;  
  19.                 }else{  
  20.                     buffer.append(s[i]);  
  21.                     buffer.append("\n");  
  22.                 }  
  23.             }  
  24.             System.out.println(buffer.toString());  
  25.               
  26.             is.close();  
  27.               
  28.         }catch (Exception e) {  
  29.             e.printStackTrace();  
  30.         }  

 

 

 得到的结果是:

Java代码  收藏代码
  1. 欢迎光临51乐吧!  
  2.     欢迎光临51乐吧!  
  3.         回家倒计时  
  4.      拼音转汉字  
分享到:
评论

相关推荐

    java抓取网页数据

    在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...

    Java抓取网页数据Demo

    本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...

    java抓取网页数据实现

    以下是对"java抓取网页数据实现"这一主题的详细说明。 首先,我们需要了解网页抓取的基本原理。网页抓取,也称为网络爬虫或网页刮取,是通过自动程序从互联网上收集信息的过程。这个过程通常包括发送HTTP请求到...

    java网页抓取数据

    Java网页抓取数据是互联网数据挖掘的一个重要领域,它允许开发者通过编程方式获取网页上的信息,从而实现自动化分析、监控或构建智能应用。在Java中,我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...

    Java抓取https网页数据

    Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)

    java 获取json网页数据

    在Java编程中,获取JSON网页数据是常见的任务,特别是在处理Web API或者进行数据抓取时。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,因其简洁和高效而广泛被采用。本实例将深入讲解如何使用...

    java抓取网站数据

    ### Java抓取网站数据知识点详解 #### 一、概述 在现代互联网开发中,抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘,掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...

    Java获取网页数据步骤方法详解

    Java获取网页数据步骤方法详解 Java获取网页数据是指使用Java语言从互联网上获取网页数据的过程。这个过程主要包括使用HttpClient请求网页、获取网页源码、查看源码是否有需要提取的数据、对源码进行拆解、获取需要...

    java抓取任何指定网页的数据

    通过上述分析我们可以看出,Java抓取网页数据主要依赖于`java.net.HttpURLConnection`和`java.util.regex.Pattern`等类。这些工具能够帮助开发者轻松地构建网络请求,并通过正则表达式解析响应内容。此外,还需注意...

    java网页数据抓取源代码

    java抓取网页数据,主要用于抓取手机号和身份证查询网站的数据。

    Java爬虫获取网页表格数据保存到MySQL

    Java爬虫获取网页表格数据并保存到MySQL数据库,包含完整代码

    Java网页抓取数据

    它们提供了发送HTTP请求并接收响应的功能,是抓取网页数据的基础。 2. **HTML解析**:解析HTML文档以提取所需数据,可以使用Jsoup库。Jsoup支持CSS选择器,能够方便地定位到网页元素,并提供API进行元素的操作和...

    java网络爬虫抓取网页数据

    Java网络爬虫是一种自动化程序,用于从互联网上抓取大量数据。它的工作原理是模拟浏览器发送HTTP请求到服务器,接收响应,并解析返回的HTML或XML文档以提取所需信息。在这个过程中,HttpClient是一个常用的Java库,...

    java抓取网页数据获取网页中所有的链接实例分享

    在Java编程中,抓取网页数据是一项常见的任务,尤其在数据分析、信息爬取或者网站自动化测试等场景中。本实例分享了一个简单的Java程序,用于从指定网页中获取所有链接。通过创建一个名为`HtmlParser`的类,该程序...

    Java抓取网页内容三种方式

    抓取网页内容是数据爬虫和网络爬虫的基础,它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java 语言抓取网页内容的三种方式:使用 URL 连接、使用 HttpURLConnection 和使用 Apache HttpClient。...

    java爬虫抓取网页数据教程.pdf

    本文是一份关于使用Java语言进行网页数据抓取的教程,主要介绍了使用Apache HttpClient这个库来完成网络请求和数据获取的操作。Apache HttpClient是一个支持HTTP协议的客户端工具,被广泛应用于Java爬虫开发中,帮助...

    java抓取网页数据示例

    Java抓取网页数据是网络编程中的一个重要实践,通常用于数据挖掘、信息分析或自动化测试等场景。这个过程涉及到HTTP协议的理解以及Java内置的网络通信类库的使用。在Java中,我们可以使用`HttpURLConnection`类来...

    使用Java抓取网页数据

    一、使用 HttpClient 抓取网页数据 public String getHtml(String htmlurl) throws IOException { StringBuffer sb = new StringBuffer(); String acceptEncoding = ""; /* 1.生成 HttpClinet 对象并设置参数 */...

    java利用htmlparser抓取网页数据

    本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库,专门用于解析HTML文档,提取其中的数据。它的设计目标是简化HTML解析过程,即使面对不规范的HTML代码也能有效地处理。...

    java爬虫抓取网页数据教程(20210809124656).pdf

    根据提供的文件信息,文档标题为“java爬虫抓取网页数据教程”,此文件属于IT技术类教程,特别关注于Java编程语言在编写网络爬虫方面的应用。在这份教程中,将会涉及到使用HttpClient工具在Java环境中抓取网页数据的...

Global site tag (gtag.js) - Google Analytics