`

如何从网页中提取需要的数据,用JAVA实现

    博客分类:
  • JAVA
阅读更多

求助:如何从网页中提取需要的数据,用JAVA实现

悬赏分:20 - 解决时间:2008-6-2 16:38
比如说:我需要一些关于电脑硬件的配件的一些数据,在一个网页中已经存在,我如何把这些数据提取出来(用JAVA编写),并且生成一个XML文件。
求代码!谢谢! 
问题补充:
我是要一些数据,要做的是捕捉网页中存在的数据信息,比如产品价格什么的
就是解析一个HTML的文件,把HTML中存在的一些数据提取出来,做成一个XML文件
最佳答案
我想你应该是想通过这个页面的url来得到这个网页里面的某些数据把。用HttpClient 。
下面我这个方法是得到搜狗页面命中多少条记录的代码。


public static void main (String args[]){ 
                String sRequestUrlString="http://www.sogou.com/web?query=ondblclick 
%3D%22%22"; 
        GetMethod getMethod = new GetMethod(sRequestUrlString); 
        HttpClient client = new HttpClient(); 
        client.setConnectionTimeout(1000 * 60); 
        int status=0; 
                try { 
                        status = client.executeMethod(getMethod); 
                } catch (HttpException e) { 
                        // TODO Auto-generated catch block 
                        e.printStackTrace(); 
                } catch (IOException e) { 
                        // TODO Auto-generated catch block 
                        e.printStackTrace(); 
                } 
        String sResponse=""; 
        if(status==HttpStatus.SC_OK) { 
                 sResponse=(getMethod.getResponseBodyAsString()); 
        } else { 


                System.out.println("检索失败"); 
        } 
        getMethod.releaseConnection(); 
        String regExData = "找到 ([,\\d]*) 个网页"; 
                if(sResponse!=null && sResponse.trim().length()>0) { 
                        Pattern pattern = Pattern.compile(regExData); 
                        Matcher matcher = pattern.matcher(sResponse); 
                        if(matcher.find()) { 
                                if(matcher.groupCount()>=1) { 
                                        int iTmpInteger = 
Integer.parseInt(matcher.group(1).replaceAll(",",""),10); 


                                        System.out.println("找到"+iTmpInteger+"个网页"); 
                                } 
                        } 
                } 
                } 


这段测试代码是来测试搜狗的,String sRequestUrlString="http://www.sogou.com/web? 
query=ondblclick%3D%22%22"; 
这里是拼写好的检索的url, 
 sResponse=(getMethod.getResponseBodyAsString());这个是得到本页面的源文件,然后通过 
String regExData = "找到 ([,\\d]*) 个网页";正则表达式来获取([,\\d]*) ,得到命中的条数。 
分享到:
评论

相关推荐

    提取文件中百度云链接与提取码的java源码

    本篇文章将聚焦于一个具体的问题:如何使用Java编程语言从网页中提取百度云链接和提取码,从而实现批量下载。 首先,我们需要理解百度云链接的工作机制。通常,百度云链接是一种指向特定文件或文件夹的共享链接,...

    TextRank, TextRank算法提取关键词的Java实现.zip

    这个“TextRank, TextRank算法提取关键词的Java实现.zip”压缩包文件包含了一个开源项目,名为“TextRank-master”,它提供了一种Java实现来提取文本中的关键词。 TextRank算法的核心思想是模拟PageRank在文本处理...

    java网页抓取数据

    Java网页抓取数据是互联网数据挖掘的一个重要领域,它允许开发者通过编程方式获取网页上的信息,从而实现自动化分析、监控或构建智能应用。在Java中,我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...

    Java抓取网页数据Demo

    本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...

    Java网页抓取数据

    Java网页抓取数据是互联网开发中的一个重要技能,它允许开发者从网页中提取所需的信息,如新闻、产品数据或用户评论,以供进一步分析或利用。本主题主要涵盖以下几个关键知识点: 1. **网络请求库**:在Java中,...

    java抓取网页数据

    在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...

    java实现的数据采集系统.zip

    在这个Java实现的系统中,我们可以看到“Gather-master”这个文件名,暗示了这可能是一个项目的主分支或主目录。 在Java中构建数据采集系统时,通常会涉及到以下几个关键知识点: 1. **网络编程**:数据采集往往...

    java抓取任何指定网页的数据

    要实现Java抓取网页数据,我们需要关注以下几个关键点: 1. **确定目标URL**:明确需要抓取哪个网站的数据。例如,本案例中使用的是51job网站上的招聘信息页面。 2. **选择请求方法**:常见的请求方法有GET和POST两...

    利用java实现从百度网站上获取搜索数据

    在Java编程环境中,从百度网站获取搜索数据是一个涉及网络爬虫和数据分析的过程。这个过程通常包括以下几个关键步骤和相关的知识点: 1. **网络请求库**:为了从网站抓取数据,你需要一个能够发送HTTP请求的库。在...

    Java爬虫爬取网页数据

    Java爬虫爬取网页数据是一种常见的技术,用于自动地从互联网上抓取信息。这个工具提供了方便的方法来解析HTML和XML文档,提取所需的数据。在Java中,我们通常使用库如Jsoup或Apache HttpClient来实现爬虫功能。下面...

    WebMagic(Java)简单爬虫实现,实现抓取数据,并导出到excel文件

    WebMagic是一个开源的Java爬虫框架,它设计...记得在实际使用中,根据目标网站的结构和需求调整PageProcessor的解析逻辑,以及Pipeline的数据处理方式。同时,注意遵守网站的Robots协议,合法、合规地进行网络爬取。

    java抓取网页数据实现

    Java作为一门广泛使用的编程语言,提供了强大的工具和库来帮助开发者抓取和处理网页数据。以下是对"java抓取网页数据实现"这一主题的详细说明。 首先,我们需要了解网页抓取的基本原理。网页抓取,也称为网络爬虫或...

    利用java定时爬取网页数据

    本主题聚焦于“利用Java定时爬取网页数据”,这是一个典型的数据抓取和任务调度的场景,对于数据分析、信息监控或者网站维护都有很大的实用价值。 首先,我们需要理解爬虫的基本原理。网页爬虫是一种自动提取网页...

    很简易的java爬虫 可以爬取携程的航班数据.rar

    【标题】:“很简易的java爬虫 可以爬取携程的航班数据.rar”揭示了这个项目是一个基于Java实现的简单网络爬虫,其主要功能是抓取携程网站上的航班信息。 【描述】:“很简易的java爬虫 可以爬取携程的航班数据,并...

    Java爬虫Jsoup+httpclient获取动态生成的数据

    在Web开发和数据抓取领域,Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据...

    Java实现网页抓取

    在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**:首先,理解HTTP协议是必要的,它是互联网上应用最广泛的一种...

    java网络爬虫抓取网页数据

    在抓取到网页内容后,我们需要解析HTML来提取数据。Java中可以使用Jsoup库,它提供了强大的CSS选择器和DOM遍历功能。例如,如果我们想抓取所有`<p>`标签中的文本,可以这样做: ```java Document doc = Jsoup.parse...

    java网页数据采集开发包

    Java网页数据采集是一个重要的技术领域,它涉及到网络爬虫、HTML解析和数据提取等多个方面。在这个特定的开发包中,包含两个主要的组件:Jsoup和Apache HttpClient。这两个库是Java开发者进行网页抓取和数据处理时...

Global site tag (gtag.js) - Google Analytics