求助:如何从网页中提取需要的数据,用JAVA实现
悬赏分:20 -
解决时间:2008-6-2 16:38
比如说:我需要一些关于电脑硬件的配件的一些数据,在一个网页中已经存在,我如何把这些数据提取出来(用JAVA编写),并且生成一个XML文件。
求代码!谢谢!
问题补充:
我是要一些数据,要做的是捕捉网页中存在的数据信息,比如产品价格什么的
就是解析一个HTML的文件,把HTML中存在的一些数据提取出来,做成一个XML文件
我想你应该是想通过这个页面的url来得到这个网页里面的某些数据把。用HttpClient 。
下面我这个方法是得到搜狗页面命中多少条记录的代码。
public static void main (String args[]){
String sRequestUrlString="http://www.sogou.com/web?query=ondblclick
%3D%22%22";
GetMethod getMethod = new GetMethod(sRequestUrlString);
HttpClient client = new HttpClient();
client.setConnectionTimeout(1000 * 60);
int status=0;
try {
status = client.executeMethod(getMethod);
} catch (HttpException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
String sResponse="";
if(status==HttpStatus.SC_OK) {
sResponse=(getMethod.getResponseBodyAsString());
} else {
System.out.println("检索失败");
}
getMethod.releaseConnection();
String regExData = "找到 ([,\\d]*) 个网页";
if(sResponse!=null && sResponse.trim().length()>0) {
Pattern pattern = Pattern.compile(regExData);
Matcher matcher = pattern.matcher(sResponse);
if(matcher.find()) {
if(matcher.groupCount()>=1) {
int iTmpInteger =
Integer.parseInt(matcher.group(1).replaceAll(",",""),10);
System.out.println("找到"+iTmpInteger+"个网页");
}
}
}
}
这段测试代码是来测试搜狗的,String sRequestUrlString="http://www.sogou.com/web?
query=ondblclick%3D%22%22";
这里是拼写好的检索的url,
sResponse=(getMethod.getResponseBodyAsString());这个是得到本页面的源文件,然后通过
String regExData = "找到 ([,\\d]*) 个网页";正则表达式来获取([,\\d]*) ,得到命中的条数。
分享到:
相关推荐
本篇文章将聚焦于一个具体的问题:如何使用Java编程语言从网页中提取百度云链接和提取码,从而实现批量下载。 首先,我们需要理解百度云链接的工作机制。通常,百度云链接是一种指向特定文件或文件夹的共享链接,...
Java网页抓取数据是互联网数据挖掘的一个重要领域,它允许开发者通过编程方式获取网页上的信息,从而实现自动化分析、监控或构建智能应用。在Java中,我们通常使用HTTP客户端库和HTML解析工具来实现这一目标。本文将...
这个“TextRank, TextRank算法提取关键词的Java实现.zip”压缩包文件包含了一个开源项目,名为“TextRank-master”,它提供了一种Java实现来提取文本中的关键词。 TextRank算法的核心思想是模拟PageRank在文本处理...
本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据。 首先,让我们探讨**抓取原网页**的方法。在Java中,我们可以使用`java.net.URL`类来建立...
Java网页抓取数据是互联网开发中的一个重要技能,它允许开发者从网页中提取所需的信息,如新闻、产品数据或用户评论,以供进一步分析或利用。本主题主要涵盖以下几个关键知识点: 1. **网络请求库**:在Java中,...
在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...
要实现Java抓取网页数据,我们需要关注以下几个关键点: 1. **确定目标URL**:明确需要抓取哪个网站的数据。例如,本案例中使用的是51job网站上的招聘信息页面。 2. **选择请求方法**:常见的请求方法有GET和POST两...
在这个Java实现的系统中,我们可以看到“Gather-master”这个文件名,暗示了这可能是一个项目的主分支或主目录。 在Java中构建数据采集系统时,通常会涉及到以下几个关键知识点: 1. **网络编程**:数据采集往往...
在Java编程环境中,从百度网站获取搜索数据是一个涉及网络爬虫和数据分析的过程。这个过程通常包括以下几个关键步骤和相关的知识点: 1. **网络请求库**:为了从网站抓取数据,你需要一个能够发送HTTP请求的库。在...
Java爬虫爬取网页数据是一种常见的技术,用于自动地从互联网上抓取信息。这个工具提供了方便的方法来解析HTML和XML文档,提取所需的数据。在Java中,我们通常使用库如Jsoup或Apache HttpClient来实现爬虫功能。下面...
WebMagic是一个开源的Java爬虫框架,它设计...记得在实际使用中,根据目标网站的结构和需求调整PageProcessor的解析逻辑,以及Pipeline的数据处理方式。同时,注意遵守网站的Robots协议,合法、合规地进行网络爬取。
Java作为一门广泛使用的编程语言,提供了强大的工具和库来帮助开发者抓取和处理网页数据。以下是对"java抓取网页数据实现"这一主题的详细说明。 首先,我们需要了解网页抓取的基本原理。网页抓取,也称为网络爬虫或...
本主题聚焦于“利用Java定时爬取网页数据”,这是一个典型的数据抓取和任务调度的场景,对于数据分析、信息监控或者网站维护都有很大的实用价值。 首先,我们需要理解爬虫的基本原理。网页爬虫是一种自动提取网页...
【标题】:“很简易的java爬虫 可以爬取携程的航班数据.rar”揭示了这个项目是一个基于Java实现的简单网络爬虫,其主要功能是抓取携程网站上的航班信息。 【描述】:“很简易的java爬虫 可以爬取携程的航班数据,并...
在Java中,我们通常使用JDOM、DOM4J或者Java内置的`javax.xml.parsers.DocumentBuilderFactory`等库来实现DOM解析。DOM解析方法会将整个文档加载到内存中形成一个树形结构,方便对文档进行遍历和操作。 3. **HTTP...
以下是一个使用Java实现的基本网页抓取程序: ```java package parser; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.io...
在Web开发和数据抓取领域,Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据...
在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页内容。下面将详细介绍这个过程涉及的关键知识点。 1. **网络基础知识**:首先,理解HTTP协议是必要的,它是互联网上应用最广泛的一种...
在抓取到网页内容后,我们需要解析HTML来提取数据。Java中可以使用Jsoup库,它提供了强大的CSS选择器和DOM遍历功能。例如,如果我们想抓取所有`<p>`标签中的文本,可以这样做: ```java Document doc = Jsoup.parse...