如何从网页中提取需要的数据，用JAVA实现

pthill

浏览: 410485 次
性别:
来自: 长春

最近访客更多访客>>

凌语星

lindow

u012363178

anonyjack

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JAVA

Java 正则表达式 Web XML HTML

求助：如何从网页中提取需要的数据，用JAVA实现

悬赏分：20 - 解决时间：2008-6-2 16:38

比如说：我需要一些关于电脑硬件的配件的一些数据，在一个网页中已经存在，我如何把这些数据提取出来（用JAVA编写），并且生成一个XML文件。
求代码！谢谢！

问题补充：

我是要一些数据，要做的是捕捉网页中存在的数据信息，比如产品价格什么的
就是解析一个HTML的文件，把HTML中存在的一些数据提取出来，做成一个XML文件

提问者： Brave_gao - 见习魔法师二级

最佳答案

我想你应该是想通过这个页面的url来得到这个网页里面的某些数据把。用HttpClient 。
下面我这个方法是得到搜狗页面命中多少条记录的代码。


public static void main (String args[]){ 
                String sRequestUrlString="http://www.sogou.com/web?query=ondblclick 
%3D%22%22"; 
        GetMethod getMethod = new GetMethod(sRequestUrlString); 
        HttpClient client = new HttpClient(); 
        client.setConnectionTimeout(1000 * 60); 
        int status=0; 
                try { 
                        status = client.executeMethod(getMethod); 
                } catch (HttpException e) { 
                        // TODO Auto-generated catch block 
                        e.printStackTrace(); 
                } catch (IOException e) { 
                        // TODO Auto-generated catch block 
                        e.printStackTrace(); 
                } 
        String sResponse=""; 
        if(status==HttpStatus.SC_OK) { 
                 sResponse=(getMethod.getResponseBodyAsString()); 
        } else { 


                System.out.println("检索失败"); 
        } 
        getMethod.releaseConnection(); 
        String regExData = "找到 ([,\\d]*) 个网页"; 
                if(sResponse!=null && sResponse.trim().length()>0) { 
                        Pattern pattern = Pattern.compile(regExData); 
                        Matcher matcher = pattern.matcher(sResponse); 
                        if(matcher.find()) { 
                                if(matcher.groupCount()>=1) { 
                                        int iTmpInteger = 
Integer.parseInt(matcher.group(1).replaceAll(",",""),10); 


                                        System.out.println("找到"+iTmpInteger+"个网页"); 
                                } 
                        } 
                } 
                } 


这段测试代码是来测试搜狗的，String sRequestUrlString="http://www.sogou.com/web? 
query=ondblclick%3D%22%22"; 
这里是拼写好的检索的url, 
 sResponse=(getMethod.getResponseBodyAsString());这个是得到本页面的源文件，然后通过 
String regExData = "找到 ([,\\d]*) 个网页";正则表达式来获取([,\\d]*) ，得到命中的条数。

分享到：

人生的十个不要等 | java定时任务处理方法

2009-10-31 00:34
浏览 2362
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何从网页中提取需要的数据，用JAVA实现

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何从网页中提取需要的数据，用JAVA实现

评论

发表评论

相关推荐

如何让cxf客户端简单支持ssl

webservice cxf 开发实战

JMeter 使用入门

Java知识拾遗：三大框架的技术起源

分享高效java开发者必备的资源列表

Office等类型文件的在线编辑

学习：二维码、QR码、J4L-QRCode、java

使用 jsoup 对 HTML 文档进行解析和操作

Java通过jsoup实现网页天气数据解析

免费的office开发控件weboffice

Java程序把Word文档直接转换成HTML文件

Tomcat总死可以试一试调一下catalina.bat的这一行

Tomcat内存溢出的原因以及解决办法

PHP+MYSQL的OA为何没有Java的值钱

MyEclipse 6.0.1配置Tomcat 6服务器【图解】

一个Java Web搜索程序

java 查询可用域名

使用RSA算法进行加密和解密

用javascript与java进行RSA加密与解密

公钥加密私钥解密&私钥加密公钥解密

最近访客更多访客>>