如何从网页中提取需要的数据，用JAVA实现

pthill

浏览: 410579 次
性别:
来自: 长春

最近访客更多访客>>

凌语星

lindow

u012363178

anonyjack

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JAVA

Java 正则表达式 Web XML HTML

求助：如何从网页中提取需要的数据，用JAVA实现

悬赏分：20 - 解决时间：2008-6-2 16:38

比如说：我需要一些关于电脑硬件的配件的一些数据，在一个网页中已经存在，我如何把这些数据提取出来（用JAVA编写），并且生成一个XML文件。
求代码！谢谢！

问题补充：

我是要一些数据，要做的是捕捉网页中存在的数据信息，比如产品价格什么的
就是解析一个HTML的文件，把HTML中存在的一些数据提取出来，做成一个XML文件

提问者： Brave_gao - 见习魔法师二级

最佳答案

我想你应该是想通过这个页面的url来得到这个网页里面的某些数据把。用HttpClient 。
下面我这个方法是得到搜狗页面命中多少条记录的代码。


public static void main (String args[]){ 
                String sRequestUrlString="http://www.sogou.com/web?query=ondblclick 
%3D%22%22"; 
        GetMethod getMethod = new GetMethod(sRequestUrlString); 
        HttpClient client = new HttpClient(); 
        client.setConnectionTimeout(1000 * 60); 
        int status=0; 
                try { 
                        status = client.executeMethod(getMethod); 
                } catch (HttpException e) { 
                        // TODO Auto-generated catch block 
                        e.printStackTrace(); 
                } catch (IOException e) { 
                        // TODO Auto-generated catch block 
                        e.printStackTrace(); 
                } 
        String sResponse=""; 
        if(status==HttpStatus.SC_OK) { 
                 sResponse=(getMethod.getResponseBodyAsString()); 
        } else { 


                System.out.println("检索失败"); 
        } 
        getMethod.releaseConnection(); 
        String regExData = "找到 ([,\\d]*) 个网页"; 
                if(sResponse!=null && sResponse.trim().length()>0) { 
                        Pattern pattern = Pattern.compile(regExData); 
                        Matcher matcher = pattern.matcher(sResponse); 
                        if(matcher.find()) { 
                                if(matcher.groupCount()>=1) { 
                                        int iTmpInteger = 
Integer.parseInt(matcher.group(1).replaceAll(",",""),10); 


                                        System.out.println("找到"+iTmpInteger+"个网页"); 
                                } 
                        } 
                } 
                } 


这段测试代码是来测试搜狗的，String sRequestUrlString="http://www.sogou.com/web? 
query=ondblclick%3D%22%22"; 
这里是拼写好的检索的url, 
 sResponse=(getMethod.getResponseBodyAsString());这个是得到本页面的源文件，然后通过 
String regExData = "找到 ([,\\d]*) 个网页";正则表达式来获取([,\\d]*) ，得到命中的条数。

分享到：

人生的十个不要等 | java定时任务处理方法

2009-10-31 00:34
浏览 2363
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

kernel-devel-4.18.0-553.45.1.el8-10.x86-64.rpm: Rocky Linux 8.10内核包

Simulink中三阶单环多位量化Σ-Δ调制器的设计与实现-音频带ADC的应用（复现论文或解答问题，含详细可运行代码及解释）: 内容概要：本文档详细介绍了如何在Simulink中设计一个满足特定规格的音频带ADC（模数转换器）。首先选择了三阶单环多位量化Σ-Δ调制器作为设计方案，因为这种结构能在音频带宽内提供高噪声整形效果，并且多位量化可以降低量化噪声。接着，文档展示了具体的Simulink建模步骤，包括创建模型、添加各个组件如积分器、量化器、DAC反馈以及连接它们。此外，还进行了参数设计与计算，特别是过采样率和信噪比的估算，并引入了动态元件匹配技术来减少DAC的非线性误差。性能验证部分则通过理想和非理想的仿真实验评估了系统的稳定性和各项指标，最终证明所设计的ADC能够达到预期的技术标准。适用人群：电子工程专业学生、从事数据转换器研究或开发的技术人员。使用场景及目标：适用于希望深入了解Σ-Δ调制器的工作原理及其在音频带ADC应用中的具体实现方法的人群。目标是掌握如何利用MATLAB/Simulink工具进行复杂电路的设计与仿真。其他说明：文中提供了详细的Matlab代码片段用于指导读者完成整个设计流程，同时附带了一些辅助函数帮助分析仿真结果。

计算机课后习题.docx### 【计算机科学】研究生入学考试计算机组成原理专项题库设计：考研复习资源集成与优化: 内容概要：该题库专为研究生入学考试计算机组成原理科目设计，涵盖名校考研真题、经典教材课后习题、章节题库和模拟试题四大核心模块。名校考研真题精选多所知名高校的计算机组成原理科目及计算机联考真题，并提供详尽解析，帮助考生把握考研命题趋势与难度。经典教材课后习题包括白中英《计算机组成原理》（第5版）和唐朔飞《计算机组成原理》（第2版）的全部课后习题解答，这两部教材被众多名校列为考研指定参考书目。章节题库精选代表性考题，注重基础知识与重难点内容，帮助考生全面掌握考试大纲要求的知识点。模拟试题依据历年考研真题命题规律和热门考点，精心编制两套全真模拟试题，并附标准答案，帮助考生检验学习成果，评估应试能力。适用人群：计划参加研究生入学考试并报考计算机组成原理科目的考生，尤其是需要系统复习和强化训练的学生。使用场景及目标：①通过研读名校考研真题，考生可以准确把握考研命题趋势与难度，有效评估复习成效；②通过经典教材课后习题的练习，考生可以巩固基础知识，掌握解题技巧；③通过章节题库的系统练习，考生可以全面掌握考试大纲要求的各个知识点，为备考打下坚实基础；④通过模拟试题的测试，考生可以检验学习成果，评估应试能力，为正式考试做好充分准备。其他说明：该题库不仅提供详细的题目解析，还涵盖了计算机组成原理的各个方面，包括计算机系统概述、数据表示与运算、存储器分层、指令系统、中央处理器、总线系统和输入输出系统等。考生在使用过程中应结合理论学习与实践操作，注重理解与应用，以提高应试能力和专业知识水平。

__UNI__DB9970A__20250328141034.apk.1: __UNI__DB9970A__20250328141034.apk.1

minio-rsc-Rust资源: rust for minio

4-4-台区智能融合终端功能模块型式规范（试行）.pdf: 国网台区终端最新规范

《基于YOLOv8的化工管道焊缝缺陷检测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

python源码-1个机器学习相关资源: 一个简单的机器学习代码示例，使用的是经典的鸢尾花（Iris）数据集，通过 Scikit-learn 库实现了一个简单的分类模型。这个代码可以帮助你入门机器学习中的分类任务。

pyqt离线包，pyqt-tools离线包: pyqt离线包，pyqt-tools离线包

《基于YOLOv8的船舶机舱灭火系统状态监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

SQL常用日期和时间函数整理及使用示例: SQL常用日期和时间函数整理及在sqlserver测试示例主要包括 1.查询当前日期GETDATE 2.日期时间加减函数DATEADD 3 返回两个日期中指定的日期部分之间的差值DATEDIFF 4.日期格式转换CONVERT(VARCHAR(10),GETDATE(),120) 5.返回指定日期的年份数值 6.返回指定日期的月份数值 7.返回指定日期的天数数值

GSDML-V2.3-Turck-BL20-E-GW-EN-20160524-010300.xml: GSDML-V2.3-Turck-BL20_E_GW_EN-20160524-010300.xml

T_CPCIF 0225-2022 多聚甲醛.docx: T_CPCIF 0225-2022 多聚甲醛.docx

《基于YOLOv8的智能仓储货物堆码倾斜预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智能仓储货物堆码倾斜预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

蚕豆脱壳机设计.zip: 蚕豆脱壳机设计.zip

附件2-2：台区智能融合终端入网专业检测单位授权委托书.docx: 台区终端电科院送检文档

Y6一39一No23.6D离心通风机 CAD().zip: Y6一39一No23.6D离心通风机 CAD().zip

django自建博客app: django自建博客app

附件3-4：台区智能融合终端全性能试验增值税发票开具确认单.docx: 台区终端电科院送检文档

非开挖水平定向钻机动力头装置设计.zip: 非开挖水平定向钻机动力头装置设计.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何从网页中提取需要的数据，用JAVA实现

评论

发表评论

相关推荐

如何让cxf客户端简单支持ssl

webservice cxf 开发实战

JMeter 使用入门

Java知识拾遗：三大框架的技术起源

分享高效java开发者必备的资源列表

Office等类型文件的在线编辑

学习：二维码、QR码、J4L-QRCode、java

使用 jsoup 对 HTML 文档进行解析和操作

Java通过jsoup实现网页天气数据解析

免费的office开发控件weboffice

Java程序把Word文档直接转换成HTML文件

Tomcat总死可以试一试调一下catalina.bat的这一行

Tomcat内存溢出的原因以及解决办法

PHP+MYSQL的OA为何没有Java的值钱

MyEclipse 6.0.1配置Tomcat 6服务器【图解】

一个Java Web搜索程序

java 查询可用域名

使用RSA算法进行加密和解密

用javascript与java进行RSA加密与解密

公钥加密私钥解密&私钥加密公钥解密

最近访客更多访客>>