`
yysct2005
  • 浏览: 92640 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

htmlparser使用举例

    博客分类:
  • java
阅读更多

原文出处------------http://qzone.qq.com/blog/22340638-1212662447

 

htmlparser使用举例
HTMLParser 一个解析web页面的开源类库, 他有两种主要使用方式, extraction和transformation. 前者就是从网页中萃取出你要的东西,后者就是把web页面中的一些内容改为(转换为)你想要的格式. 下面来看看这两种使用情况的各自特点.
Extraction
萃取例如下面的几种常见的使用方式:
    * text extraction, 萃取web页面中的文本文字
    * link extraction,萃取web页面中的连接 包括url 和 email地址, 还可以自定义其他标签
    * screen scraping, 抓去web页面内容
    * resource extraction, 萃取web页面中的资源, 图片 , 声音文件......
    * a browser front end, the preliminary stage of page display
    * link checking, 确保连接是有效的
    * site monitoring, 检查web页面的更改
使用一下几种机制来帮助你实现上面的功能:
filters, visitors and JavaBeans
Transformation
处理web页面的内容, 转换为你需要的.包含:
    * URL rewriting, 更改一个web页面的部分连接or 全部连接为你想要的.
    * site capture, 把远程的网站抓取到本地
    * censorship, 检查web页面内容,移出你不想要的字词
    * HTML cleanup, 整理html格式,
    * ad removal, 过滤广告连接
    * conversion to XML, 转换为xml格式的数据
另外: htmlparser还使用到了几种很好的设计模式.应用的恰到好处, 值得学习和借鉴一下.
这次对htmlparser的简单介绍先介绍到这里, 在以后的时间里 根据具体的应用在写一些例子, 给大家参考一下(htmlparser源代码中也有几个例子,建议看看).  

下面通过一个简单的htmlparser的使用举例,来学习htmlparser的使用。代码如下:
package com.amigo.htmlparser;
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import org.htmlparser.filters.*;
import org.htmlparser.*;
import org.htmlparser.nodes.*;
import org.htmlparser.tags.*;
import org.htmlparser.util.*;
import org.htmlparser.visitors.*;
/** *//**
* 测试HTMLParser的使用.
* @author <a href="liuqlmailto:liuql-ja@163.com">liuql</a>
* Creation date: 2008-6-5 - 上午11:44:22
*/
public class HTMLParserTest {
    /** *//**
     * 入口方法.
     * @param args
     * @throws Exception
     */
    public static void main(String args[]) throws Exception {
        String path = "http://www.163.com";
        URL url = new URL(path);
        URLConnection conn = url.openConnection();
        conn.setDoOutput(true);
        
        InputStream inputStream = conn.getInputStream();
        InputStreamReader isr = new InputStreamReader(inputStream, "utf8");
        StringBuffer sb = new StringBuffer();
        BufferedReader in = new BufferedReader(isr);
        String inputLine;
        
        while ((inputLine = in.readLine()) != null) {
            sb.append(inputLine);
            sb.append("\n");
        }
        
        String result = sb.toString();
        readByHtml(result);
        readTextAndLinkAndTitle(result);
    }
    
    /** *//**
     * 按页面方式处理.解析标准的html页面
     * @param content 网页的内容
     * @throws Exception
     */
    public static void readByHtml(String content) throws Exception {
        Parser myParser;
        myParser = Parser.createParser(content, "utf8");
        HtmlPage visitor = new HtmlPage(myParser);
        myParser.visitAllNodesWith(visitor);
        String textInPage = visitor.getTitle();
        System.out.println(textInPage);
        NodeList nodelist;
        nodelist = visitor.getBody();
        
        System.out.print(nodelist.asString().trim());
    }
    /** *//**
     * 分别读纯文本和链接.
     * @param result 网页的内容
     * @throws Exception
     */
    public static void readTextAndLinkAndTitle(String result) throws Exception {
        Parser parser;
        NodeList nodelist;
        parser = Parser.createParser(result, "utf8");
        NodeFilter textFilter = new NodeClassFilter(TextNode.class);
        NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
        NodeFilter titleFilter = new NodeClassFilter(TitleTag.class);
        OrFilter lastFilter = new OrFilter();
        lastFilter.setPredicates(new NodeFilter[] { textFilter, linkFilter, titleFilter });
        nodelist = parser.parse(lastFilter);
        Node[] nodes = nodelist.toNodeArray();
        String line = "";
        
        for (int i = 0; i < nodes.length; i++) {
            Node node = nodes;
            if (node instanceof TextNode) {
                TextNode textnode = (TextNode) node;
                line = textnode.getText();
            } else if (node instanceof LinkTag) {
                LinkTag link = (LinkTag) node;
                line = link.getLink();
            } else if (node instanceof TitleTag) {
                TitleTag titlenode = (TitleTag) node;
                line = titlenode.getTitle();
            }
            
            if (isTrimEmpty(line))
                continue;
            System.out.println(line);
        }
    }
    
    /** *//**
     * 去掉左右空格后字符串是否为空
     */
    public static boolean isTrimEmpty(String astr) {
        if ((null == astr) || (astr.length() == 0)) {
            return true;
        }
        if (isBlank(astr.trim())) {
            return true;
        }
        return false;
    }
    /** *//**
     * 字符串是否为空:null或者长度为0.
     */
    public static boolean isBlank(String astr) {
        if ((null == astr) || (astr.length() == 0)) {
            return true;
        } else {
            return false;
        }
    }
}

分享到:
评论

相关推荐

    HTMLParser 使用举例

    HTMLParser 使用举例 HTMLParser 是一个开源的类库,用于解析 Web 页面。它有两种主要使用方式:extraction 和 transformation。前者用于从网页中萃取出需要的内容,后者用于把 Web 页面中的内容转换为需要的格式。...

    htmlParser详细文档

    - `HTMLParser使用举例.doc`: 提供了具体的使用案例,帮助理解如何在实际项目中应用HTMLParser。 在学习和使用HTMLParser时,结合上述资源,可以从理论到实践全面掌握这个强大的工具。无论是为了数据抓取、内容...

    java实现模拟登录网站最全的资料

    `HTMLParser使用详解.doc`和`HTMLParser使用举例.doc`可以提供更深入的指导。 5. **HttpClient库**:Apache HttpClient库是Java中用于发送HTTP请求的流行工具。它可以用来模拟登录,通过设置Cookie管理器来跟踪和...

    nutch的插件机制

    举例来说,如果我们想要创建一个插件,用于根据搜索词推荐相关网页,我们需要定义一个新的扩展点,可能是一个QueryEnhancer接口,然后实现这个接口,提供推荐算法。这样,在查询处理阶段,Nutch会调用我们的插件,...

    C++与Comsol联合仿真的锂电池枝晶生长多物理场耦合模型研究

    内容概要:本文详细介绍了利用C++编程和Comsol软件进行锂电池内部枝晶生长过程的多物理场耦合仿真。首先探讨了枝晶生长对浓度场、电场、温度场以及应力场的敏感性,并展示了相应的数学模型和C++代码实现。接着讨论了采用元胞自动机(CA)和格子玻尔兹曼方法(LBM)来模拟枝晶的非均匀生长特性,特别是通过引入偏心正方算法改进了传统CA模型的方向局限性。此外,文中还涉及了如何将多种物理场(如浓度场、电场、温度场、应力场和流场)耦合在一起,形成完整的多物理场仿真系统。最后,作者分享了一些实用的经验和技术细节,比如参数调整技巧、避免常见错误的方法等。 适合人群:从事锂电池研究的专业人士,尤其是对电池安全性和性能优化感兴趣的科研工作者和技术开发者。 使用场景及目标:适用于希望深入了解锂电池内部枝晶生长机制的研究人员,旨在帮助他们构建更加精确的仿真模型,从而更好地理解和解决枝晶引起的电池安全隐患。 其他说明:文章不仅提供了理论分析,还包括具体的代码实例,便于读者动手实践。同时强调了多物理场耦合的重要性,指出这是提高仿真精度的关键因素之一。

    (源码)基于STM32F10x微控制器的综合驱动库.zip

    # 基于STM32F10x微控制器的综合驱动库 ## 项目简介 本项目是一个基于STM32F10x系列微控制器的综合驱动库,旨在为开发者提供一套全面、易于使用的API,用于快速搭建和配置硬件资源,实现高效、稳定的系统功能。项目包含了STM32F10x系列微控制器的基本驱动和常用外设(如GPIO、SPI、Timer、RTC、ADC、CAN、DMA等)的驱动程序。 ## 项目的主要特性和功能 1. 丰富的外设驱动支持支持GPIO、SPI、Timer、RTC、ADC、CAN、DMA等外设的初始化、配置、读写操作和中断处理。 2. 易于使用的API接口提供统一的API接口,简化外设操作和配置,使开发者能够专注于应用程序逻辑开发。 3. 全面的时钟管理功能支持系统时钟、AHB时钟、APB时钟的生成和配置,以及时钟源的选择和配置。 4. 电源管理功能支持低功耗模式、电源检测和备份寄存器访问,帮助实现节能和延长电池寿命。

    (源码)基于Python和TensorFlow的甲骨文识别系统.zip

    # 基于Python和TensorFlow的甲骨文识别系统 ## 项目简介 本项目是一个基于Python和TensorFlow的甲骨文识别系统,旨在利用深度学习技术,尤其是胶囊网络(Capsule Network)来识别甲骨文图像。项目包括数据集准备、模型构建、训练、测试以及评估等关键步骤。 ## 主要特性和功能 1. 数据准备项目提供了数据集的下载、预处理以及分割为训练集、验证集和测试集的功能。 2. 模型构建实现了基于胶囊网络的甲骨文识别模型,包括基本的CapsNet模型、分布式CapsNet模型以及支持多任务学习的CapsNet模型。 3. 训练与测试提供了训练模型、评估模型性能以及可视化训练过程的功能。 4. 性能评估通过测试集评估模型的识别准确率,并提供了测试结果的详细分析。 ## 安装使用步骤 1. 环境准备安装Python和TensorFlow,以及相关的依赖库。 2. 数据准备 下载MNIST或CIFAR数据集

    (源码)基于C++的Arduino BLE设备交互库.zip

    # 基于C++的Arduino BLE设备交互库 ## 项目简介 本项目是一个用于与BLE(蓝牙低能耗)设备交互的Arduino库。它为使用Arduino平台的开发者提供了与BLE设备通信所需的功能,能让开发者更轻松地将BLE设备集成到自己的项目中。 ## 项目的主要特性和功能 1. 初始化BLE设备调用begin()方法,可初始化BLE设备并启动通信。 2. 扫描和连接设备利用scan()方法扫描附近的BLE设备,通过connect()方法连接特定设备。 3. 读取和写入数据使用read()和write()方法,实现从BLE设备读取数据或向其写入数据。 4. 处理事件通过setEventHandler()方法注册回调函数,处理BLE事件,如连接成功、断开连接等。 5. 控制广播和广告使用advertise()和stopAdvertise()方法,控制BLE设备的广播和广告功能。

    基于ANSYS Fluent的增材制造激光熔覆同轴送粉熔池演变模拟及UDF应用

    内容概要:本文详细探讨了利用ANSYS Fluent对增材制造中激光熔覆同轴送粉技术的熔池演变进行模拟的方法。文中介绍了几个关键技术模块,包括高斯旋转体热源、VOF梯度计算、反冲压力和表面张力的UDF(用户自定义函数)实现。通过这些模块,可以精确模拟激光能量输入、熔池内的多相流行为以及各种物理现象如表面张力和反冲压力的作用。此外,文章展示了如何通过调整参数(如激光功率)来优化制造工艺,并提供了具体的代码示例,帮助读者理解和实现这些复杂的物理过程。 适合人群:从事增材制造领域的研究人员和技术人员,尤其是那些希望深入了解激光熔覆同轴送粉技术背后的物理机制并掌握相应模拟工具的人群。 使用场景及目标:适用于需要对增材制造过程中的熔池演变进行深入研究的情景,旨在提高制造质量和效率。具体目标包括但不限于:理解熔池内部的温度场和流场分布规律,评估不同参数对熔池形态的影响,预测可能出现的问题并提出解决方案。 其他说明:文章不仅提供了详细的理论背景介绍,还包括了大量的代码片段和实例解析,使读者能够在实践中更好地应用所学知识。同时,通过对实际案例的讨论,揭示了增材制造过程中的一些常见挑战及其应对策略。

    COMSOL中三维激光切割热流耦合模型:水平集、流体传热及层流分析的应用与优化

    内容概要:本文详细介绍了在COMSOL中构建三维激光切割过程中涉及的热流耦合模型的方法和技术要点。主要内容涵盖水平集物理场用于追踪材料界面变形、流体传热用于描述熔池流动和热传导的相互作用以及层流分析用于处理熔融金属流动。文中提供了具体的MATLAB代码片段,展示了如何设置材料属性、热源加载、熔融金属流动方程、求解器配置及后处理步骤。此外,还讨论了常见问题及其解决方案,如界面过渡区厚度的选择、热源加载的技术细节、表面张力系数的设置、求解器配置的技巧等。 适合人群:从事激光切割工艺研究、仿真建模的研究人员和工程师,尤其是熟悉COMSOL Multiphysics平台的用户。 使用场景及目标:适用于希望深入了解并优化激光切割过程中的热流耦合仿真的研究人员和工程师。主要目标是提高仿真精度,优化切割参数,改善切割质量和效率。 其他说明:文章不仅提供理论指导,还包括大量实用的操作建议和调试技巧,帮助用户更好地理解和应用COMSOL进行复杂物理现象的模拟。

    (源码)基于PythonDjango和Vue的美多电商平台.zip

    # 基于PythonDjango和Vue的美多电商平台 ## 项目简介 本项目是一个基于PythonDjango和Vue的B2C电商平台,名为美多商城,专注于销售自营商品。系统前台具备商品列表展示、商品详情查看、商品搜索、购物车管理、订单支付、评论功能以及用户中心等核心业务功能系统后台涵盖商品管理、运营管理、用户管理和系统设置等系统管理功能。同时,项目新增了统一异常处理、状态码枚举类等设计,避免使用魔法值,提升了项目的可扩展性和可维护性。 ## 项目的主要特性和功能 ### 前台功能 1. 商品相关提供商品列表展示、商品详情查看以及商品搜索功能,方便用户查找心仪商品。 2. 购物车支持用户添加、管理商品,方便集中结算。 3. 订单支付集成阿里支付,支持订单创建、支付及支付结果处理。 4. 评论用户可对商品进行评价,分享购物体验。 5. 用户中心支持用户注册、登录、密码修改、邮箱验证、地址管理等操作。 ### 后台功能

    目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛

    目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛 目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛~ 目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛 目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛 目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛,目前最火的C/C++和Java蓝桥杯竞赛练习题,充分备战竞赛

    (源码)基于Python和Nonebot框架的HoshinoBot.zip

    # 基于Python和Nonebot框架的HoshinoBot ## 项目简介 HoshinoBot是一个基于Python和Nonebot框架的开源QQ机器人项目,专为公主连结Re:Dive(PCR)和舰队收藏(KanColle)玩家设计。它提供了丰富的功能,旨在增强玩家的游戏体验和社区互动。 ## 项目的主要特性和功能 转蛋模拟支持单抽、十连抽和抽一井功能,模拟游戏中的抽卡体验。 竞技场解法查询提供竞技场解法查询,支持按服务器过滤,并允许用户反馈点赞或点踩。 竞技场结算提醒自动提醒竞技场结算时间,帮助玩家及时参与。 公会战管理提供详细的公会战管理功能,包括成员管理、战斗记录等。 Rank推荐表搬运自动搬运和更新Rank推荐表,帮助玩家选择最佳角色。 常用网址速查提供常用游戏网址的快速查询,方便玩家访问。 官方推特转发自动转发官方推特消息,确保玩家不会错过任何重要更新。 官方四格推送定期推送官方四格漫画,增加玩家的娱乐性。

    图书管理小项目完结(完善新增页面)

    图书管理小项目完结(完善新增页面)

    (源码)基于Arduino的超声波距离测量系统.zip

    # 基于Arduino的超声波距离测量系统 ## 项目简介 本项目是一个基于Arduino平台的超声波距离测量系统。系统包含四个超声波传感器(SPS)模块,用于测量与前方不同方向物体的距离,并通过蜂鸣器(Buzz)模块根据距离范围给出不同的反应。 ## 项目的主要特性和功能 1. 超声波传感器(SPS)模块每个模块包括一个超声波传感器和一个蜂鸣器。传感器用于发送超声波并接收回波,通过计算超声波旅行时间来确定与物体的距离。 2. 蜂鸣器(Buzz)模块根据超声波传感器测量的距离,蜂鸣器会给出不同的反应,如延时发声。 3. 主控制器(Arduino)负责控制和管理所有传感器和蜂鸣器模块,通过串行通信接收和发送数据。 4. 任务管理通过主控制器(Arduino)的 loop() 函数持续执行传感器任务(Task),包括测距、数据处理和蜂鸣器反应。 ## 安装使用步骤 1. 硬件连接

    YTBK2802 基于单片机的幼儿安全监控报警系统设计 20250322

    题目:基于单片机的幼儿安全监控报警系统设计 主控:STM32F103C8T6 显示:OLED ESP32 红外对管 火焰传感器 烟雾传感器 按键 继电器+水泵 蜂鸣器+led小灯 电源 1.实时监控:系统能够实时监控幼儿的活动区域,了解幼儿的活动情况。 2.入侵检测:系统可以设置安全区域,当有陌生人或动物进入该区域时, 系统会立即发出警报。 3.紧急呼叫:幼儿在遇到紧急情况时,可以通过按下紧急呼叫按钮触发声光报警, 通知教师或监护人。 4.远程监控与通知:教师或监护人可以通过手机远程监控幼儿的安全状况 5.火灾报警:当检测到着火点且烟雾浓度高于阈值,启动声光报警并自动打开水泵抽水进行灭火

    毕业设计源码【机器人动力学】基于MATLAB的多自由度机器人运动状态模拟:动力学模型与数值求解方法

    内容概要:该MATLAB函数 `robot_calc.m` 实现了一个12维机器人系统的动力学模型计算,主要用于模拟机器人的运动状态。它基于拉格朗日动力学方程,通过质量矩阵 `M`、科里奥利力/向心力矩阵 `N`、约束矩阵 `C` 和输入矩阵 `E` 描述机器人的运动方程。函数接收当前时间和状态向量作为输入,输出状态导数,包括速度和加速度。控制输入通过外部扭矩 `tau` 模拟,数值求解采用伪逆方法确保稳定性。核心步骤包括参数定义、矩阵计算、动力学方程求解和状态导数输出。; 适合人群:具备一定MATLAB编程基础和机器人动力学理论知识的研究人员、工程师和高校学生。; 使用场景及目标:①机器人控制仿真,测试控制算法(如PID、轨迹跟踪)的表现;②运动规划,模拟机器人在给定扭矩下的运动轨迹;③参数优化,通过调整物理参数优化机器人动态性能。; 其他说明:需要注意的是,当前扭矩 `tau` 是硬编码的,实际应用中应替换为控制器的输出。此外,代码中部分参数单位不一致,需确保单位统一。建议改进方面包括动态输入扭矩、添加可视化功能和参数化管理物理参数。

    基于CPO-Transformer-LSTM的光伏数据分类预测Matlab实现及优化

    内容概要:本文介绍了一种创新的光伏数据分类预测方法,采用CPO(冠豪猪优化算法)、Transformer和LSTM三种技术相结合的方式。首先进行数据预处理,包括数据加载、标准化和构建数据迭代器。然后详细介绍了模型架构,包括Transformer编码器捕捉特征间的关系,LSTM处理时间序列模式,以及CPO用于优化关键参数如隐藏层节点数、学习率等。实验结果显示,该模型在处理突变数据方面表现出色,特别是在光伏功率预测和异常检测任务中,相比传统LSTM模型有显著提升。 适合人群:具有一定机器学习基础的研究人员和技术开发者,尤其是关注光伏预测和时序数据分析的人士。 使用场景及目标:适用于需要处理复杂时序数据的任务,如光伏功率预测、电力负荷预测、故障诊断等。主要目标是提高预测准确性,尤其是在面对突变数据时的表现。 其他说明:文中提供了详细的代码示例和优化技巧,如数据预处理、模型结构调整、早停机制等。此外,还给出了可视化工具和一些实用的避坑指南,帮助初学者更好地理解和应用这一模型。

    基于Matlab的改进人工势场法路径规划算法:斥力函数优化与模拟退火应用

    内容概要:本文详细介绍了如何利用Matlab对传统人工势场法(APF)进行改进,以解决其在路径规划中存在的局部极小值和目标不可达问题。主要改进措施包括重构斥力函数,在靠近目标时使斥力随目标距离衰减,以及引入模拟退火算法用于跳出局部极小值。文中提供了详细的代码示例,展示了传统APF与改进版APF在不同障碍物布局下的表现对比,验证了改进算法的有效性和鲁棒性。 适合人群:具有一定编程基础并熟悉Matlab环境的研究人员、工程师和技术爱好者。 使用场景及目标:适用于需要进行路径规划的机器人导航系统或其他自动化设备,旨在提高路径规划的成功率和效率,特别是在复杂环境中。 其他说明:文章不仅提供了理论解释,还有具体的代码实现和测试案例,帮助读者更好地理解和应用改进后的APF算法。同时,附带的场力可视化工具使得势场分布更加直观易懂。

    Simulink模型自动化转换为PDF文档的全流程脚本工具

    内容概要:本文介绍了一款用于将Simulink模型自动转换为PDF文档的脚本工具。该工具能够自动化生成文档,提取模型中各模块的注释并转化为PDF中的说明文字,整合来自Excel的数据并生成表格,分模块分层打印模型图片,最终生成结构清晰的PDF文档。通过递归遍历模型结构,确保文档的章节结构与模型层次保持一致。此外,还包括自动检测未注释模块等功能,极大提高了文档生成效率和准确性。 适合人群:从事Simulink模型开发和维护的工程师,尤其是那些需要频繁编写和更新模型文档的人员。 使用场景及目标:适用于需要快速生成高质量模型文档的场合,如项目交付、技术评审等。主要目标是提高文档编写效率,减少手动操作带来的错误,确保文档与模型的一致性。 其他说明:该工具采用MATLAB和Python混合开发,支持Windows和Linux平台,可通过持续集成(CI/CD)管道自动化运行,进一步提升工作效率。

Global site tag (gtag.js) - Google Analytics