`
fengshihao
  • 浏览: 49834 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

超简洁轻量 解析html库

阅读更多

这事我自己写的一个解析html xml 这类文件的库。为了使用到手机上,这个库无比要快而且要小。 不求完全自动但求简洁完全自控。有python版本 和java版本。 相信一直到其他语言也是相当容易。 在googlecode上有源码https://code.google.com/p/tagparser/ ,不用太多讲解 ,因为相当的小 只有一两百行 。直接看源码即可。

 

说过例子吧:

 

 

很多人需要提取网页的一些内容, 可以利用正则表达式提取,也可以用beautifulsoap等工具. 正则表达式方法速度快,缺点是不好找到匹配的正则. 其他类似beautiful的工具因为要全面分析html,而html不像xml那么严格,语法比较复杂所以效率很糟糕.这个工具就是为了处里这种问题的.

这个工程只有一个文件 .tagparser.py 它可以方便分析像xml html 等这种标记语言. 只要他是'<'和'>'括起来的标记语言.

分析的方式是'抽'式的.也就是说扫描一个个字符 当遇到一个tag时 也就是遇到一个<>的时候,回调一个函数onGetTag() ,可以重载这个函数做自己的处理.

如遇到

回调 onGetTag(tagstr, tagstro). tagstr = p tagstro = P tagstr 是小写的tag tagstro是源文件的大小写状态

遇到内容 回调 onGetTxt(txtstr) ,  txtstr是如:<tag>xxxxxxxxx</tag> xxxxx即内容

 

分享到:
评论

相关推荐

    40个轻量级JavaScript库

    ### 40个轻量级JavaScript库:深入探讨精选库的功能与应用场景 #### 字符串与数学函数 **Date.js** 是一款强大的日期处理库,它不仅能够处理各种日期格式,还能将日期解析成诸如“Next Thursday”或“+2 years”...

    轻量级UI框架:一个简洁轻量级的 UI 框架,它提供了最基本的组件和 CSS 样式

    其中,“轻量级UI框架:一个简洁轻量级的 UI 框架,它提供了最基本的组件和 CSS 样式”指的是Slint,一个特别注重定制化和灵活性的前端框架。 **Slint框架的核心特性** 1. **简洁与轻量**:Slint设计的目标是保持...

    html5轻量级的网页视频播放器代码

    总的来说,这个"html5轻量级的网页视频播放器代码"是一个帮助开发者构建自定义视频播放界面的工具,通过使用HTML5的`&lt;video&gt;`标签和Video API,结合简洁的设计和良好的兼容性,提供了一种有效且灵活的解决方案。...

    Python-pyquery一个解析HTML的库类似jQuery

    3. **轻量级**: PyQuery的体积小巧,性能优秀,适合在各种项目中使用。 4. **兼容性**: PyQuery与lxml库紧密集成,支持XML和HTML解析,同时兼容BeautifulSoup解析器。 5. **易用性**: PyQuery提供了丰富的API,使得...

    python实现轻量级网络爬虫源码

    Python是一种广泛应用于Web开发、数据分析和自动化任务的高级编程语言,尤其在构建网络爬虫方面,它凭借其简洁明了的语法和丰富的库资源而备受青睐。本篇将深入探讨如何利用Python实现一个轻量级的网络爬虫,并基于...

    AXMB-GY v2.0 全开源爱希彩虹易支付模板 简洁轻量级

    2. **简洁轻量级**: - 设计风格简约,减少了不必要的视觉元素,使页面加载速度更快。 - 轻量化的设计不仅提升了用户体验,还降低了服务器资源消耗。 3. **美观的界面**: - 对用户中心、登录页、注册页等核心...

    一个最轻量级的PHP模板引擎

    轻量级PHP模板引擎的亮点在于其简洁性和高效性。它可能只包含基础的模板语法,如变量插入、控制结构,没有过多的复杂特性,适合那些只需要基础模板功能的小型项目或者对性能有较高要求的场景。通过使用这样的模板...

    Android平台下的富文本解析器,支持Html和Markdown.rar

    2. Markdown则是一种轻量级的标记语言,其语法简洁易懂,适合编写笔记、文档和博客。例如,`#`代表标题,`*斜体*`和`**粗体**`分别表示斜体和粗体,`[链接文本](链接地址)`表示超链接。 三、Android富文本解析 1. `...

    Lex: 一个轻量级模板解析器类库.zip

    Lex是一个轻量级的模板解析器类库,主要用于帮助开发者快速构建动态内容生成系统,如网页、邮件模板等。它的核心功能是将预定义的模板语法转换为可执行的代码,使得在运行时可以根据数据填充模板,生成最终的输出。...

    超简洁的JS日期控件

    描述中提到,只需在HTML中添加几行代码就能实现这个日期控件,这表明这个解决方案可能非常轻量级且易于集成。通常,这包括引入`setday.js`到HTML文件中(通过`&lt;script&gt;`标签),然后可能还需要一个初始化函数来设置...

    cpp-gumboparser纯C99的一个HTML5解析库

    3. **浏览器内核**:虽然通常使用更复杂的解析器,但在某些轻量级或嵌入式环境中,Gumbo可能是一个好选择。 4. **测试工具**:验证HTML文档是否符合规范,或检查服务器返回的HTML是否正确。 5. **数据清洗**:修复...

    轻量级Jquery下拉多选

    "轻量级Jquery下拉多选"是一种高效的解决方案,它利用jQuery库来创建功能强大的多选下拉菜单,提供了用户友好的界面和简洁的API。本文将深入探讨这个主题,解析其实现原理,并给出实际应用中的建议。 1. **jQuery...

    ekhtml html开源解析工具

    例如,ekhtml提供了解析HTML字符串的`ekhtml_parse_string`函数,以及获取当前节点信息的`ekhtml_node_type`和`ekhtml_node_data`等函数。 六、ekhtml的局限与改进空间 虽然ekhtml在很多方面表现出色,但任何工具...

    轻量级日志服务器 for windows

    在描述中提到的“轻量级Windows日志服务器”,其主要关注点在于如何在Windows操作系统上搭建一个不占用过多系统资源,又能有效管理和解析日志的系统。Syslog协议是其中一种常见的日志传输标准,尤其适用于跨平台的...

    jQuery轻量级树状菜单插件代码

    jQuery轻量级树状菜单插件的设计目标是保持代码简洁高效,同时提供必要的功能,如点击展开/折叠节点、异步加载数据等。下面我们将逐步解析如何构建这样的插件: 1. **基础结构**:首先,我们需要HTML结构来表示树...

    白色简洁IT科技html5模板-白色 简洁 科技 it html.rar

    Markdown是一种轻量级的标记语言,用于编写易于阅读和编写的纯文本格式,然后可以转换成结构化的HTML文档。 “白色简洁IT科技html5模板_白色 简洁 科技 it html”可能是主模板文件夹,其中可能包含HTML文件、CSS...

    DiDOM简单并且快速的HTML解析器

    DiDOM是一个针对PHP开发者的轻量级库,专为处理HTML文档而设计。它提供了简单易用的API,使得开发者可以方便地解析、查询和修改HTML内容。在PHP开发中,尤其是在网页抓取、数据提取或者网页自动化任务中,DiDOM是一...

    基于c++的markdown解析器

    Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成结构化的HTML(超文本标记语言)文档。基于C++实现的Markdown解析器是一个能够读取Markdown源文件,并将其转换为HTML的...

    后台UI用H-ui前端框架开发的轻量级网站后台模版

    《基于H-ui前端框架构建的轻量级后台模板解析与应用》 在信息化时代,高效、易用且具有优秀用户体验的后台管理系统对于企业运营至关重要。本文将深入探讨以H-ui前端框架为基础开发的轻量级网站后台模板,帮助开发者...

    Python源代码轻量级爬虫源码下载

    在Python中,实现轻量级爬虫的关键在于利用其强大的标准库和第三方库。本资源提供了一份Python源代码,旨在帮助初学者或开发者快速理解和构建自己的爬虫项目。 一、Python基础 Python作为一门高级编程语言,以其...

Global site tag (gtag.js) - Google Analytics