`

发布了一个基于Javascript的html内容提取器

阅读更多

Javascript Html Extractor v0.0.1

当前的版本是 v0.0.1。

项目地址:http://code.google.com/p/javascripthtmlextractor/

 

该内容提取器主要用于快速提取指定的html字符串中的指定内容。

如有发现问题或有建议,请留言,谢谢。

 

 

先看示例:

示例一:"<div><p>div1</p></div>".jhe_im("div")   
返回:["<p>div1</p>"]

示例二:"<div id='attr_div1'>div1</div>".jhe_ma("div", "id")   
返回: ["attr_div1"]

示例三:"<div><p>div1</p></div>".jhe_mt("div")   
返回: ["div1"]

示例四:"<div>div1</div><div>div2</div>".jhe_om("div")  
返回: ["<div>div2</div>", "<div>div2</div>"]

示例五:"<div>div1</div><div id='div2'>div2 content</div>".jhe_im("div", "@id=div2") 
返回: 'div2 content'

示例六:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", "p")  
返回:["div1", "div2"]

示例七:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", ">p")  
返回: ["div1"]

示例八:"<p>11</p><div>div2</div>".jhe_im("^div")
返回: []

示例九:"<div>div2</div><p>11</p>".jhe_im("^div")
返回: ["div2"]

更多的示例可以看代码中的单元测试文件。


方法说明:

  1. jhe_im(匹配参数..)
  2. 该方法返回符合匹配参数的标签内的所有内容,返回值类型是数组。
  3. jhe_om(匹配参数..)
  4. 该方法返回符合匹配参数标签及其标签内的所有内容,返回值类型是数组。
  5. jhe_ma(匹配参数.., 属性名)
  6. 该方法返回符合匹配参数标签的指定属性的属性值,返回值类型是数组。
  7. jhe_mt(匹配参数..)
  8. 该方法返回符合匹配参数的标签下的所有文本内容, 返回值类型是数组。
  9. 关于匹配参数,匹配参数是个不定长的参数,他可以为以下内容

    html标签: 如 'div', 'a'...,表示为需要匹配的标签名称
属性表达式: @attributeName=attributeValue, 如 '@class=red', '@id=container',表示需要匹配的标签的属性必须符合指定条件
属性表达式: @@attributeName=attributeValue, 如 '@@class=\\w', '@id=[1-9]*',表示需要匹配的标签的属性必须符合指定的正则式条件
^+html标签:,表示当前html字符串的第一个标签
>+html标签 ,表示紧接前一标签的下一标签
分享到:
评论
3 楼 DerekZhao 2014-12-30  
这个工具后来还有更新吗?
2 楼 pickerel 2008-12-26  
zhjzh1016 写道

你的项目里没有源码吧,能把源码共享吗?

有源码的
1 楼 zhjzh1016 2008-12-26  
你的项目里没有源码吧,能把源码共享吗?

相关推荐

    基于JavaScript的MaruMaruWords歌词提取与前端技术设计源码

    基于这样的背景,一款名为MaruMaruWords的歌词提取工具应运而生,它采用JavaScript语言开发,并结合了Vue、HTML、CSS、TypeScript等多种前端技术,为用户提供了一种全新的歌词提取方式。 该项目的源代码共有62个...

    基于JavaScript的Vue+HTML古诗词取名工具设计源码

    基于JavaScript的Vue+HTML古诗词取名工具正是这样一个应运而生的创新项目。该项目利用Vue.js框架和HTML技术,为用户提供了一个便捷的平台,通过集成丰富的古诗词资源库,使用户能够在各种文化创作和个性化命名场合中...

    基于Java、CSS、JavaScript、HTML的SmartCiteCon学术文献语义引用上下文提取工具设计源码

    SmartCiteCon学术文献语义引用上下文提取工具以Java、CSS、JavaScript和HTML为主要技术手段,通过247个不同格式的文件构建了一个强大的文献引用提取系统。它的出现不仅提高了学术文献处理的自动化水平,也为学术研究...

    基于html与JavaScript使用spark和MongoDB的商品推荐系统设计与实现

    在本项目中,“基于HTML与JavaScript使用Spark和MongoDB的商品推荐系统设计与实现”是一个集成技术的典型应用,旨在利用大数据处理工具Spark和NoSQL数据库MongoDB构建一个能够为用户提供个性化商品推荐的系统。...

    基于JavaScript、TypeScript、Vue、HTML的多语言处理Excel设备台账DG提取设计源码

    本项目是一个运用现代前端技术和数据处理工具的典范,它展示了如何利用JavaScript、TypeScript、Vue和HTML等技术构建一个功能完善的多语言处理Excel设备台账DG提取系统。 JavaScript作为一门广泛使用的脚本语言,以...

    m3u8 视频在线提取工具.zip

    《m3u8视频在线提取工具——JavaScript技术详解》 m3u8视频格式是一种基于HTTP的流媒体网络传输协议,常用于在线视频播放。它将视频内容分割成多个小片段,每个片段都有一个对应的.ts文件,通过m3u8播放列表文件...

    基于HTML和JavaScript的临时JavaScript脚本设计源码

    在当前的网络技术发展背景下,Web开发已经成为了一个极其重要的领域,而JavaScript作为Web前端开发中不可或缺的编程语言,其脚本的设计和应用自然显得尤为关键。本项目“基于HTML和JavaScript的临时JavaScript脚本...

    基于Python的HTML解析与JavaScript抓取设计源码

    本项目是一款基于Python开发的HTML解析与JavaScript抓取工具,设计源码细致地划分为多个文件,确保了模块化和功能的明确分工。项目包含了2912个文件,覆盖了2401个woff字体文件、298个Python脚本文件、67个csv数据...

    基于JavaScript的HTML/CSS/Java全栈点餐平台设计源码

    本文主要介绍了一个基于JavaScript的全栈式点餐平台设计源码的项目。该项目是一个涉及多个技术领域的复杂系统,旨在为饭店和顾客提供一个高效的点餐解决方案。以下是从项目文件和描述中提取的知识点。 首先,该项目...

    JavaScript_RegExr是一个基于HTMLJS的工具,用于创建、测试和学习正则表达式.zip

    总之,JavaScript和正则表达式是Web开发中不可或缺的部分,而RegExr作为一个强大的在线工具,为开发者提供了一个便捷的学习和测试平台。通过熟悉和掌握这些知识,你可以更有效地处理文本数据,提升开发效率。

    基于JavaScript的多页面打包模板

    基于JavaScript的多页面打包模板是前端开发中的一个重要实践,它结合了现代JavaScript特性、模块化、构建工具和优化策略,帮助开发者高效地构建和维护多页面应用。理解并熟练运用这些技术,可以显著提高开发效率,...

    网页内容提取v2.0

    至于压缩包中的文件"WebExtract20070417",根据命名习惯,这很可能是程序的可执行文件,即Web内容提取工具的二进制版本,创建于2007年4月17日。用户在解压后可以直接运行这个文件来体验和使用工具的功能。 总的来说...

    基于Python、HTML、JavaScript的蜘蛛家族大小爬虫设计源码

    而该项目中,3个HTML文件的存在,可能用于展示爬虫的运行结果,或者作为测试爬虫功能的一个环节,展示爬虫从网页中提取到的原始HTML数据。 JavaScript作为前端开发中不可或缺的技术,负责实现网页的动态交互效果。...

    Go-getJS是一个从一组给定的URL中提取所有javascript文件的工具

    总之,getJS是一个强大而实用的工具,它简化了从多个网页中提取JavaScript文件的过程,对于前端开发、性能优化、安全分析等领域都极具价值。通过学习和使用getJS,开发者不仅可以提升工作效率,也能深入理解Web抓取...

    青梧字幕是一款基于whisper的AI字幕提取工具

    Electron是一个能够用JavaScript、HTML和CSS等前端技术来创建跨平台桌面应用程序的框架,这意味着青梧字幕能够支持Windows、macOS和Linux等多个操作系统平台。Vite是一种新型前端构建工具,它以原生ESM和高效的...

    JavaScript开发入门视频课程-视频教程网盘链接提取码下载.txt

    它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能。本课程由浅入深,从六部分讲解JavaScript...

    英文版javascript教程

    以上内容是基于教程的部分内容提取的知识点,详细介绍了JavaScript语言的基础知识和基本语法结构。对于初学者来说,掌握这些概念对于学习如何编写JavaScript代码是十分重要的。同时,教程还建议读者访问***/...

    基于JavaScript的HTML/CSS企业服务简约网格设计源码

    这套源码是一个功能全面、结构清晰、便于维护的企业服务界面设计工具包。它通过合理的文件组织和模块化设计,大大降低了开发者的门槛,加快了开发进度,保证了企业服务界面的专业性和用户体验的优异性。无论对于经验...

    基于PHP的HTMLJS互换工具.zip

    【标题】"基于PHP的HTMLJS互换工具.zip" 提供了一个实现HTML和JavaScript相互转换的解决方案,这在处理前端动态内容或者优化页面加载效率时非常有用。PHP是一种广泛使用的服务器端脚本语言,常用于网页开发,而HTML...

Global site tag (gtag.js) - Google Analytics