Javascript Html Extractor v0.0.1
当前的版本是 v0.0.1。
项目地址:http://code.google.com/p/javascripthtmlextractor/
该内容提取器主要用于快速提取指定的html字符串中的指定内容。
如有发现问题或有建议,请留言,谢谢。
先看示例:
示例一:"<div><p>div1</p></div>".jhe_im("div")
返回:["<p>div1</p>"]
示例二:"<div id='attr_div1'>div1</div>".jhe_ma("div", "id")
返回: ["attr_div1"]
示例三:"<div><p>div1</p></div>".jhe_mt("div")
返回: ["div1"]
示例四:"<div>div1</div><div>div2</div>".jhe_om("div")
返回: ["<div>div2</div>", "<div>div2</div>"]
示例五:"<div>div1</div><div id='div2'>div2 content</div>".jhe_im("div", "@id=div2")
返回: 'div2 content'
示例六:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", "p")
返回:["div1", "div2"]
示例七:"<div><p>div1<p></div><div><div><p>div2</div></div>".jhe_im("div", ">p")
返回: ["div1"]
示例八:"<p>11</p><div>div2</div>".jhe_im("^div")
返回: []
示例九:"<div>div2</div><p>11</p>".jhe_im("^div")
返回: ["div2"]
更多的示例可以看代码中的单元测试文件。
方法说明:
- jhe_im(匹配参数..)
该方法返回符合匹配参数的标签内的所有内容,返回值类型是数组。
- jhe_om(匹配参数..)
该方法返回符合匹配参数标签及其标签内的所有内容,返回值类型是数组。
- jhe_ma(匹配参数.., 属性名)
该方法返回符合匹配参数标签的指定属性的属性值,返回值类型是数组。
- jhe_mt(匹配参数..)
该方法返回符合匹配参数的标签下的所有文本内容, 返回值类型是数组。
- 关于匹配参数,匹配参数是个不定长的参数,他可以为以下内容
html标签: 如 'div', 'a'...,表示为需要匹配的标签名称
属性表达式:
@attributeName=attributeValue, 如 '@class=red', '@id=container',表示需要匹配的标签的属性必须符合指定条件
属性表达式:
@@attributeName=attributeValue, 如 '@@class=\\w', '@id=[1-9]*',表示需要匹配的标签的属性必须符合指定的正则式条件
^+html标签:,表示当前html字符串的第一个标签
>+html标签
:
,表示紧接前一标签的下一标签
分享到:
相关推荐
该项目是一款基于JavaScript的MaruMaruWords歌词提取工具,集成了Vue、HTML、CSS、TypeScript等多种前端技术。项目源码共计62个文件,涵盖13个JavaScript文件、11个JSON文件、4个CSS文件、3个Vue组件文件、3个...
该项目是一款基于Java、CSS、JavaScript、HTML的SmartCiteCon学术文献语义引用上下文提取工具,源码包含247个文件,涵盖111个Java源文件、63个XML文件、10个JSON文件、10个PDF文件、10个XML文件、10个Map文件、9个...
在本项目中,“基于HTML与JavaScript使用Spark和MongoDB的商品推荐系统设计与实现”是一个集成技术的典型应用,旨在利用大数据处理工具Spark和NoSQL数据库MongoDB构建一个能够为用户提供个性化商品推荐的系统。...
总之,JavaScript和正则表达式是Web开发中不可或缺的部分,而RegExr作为一个强大的在线工具,为开发者提供了一个便捷的学习和测试平台。通过熟悉和掌握这些知识,你可以更有效地处理文本数据,提升开发效率。
基于JavaScript的多页面打包模板是前端开发中的一个重要实践,它结合了现代JavaScript特性、模块化、构建工具和优化策略,帮助开发者高效地构建和维护多页面应用。理解并熟练运用这些技术,可以显著提高开发效率,...
至于压缩包中的文件"WebExtract20070417",根据命名习惯,这很可能是程序的可执行文件,即Web内容提取工具的二进制版本,创建于2007年4月17日。用户在解压后可以直接运行这个文件来体验和使用工具的功能。 总的来说...
总之,getJS是一个强大而实用的工具,它简化了从多个网页中提取JavaScript文件的过程,对于前端开发、性能优化、安全分析等领域都极具价值。通过学习和使用getJS,开发者不仅可以提升工作效率,也能深入理解Web抓取...
《m3u8视频在线提取工具——JavaScript技术详解》 m3u8视频格式是一种基于HTTP的流媒体网络传输协议,常用于在线视频播放。它将视频内容分割成多个小片段,每个片段都有一个对应的.ts文件,通过m3u8播放列表文件...
它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能。本课程由浅入深,从六部分讲解JavaScript...
以上内容是基于教程的部分内容提取的知识点,详细介绍了JavaScript语言的基础知识和基本语法结构。对于初学者来说,掌握这些概念对于学习如何编写JavaScript代码是十分重要的。同时,教程还建议读者访问***/...
【标题】"基于PHP的HTMLJS互换工具.zip" 提供了一个实现HTML和JavaScript相互转换的解决方案,这在处理前端动态内容或者优化页面加载效率时非常有用。PHP是一种广泛使用的服务器端脚本语言,常用于网页开发,而HTML...
SWF资源提取器是一款专门用于处理SWF(ShockWave Flash)文件的工具,它能够帮助用户从SWF文件中解密并提取出各种资源,如图形、动画、音频、脚本代码等。这类工具通常被设计师、开发人员或逆向工程师使用,以便于对...
程序切片技术是一种程序分析手段,它主要用于从原始程序中提取出一个或多个关注点相关的代码片段,即“切片”。对于基于对象的语言如JavaScript来说,这种技术尤为重要,因为它可以帮助开发者更好地理解和维护代码。...
综上所述,这个基于JavaScript的Webpack4项目搭建模板源码提供了一个基础的前端项目构建流程,包括模块的管理和打包、资源的加载、性能优化等,是学习和实践前端构建流程的优秀起点。通过理解并运用这些知识点,...
Python-readability是一个强大的库,专为从HTML文档中提取主要内容而设计。这个库基于Facebook的开源项目 readability-lxml,它的核心功能是解析HTML并找出页面的主要文本、标题、作者等关键信息,这对于网页抓取、...
为了解决这一问题,本文提出了一种新的方法——基于JavaScript切片的AJAX框架网络爬虫技术。 #### 程序切片技术 程序切片是一种重要的程序理解和分析技术,它通过寻找程序内部的相关性来简化程序。具体来说,程序...
总的来说,WebPlotDigitizer是一款高效的数据提取工具,它的背后是HTML5、JavaScript和Canvas的强大支持。对于开发者而言,不仅可以直接使用该工具来提升工作效率,还可以通过学习其源代码,深入了解图像处理和可视...
3. Canvas绘图:提供了一个二维绘图API,可以实现实时图形绘制和动画。 4. SVG矢量图:支持创建清晰、可缩放的图形,适用于图标和复杂图形。 5. Web Storage和Web SQL:提供本地存储机制,用于在浏览器中持久化数据...
网站安全验证是指在用户登录时,使用md5密钥生成规则来生成一串加密的字符“token”,并且存入Cookie中作为一个验证手段,直到用户退出登录为止。这可以防止用户的密码被盗取,保障用户的账户安全。 知识点6:Web...