`

HTML Parser 使用 例子

阅读更多
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。

最近用Heritrix下载了大概1.5G 左右的网页,但是内容包含了很多HTML标签内容,打算今天搞下HTMLParser,写下简单使用实例。
(待续)
分享到:
评论
7 楼 longware 2010-12-14  
http://www.iteye.com/topic/828723
6 楼 ak121077313 2010-12-14  
<i>aaaaaaaaa</i>解析不到
5 楼 xinnn 2010-12-10  
试试jsoup吧,好吃又好玩
4 楼 gbfd2012 2010-12-09  
htmlparser可以结合nekohtml使用下。。htmlparser很小但感觉解析网页很easy啊,很好的开源工具。抓取网页heritrix,功能挺强大的。nutch也不错,省硬盘空间。
3 楼 lqixv 2010-12-09  
我也用 jsoup ,感觉不错!
2 楼 wlwolf 2010-12-09  
感觉新星jsoup不错
1 楼 flyingzl 2010-12-02  
恩。推荐看看jsoup,也不错的,类似于jQuery的查询方式。

相关推荐

    前端开源库-html-react-parser

    在项目中引入`html-react-parser`库后,可以通过以下方式使用: ```jsx import parse from 'html-react-parser'; const htmlString = '&lt;div&gt;&lt;h1&gt;Hello, World!&lt;/h1&gt;&lt;/div&gt;'; const reactElements = parse...

    html-dom-parser:HTML到DOM解析器

    html-dom-parser 在服务器(Node.js)和客户端(浏览器)上均可使用HTML到DOM解析器: HTMLDOMParser(string[, options])解析器将HTML字符串转换为描述DOM树JavaScript对象。例子const parse = require ( '...

    Laravel开发-php-simple-html-dom-parser

    在实际使用中,我们可以通过以下方式调用`php-simple-html-dom-parser`: ```php use Sunra\PhpSimple\HtmlDomParser; $html = '&lt;html&gt;&lt;body&gt;&lt;h1&gt;Hello, World!&lt;/h1&gt;&lt;/body&gt;&lt;/html&gt;'; $dom = HtmlDomParser::str_...

    JerichoHtmlParser使用介绍.pdf

    本文将深入探讨如何使用Jericho Html Parser进行网页解析,以及如何优化性能。 首先,Jericho Html Parser 的核心类是 `Source`,它负责从URL或字符串中获取HTML文档内容。在解析过程中,`Source`类提供了多种方法...

    golang GUI图形界面框架fyne例子 删除html源文档中的html标签

    在本文中,我们将深入探讨如何使用Golang的GUI图形界面框架Fyne来处理HTML文档,特别...这个例子不仅展示了如何使用Fyne设计和构建用户界面,还涉及到了HTML解析的基础知识,为处理HTML文档提供了一个实用的解决方案。

    e语言-gumbo-parser-0.10.1 网页解析引擎 vc封装,易语言调用例子完整

    在这个例子中,我们看到"vc封装"意味着已经有人完成了这个过程,将Gumbo-Parser的C接口转换成了易语言的函数调用形式,使得易语言用户可以直接使用。 易语言调用Gumbo-Parser的关键步骤包括以下几个部分: 1. **...

    html解析例子,用nekohtml写的

    NekoHTML的核心类是`org.cyberneko.html.parsers.DOMParser`,它是基于Xerces的DOM解析器,它能够将HTML文档转化为标准的W3C Document对象,这使得我们可以使用XPath或CSS选择器来查询和操作HTML元素。在提供的`Neko...

    htmlparser(HTML页面解析)例子

    在这个例子中,我们创建了一个`MyHTMLParser`的实例,并从名为'网页.html'的文件中读取内容。`feed()`方法会逐行处理文件内容,调用我们之前定义的处理方法。 除了基础的开始标签、结束标签和文本数据处理外,...

    Kanna(鉋) is an XML_HTML parser for Swift.zip

    在这个例子中,我们首先加载了一个网页的HTML内容,然后创建了一个`HTMLDocument`对象。通过CSS选择器`css("title")`,我们可以获取页面的标题。使用XPath表达式`//a/@href`,我们可以找到所有链接的`href`属性。 *...

    htmlparser实现从网页上抓取数据doc

    4. **HTMLParser的使用**:虽然示例中没有直接使用HTMLParser,但在实际的网页抓取或解析任务中,我们会创建`Parser`对象,并调用其方法来遍历和处理HTML文档的结构。例如,`Parser.createParser(html, charset)`...

    node-htmlparser.zip

    在这个例子中,我们创建了一个新的Parser实例,并定义了`onopentag`事件处理器。每当解析器遇到一个开放标签时,它就会调用这个处理器。在这个处理器中,我们检查标签名是否为`"p"`,如果是,就打印出该`&lt;p&gt;`标签...

    plantuml-parser:使用JavaScript或TypeScript解析PlantUML

    安装$ npm install --save plantuml-parser例子/装置PlantUML不是一种正式定义的语言,我们希望对此进行更改。 这意味着我们必须通过对示例进行逆向工程来构建此解析器。 因此,我们在保留了大量PlantUML图( in....

    Htmlparser包(带有使用指南和例子)

    Parser parser = new Parser("your html content"); ``` 在解析过程中,你可以注册处理器(`NodeVisitor`或`TagListener`)来处理解析到的HTML节点。`NodeVisitor`允许你在遍历每个节点时执行自定义操作,而`...

    go_flashscore_parser:httpHTML解析器

    使用golang的HTML解析器 如何使用 例如从这里下载chromeDriver 例子 package main import ( flashscoreParser "github.com/ryzhak/go_flashscore_parser" ) func main() { //path to chromedriver chromeDriver...

    python爬虫小例子

    soup = BeautifulSoup(html, 'html.parser') data = soup.find('div', {'class': 'target-class'}).text # 关闭浏览器 driver.quit() ``` 在"two"这个文件中,可能包含了具体的代码实现或者更详细的步骤说明,包括...

    web-log-parser:开源分析Web日志工具

    web-log-parser是一种开源分析Web日志工具,以python语言开发,具有灵活的日志格式配置 例子 指示 将日志文件存储在数据目录./data 修改config.ini 安装要求pip install -r requirements.txt 在bin dir cd ./bin ...

    Laravel开发-php-markdown-parser

    在这个例子中,我们从文件中读取Markdown内容,使用Markdown解析器将其转换为HTML,然后在视图中展示。 此外,还可以扩展Markdown解析器以支持自定义的Markdown扩展或过滤器,例如,添加对表格的支持,或者过滤掉...

    javajsp中使用HTMLParser

    在这个例子中,我们创建了一个`SAXHTMLParser`,解析了指定的URL,然后使用`extractAllLinks`方法提取了所有链接,并打印出来。 HTMLParser是一个强大且灵活的工具,尤其在处理非结构化的HTML文档时,它的优势更为...

    DOM解析XML文件例子

    在这个例子中,我们将深入探讨如何使用DOM解析XML文件,以理解和掌握XML文档的结构,并进行数据提取、修改和创建。 首先,XML(Extensible Markup Language)是一种标记语言,用于存储和传输数据,具有自描述性和...

    前端开源库-lws-body-parser

    本文将深入探讨lws-body-parser的核心功能、使用方法以及它在实际项目中的应用。 **lws-body-parser的简介** lws-body-parser是基于JavaScript编写的,主要针对轻量级Web服务(Lightweight Web Services,LWS)设计...

Global site tag (gtag.js) - Google Analytics