`
huanglz19871030
  • 浏览: 250821 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

解析网页利器组合(正则、jsoup、beanshell、dozer)资源

 
阅读更多

由于项目需要使用java正则、jsoup、dozer、beanshell组合用来解析网页,现把相关资源整理记录:

 

dozer : 基于beanUtils实现的对象转化工具,实现各种类型之间对象的深层次复制。

beanshell : 一种完全符合java语法的松散类型的脚本语言,可以用来完成简单或复杂对象的逻辑判断。

dozer和beanshell之前接触的少,需要的话网上找资料,附件为入门word。

 

jsoup资源 : http://www.open-open.com/jsoup/selector-syntax.htm,语法类似jquery,基于document,

网上很多例子。

 

java正则表达式的文章整理如下:

 

1. 正则表达式学习网 : http://www.regexbook.net/book/jckc/index.htm


2. 大名鼎鼎的《正则表达式30分钟入门教程》:http://deerchao.net/tutorials/regex/regex.htm

3. Java正则表达式详解:http://edu.yesky.com/edupxpt/18/2143018.shtml

 

4. Java正则表达式应用总结:http://lavasoft.blog.51cto.com/62575/179324

5. java.util.regex.Pattern类:http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html

6. java.util.regex包:http://docs.oracle.com/javase/6/docs/api/java/util/regex/package-summary.html

7. Java Regex Tutorial:http://www.vogella.com/articles/JavaRegularExpressions/article.html

8. Lesson: Regular Expressions:http://docs.oracle.com/javase/tutorial/essential/regex/

9. Linux/Bash下正则表达式:http://codingstandards.iteye.com/blog/1195592

 

再来几个较好的正则测试工具(前2个都不错我觉得):

 

1、https://code.google.com/p/qre/

2、http://regexpal.com/
3、http://www.gskinner.com/RegExr/

分享到:
评论

相关推荐

    Jsoup解析网页工具类

    **Jsoup:强大的Java网页解析库** Jsoup是一款优秀的开源Java库,专为网页解析而设计,具有简单易用的API,使得从HTML文档中提取结构化数据变得轻而易举。它支持HTML5和HTML4标准,允许开发者在处理网页内容时,...

    使用Jsoup解析html网页

    相比于标准的DOM解析器,Jsoup更注重实际的网页解析需求,它的错误容忍度更高,能够处理一些不规范的HTML代码。 总结来说,Jsoup是Java开发者处理HTML时的强大工具,无论是在数据抓取、网页验证还是内容过滤等方面...

    html解析利器 jsoup-1.7.1-sources.jar

    java开源工具 html解析利器 jsoup-1.7.1-sources.jar

    利用jsoup解析网页

    本文将深入探讨jsoup的核心功能及其在网页解析中的应用。 首先,我们需要理解jsoup的基本概念。它基于Java的标准库javax.swing.text.html.parser,但提供了更友好的接口。jsoup能够解析HTML文档,并将其转换为一个...

    jsoup解析网页

    在这个资源中,我们看到一个实例,是关于如何使用jsoup从搜狐新闻网站上提取所需数据的。以下是对这个主题的详细讲解: 1. **jsoup简介** jsoup是一个基于DOM(文档对象模型)的库,它允许开发者以与jQuery类似的...

    jsoup网页内容分析

    **JSoup:网页内容分析利器** JSoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于抓取和解析网页内容。在HTMLParser不再更新的情况下,JSoup是一个理想的选择,因为它能够有效地处理HTML...

    httpClient+jsoup 抓取网页数据

    HttpClient和Jsoup是两个Java库,分别专注于HTTP通信和HTML解析,它们常被组合使用来高效地抓取网页数据。下面我们将详细探讨这两个库及其在网页抓取中的应用。 HttpClient是由Apache软件基金会开发的一个库,主要...

    jsoupAPI解析html

    **jsoup API解析HTML** jsoup是一个非常强大的Java库,专为处理真实世界的HTML而设计。它提供了方便的API,用于提取和操作数据,使用...无论是网页抓取、数据提取还是内容修改,jsoup都能提供高效且安全的解决方案。

    Jsoup抓取整个网站

    **Jsoup:网页抓取与解析利器** Jsoup是一个用于处理实际世界HTML的Java库。它提供了非常方便的API,用于提取和操作数据,使用DOM,CSS和微选择器。在本篇中,我们将深入探讨如何使用Jsoup来抓取整个网站,并将其...

    使用jsoup获取网页内容并修改

    **使用Jsoup获取网页内容并修改** Jsoup是一款强大的Java库,它允许开发者方便地解析、操作和提取HTML内容。在Android开发中,Jsoup常用于网页数据抓取和页面内容的处理。以下将详细解释如何使用Jsoup来实现这个...

    Jsoup库文件;Jsoup解析Java包

    此外,Jsoup还提供了链接处理能力,可以解析页面上的链接,包括相对链接和绝对链接,这对于网页爬虫和数据抓取来说非常有用。 XML解析方面,虽然Jsoup主要设计用于HTML处理,但它也具备解析XML文档的能力。XML与...

    jsoup分页爬取网页

    **jsoup分页爬取网页** Jsoup是一个Java库,设计用于处理和解析HTML,它提供了非常方便的API,使得开发者能够轻松地提取和操作数据,就像使用DOM、CSS以及jQuery那样。在网页爬虫领域,jsoup尤其适用于抓取和分析...

    Jsoup 解析网页实例

    这个只是一个java源文件,用于学习Jsoup

    网页爬虫工具jsoup,jar包

    这个"网页爬虫工具jsoup,jar包"是用于实现这一目标的资源,它包含了Jsoup库的jar文件,使得开发者可以直接在Java项目中使用该库。 Jsoup库的主要功能包括: 1. 解析HTML:Jsoup能够将HTML文档解析成一个复杂的DOM...

    2010最新解析html开源项目jsoup源码及api下载及jsoup.jar

    这个开源项目在2010年进行了重大更新,带来了最新的解析功能和API,使得开发者能更高效地处理网页内容。 **源码分析** 在提供的压缩包中,`jsoup-1.3.3-sources.jar`文件包含了jsoup的源代码,这对于开发者来说...

    jsoup1.10_jsoupjar包网页_

    "jsoup.jar包"是该库的Java归档(JAR)文件,它是Java应用程序的可执行文件,包含了jsoup的所有类和资源,使得开发者能够将其引入项目中进行网页爬虫相关的开发。 **网页爬虫基础** 网页爬虫是一种自动化程序,...

    httpClient采集jsoup解析

    例如,以下代码展示了如何用Jsoup解析一个网页并获取标题: ```java Document doc = Jsoup.connect("http://example.com").get(); Element title = doc.select("title").first(); System.out.println(title.text())...

    Jsoup解析与使用

    Jsoup是一款非常实用的Java库,专为网页抓取和解析而设计。它提供了丰富的API,使得开发者可以方便地提取结构化数据,类似于浏览器执行JavaScript的方式,但更专注于HTML文档的处理。Jsoup的核心功能包括连接到网站...

    网页正文提取 jsoup实现

    JSOUP是一个非常流行的Java库,专门用于处理HTML文档,提供了强大的功能来抓取和解析网页内容。在本项目中,"网页正文提取 jsoup实现"是通过编写一个名为"linklist.java"的程序来完成的,它具有用户界面,并且利用了...

Global site tag (gtag.js) - Google Analytics