由于项目需要使用java正则、jsoup、dozer、beanshell组合用来解析网页,现把相关资源整理记录:
dozer : 基于beanUtils实现的对象转化工具,实现各种类型之间对象的深层次复制。
beanshell : 一种完全符合java语法的松散类型的脚本语言,可以用来完成简单或复杂对象的逻辑判断。
dozer和beanshell之前接触的少,需要的话网上找资料,附件为入门word。
jsoup资源 : http://www.open-open.com/jsoup/selector-syntax.htm,语法类似jquery,基于document,
网上很多例子。
java正则表达式的文章整理如下:
1. 正则表达式学习网 : http://www.regexbook.net/book/jckc/index.htm
2. 大名鼎鼎的《正则表达式30分钟入门教程》:http://deerchao.net/tutorials/regex/regex.htm
3. Java正则表达式详解:http://edu.yesky.com/edupxpt/18/2143018.shtml
4. Java正则表达式应用总结:http://lavasoft.blog.51cto.com/62575/179324
5. java.util.regex.Pattern类:http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html
6. java.util.regex包:http://docs.oracle.com/javase/6/docs/api/java/util/regex/package-summary.html
7. Java Regex Tutorial:http://www.vogella.com/articles/JavaRegularExpressions/article.html
8. Lesson: Regular Expressions:http://docs.oracle.com/javase/tutorial/essential/regex/
9. Linux/Bash下正则表达式:http://codingstandards.iteye.com/blog/1195592
再来几个较好的正则测试工具(前2个都不错我觉得):
1、https://code.google.com/p/qre/
2、http://regexpal.com/
3、http://www.gskinner.com/RegExr/
分享到:
相关推荐
**Jsoup:强大的Java网页解析库** Jsoup是一款优秀的开源Java库,专为网页解析而设计,具有简单易用的API,使得从HTML文档中提取结构化数据变得轻而易举。它支持HTML5和HTML4标准,允许开发者在处理网页内容时,...
相比于标准的DOM解析器,Jsoup更注重实际的网页解析需求,它的错误容忍度更高,能够处理一些不规范的HTML代码。 总结来说,Jsoup是Java开发者处理HTML时的强大工具,无论是在数据抓取、网页验证还是内容过滤等方面...
java开源工具 html解析利器 jsoup-1.7.1-sources.jar
本文将深入探讨jsoup的核心功能及其在网页解析中的应用。 首先,我们需要理解jsoup的基本概念。它基于Java的标准库javax.swing.text.html.parser,但提供了更友好的接口。jsoup能够解析HTML文档,并将其转换为一个...
在这个资源中,我们看到一个实例,是关于如何使用jsoup从搜狐新闻网站上提取所需数据的。以下是对这个主题的详细讲解: 1. **jsoup简介** jsoup是一个基于DOM(文档对象模型)的库,它允许开发者以与jQuery类似的...
**JSoup:网页内容分析利器** JSoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于抓取和解析网页内容。在HTMLParser不再更新的情况下,JSoup是一个理想的选择,因为它能够有效地处理HTML...
HttpClient和Jsoup是两个Java库,分别专注于HTTP通信和HTML解析,它们常被组合使用来高效地抓取网页数据。下面我们将详细探讨这两个库及其在网页抓取中的应用。 HttpClient是由Apache软件基金会开发的一个库,主要...
**jsoup API解析HTML** jsoup是一个非常强大的Java库,专为处理真实世界的HTML而设计。它提供了方便的API,用于提取和操作数据,使用...无论是网页抓取、数据提取还是内容修改,jsoup都能提供高效且安全的解决方案。
**Jsoup:网页抓取与解析利器** Jsoup是一个用于处理实际世界HTML的Java库。它提供了非常方便的API,用于提取和操作数据,使用DOM,CSS和微选择器。在本篇中,我们将深入探讨如何使用Jsoup来抓取整个网站,并将其...
**使用Jsoup获取网页内容并修改** Jsoup是一款强大的Java库,它允许开发者方便地解析、操作和提取HTML内容。在Android开发中,Jsoup常用于网页数据抓取和页面内容的处理。以下将详细解释如何使用Jsoup来实现这个...
此外,Jsoup还提供了链接处理能力,可以解析页面上的链接,包括相对链接和绝对链接,这对于网页爬虫和数据抓取来说非常有用。 XML解析方面,虽然Jsoup主要设计用于HTML处理,但它也具备解析XML文档的能力。XML与...
**jsoup分页爬取网页** Jsoup是一个Java库,设计用于处理和解析HTML,它提供了非常方便的API,使得开发者能够轻松地提取和操作数据,就像使用DOM、CSS以及jQuery那样。在网页爬虫领域,jsoup尤其适用于抓取和分析...
这个只是一个java源文件,用于学习Jsoup
这个"网页爬虫工具jsoup,jar包"是用于实现这一目标的资源,它包含了Jsoup库的jar文件,使得开发者可以直接在Java项目中使用该库。 Jsoup库的主要功能包括: 1. 解析HTML:Jsoup能够将HTML文档解析成一个复杂的DOM...
这个开源项目在2010年进行了重大更新,带来了最新的解析功能和API,使得开发者能更高效地处理网页内容。 **源码分析** 在提供的压缩包中,`jsoup-1.3.3-sources.jar`文件包含了jsoup的源代码,这对于开发者来说...
"jsoup.jar包"是该库的Java归档(JAR)文件,它是Java应用程序的可执行文件,包含了jsoup的所有类和资源,使得开发者能够将其引入项目中进行网页爬虫相关的开发。 **网页爬虫基础** 网页爬虫是一种自动化程序,...
例如,以下代码展示了如何用Jsoup解析一个网页并获取标题: ```java Document doc = Jsoup.connect("http://example.com").get(); Element title = doc.select("title").first(); System.out.println(title.text())...
Jsoup是一款非常实用的Java库,专为网页抓取和解析而设计。它提供了丰富的API,使得开发者可以方便地提取结构化数据,类似于浏览器执行JavaScript的方式,但更专注于HTML文档的处理。Jsoup的核心功能包括连接到网站...
JSOUP是一个非常流行的Java库,专门用于处理HTML文档,提供了强大的功能来抓取和解析网页内容。在本项目中,"网页正文提取 jsoup实现"是通过编写一个名为"linklist.java"的程序来完成的,它具有用户界面,并且利用了...