- 浏览: 1279647 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class jsOup { private String getCssFun(String selector) { char[] ch = selector.toCharArray(); boolean bool = false; // 默认没有找到CSS_FUN元素 String findFun = null; // 找到CSS_FUN元素下标 for (int i = 0; i < ch.length && ch.length > 5 && !bool; i++) { if (ch[i] == ':') { if (ch[i + 1] == 'e' && ch[i + 2] == 'q' && ch[i + 3] == '(') { // 找到:eq( findFun = ":eq("; bool = true; } else if (ch[i + 1] == 'g' && ch[i + 2] == 't' && ch[i + 3] == '(') { // 找到:gt( findFun = ":gt("; bool = true; } else if (ch[i + 1] == 'l' && ch[i + 2] == 't' && ch[i + 3] == '(') { // 找到:lt( findFun = ":lt("; bool = true; } } } return findFun; } /** * 从父级元素中获取指定选择表达式的元素集合。 考虑情况: 多个EQ,多个LT,多个GT的情况,还有日后增加一个办法 * * @param selector * 选择表达式 * @param elements * parentElement * @return 返回符合选择表达式的元素集合。 */ public Elements getElements(String selector, Elements parentElement) throws Exception { if (selector == null || selector.length() == 0) { return parentElement; } if (parentElement == null) { return parentElement; } selector = selector.trim(); String findFun = getCssFun(selector); if (findFun == null) { // 已经找不到CSS_FUN元素 return parentElement.select(selector); } else { int cssFunIndex = selector.indexOf(findFun); String first = selector.substring(0, cssFunIndex); // 获取(EQ|GT|LT)前面的字符串 String center = selector.substring(cssFunIndex + findFun.length(), selector.length()); String end = center.substring(center.indexOf(")") + 1, center.length()); // 获取EQ后面的字符串 String cssFunNum = center.substring(0, center.indexOf(")")); if (first.length() != 0) { parentElement = parentElement.select(first); } if (findFun.equals(":eq(")) { parentElement = parentElement.eq(Integer.parseInt(cssFunNum)); } else if (findFun.equals(":lt(")) { parentElement = new Elements(parentElement.subList(0, Integer.parseInt(cssFunNum))); } else if (findFun.equals(":gt(")) { parentElement = new Elements(parentElement.subList( Integer.parseInt(cssFunNum), parentElement.size())); } if (end.length() == 0) { // 处于最后,selector设置为null selector = null; } else { // CSS_FUN元素不处于最后 selector = end; } return getElements(selector, parentElement); } } public void test() { Document doc; try { String url = "http://club.history.sina.com.cn/viewthread.php?tid=5483877&sudaref=bbs.sina.com.cn&retcode=0"; url = "http://www.agrilink.cn/"; doc = Jsoup.connect(url).get(); String query = "div.myInfo_up:lt(1)"; query = "div.myInfo_up:lt(3):lt(1)"; query = "div.myInfo_up:lt(3):gt(1)"; query = "div.myInfo_up:lt(3):gt(2) a"; query = "div.myInfo_up:lt(3):gt(2) a:eq(1)"; Elements newsHeadlines = getElements(query, doc.select("html"));// getString(query, // doc);// // doc.select(query);// doc.select("div.myInfo_up:eq(0)").select("font"); int i = 0; for (Element element : newsHeadlines) { System.out.println("div=" + element.html()); System.out.println("------------" + (i++) + "----------" + element.id()); } } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } public static void main(String args[]) { jsOup jsOup = new jsOup(); jsOup.test(); } }
发表评论
-
tomcat was unable to start within 45 seconds
2013-11-11 15:59 844原因一: -
Apache Commons Lang
2013-10-15 12:10 3172ArrayUtils public class Tes ... -
htmlunit form
2013-06-25 11:13 933Form提交 对于WEB应用,有着大量的表单,所以Html ... -
QQ微博登录步骤
2013-05-28 12:14 0QQ微博登录步骤: 1、验证帐号时,会访问一个地址。如下: ... -
java 加密解密
2013-05-21 23:00 851import java.security.InvalidKey ... -
freemarket 对象应用篇(一)
2013-05-19 18:18 1053freemarket应用. 1.1:创建web工程testF ... -
中文数字转阿拉伯数字
2012-11-30 14:24 1807/** * @author loiy * ... -
标记:伪原创标题思路
2012-01-11 16:34 1305采用填词的办法进行伪 ... -
用JSmooth制作java jar文件的可执行exe文件教程(图文)
2012-01-05 01:09 8202下载完程序之后,运行 jsmoothgen.exe 1.进入“ ... -
多线程 Java.util.ConcurrentModificationException异常
2011-12-29 13:43 1535Iterator<Entry<String,B ... -
java 反序列化 抛出EOFException
2011-12-19 17:21 2265抛出这样的异常,一般情况下,是因为业务逻辑的问题。 如: 在没 ... -
一键安装双击运行——Java安装程序制作
2011-12-09 02:39 1337对于Java桌面应用来说,比较烦琐的就是安装部署问题,如:客户 ... -
只针对中英文混合分词的中文分词器
2011-12-02 17:28 4881该版本说明 1、只针对中英文混合分词 需要一些中文和英文连在 ... -
Java开源运行分析工具
2011-11-15 15:10 1891FProfiler FProfiler是一个非常快的Java ... -
cwss 按照指定的字符进行切词
2011-11-15 09:37 1247cwss 按照指定的字符进行切词 在 Utility.SEPE ... -
cwss bug 修复
2011-11-07 09:50 894修复的BUG有如下: 1、当只有中文、字母和数字,没有任何其他 ... -
java 怎么读取细胞词库scel
2011-10-24 14:28 3133private void sogou(String pa ... -
今天遇到一个奇怪的问题
2011-04-28 11:55 1194想实现一个用户访问页面,得到用户的外网地址 在公司上。程序是没 ... -
在myeclipse6.5下统一全部JSP编码更改
2011-04-07 14:47 1468在平时我们新建一个JSP页面默认编码是"ISO885 ... -
pushlet 资料
2011-03-21 19:03 996标记一下!
相关推荐
**Jsoup API 深入解析** Jsoup 是一个用于处理和解析HTML的Java库,它提供了强大的功能,使得在Java程序中操作HTML文档变得简单而直观。在Jsoup 1.10.2版本中,这个API进一步优化了对HTML的处理能力,提供了丰富的...
Jsoup 提供 DOM 风格的方法(如 `getElementById()`, `getElementsByTag()`, `select(String cssQuery)` 等)来遍历 Document 对象并抽取所需数据。例如,你可以通过 CSS 选择器选取元素,然后提取它们的属性、文本...
jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jarjsoup-...
**JSoup:Java的网页抓取与解析库** JSoup是一个用Java编写的开源库,专为处理HTML文档而设计。它提供了丰富的API,使得开发者能够轻松地抓取、解析和操作网页内容。JSoup的核心功能包括从网络或本地文件系统获取...
赠送jar包:jsoup-1.14.3.jar; 赠送原API文档:jsoup-1.14.3-javadoc.jar; 赠送源代码:jsoup-1.14.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API...
**jsoup库详解** jsoup是一个Java库,用于处理实际世界中的HTML。它提供了一种易于使用的API,用于提取和操作数据,具有浏览器一样的解析和筛选能力。在Java爬虫领域,jsoup扮演着至关重要的角色,使得开发者能够...
`jsoup-1.11.3-javadoc.jar`包含了该版本的API文档,方便开发者查阅和理解每个方法的功能和用法,而`jsoup-1.11.3-sources.jar`则包含源代码,对于学习和调试Jsoup的内部实现非常有帮助。 Jsoup 的核心功能主要包括...
**使用Jsoup获取网页内容并修改** Jsoup是一款强大的Java库,它允许开发者方便地解析、操作和提取HTML内容。在Android开发中,Jsoup常用于网页数据抓取和页面内容的处理。以下将详细解释如何使用Jsoup来实现这个...
**Jsoup.jar 包及说明文档** Jsoup是一款在Java平台上广泛使用的HTML解析库,它的主要功能是解析HTML文档,并提供了强大的数据提取和操作能力。Jsoup的核心特性在于其能够模拟浏览器的行为,对HTML进行理解和解析,...
这两个库在Java开发中都有着广泛的应用,例如,IText常用于报表生成、文档自动化处理,而Jsoup则常见于网页抓取、数据解析以及网页内容的提取。将它们引入项目,可以极大地提高处理文本和文档的效率。在Java环境中,...
Jsoup的核心功能包括: 1. HTML解析:Jsoup能够解析各种各样的HTML源码,无论是干净的结构化HTML还是充满乱七八糟标签的真实网页。它能处理HTML5和HTML4,甚至一些常见的错误格式也能被正确解析。 2. DOM操作:...
**Jsoup网络爬虫项目详解** Jsoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于提取和操作数据,遵循DOM、CSS以及jQuery选择器。这个项目是基于Jsoup来实现的网络爬虫,非常适合初学者...
Jsoup在Web抓取、数据分析和网页爬虫项目中广泛应用。本文将深入探讨Jsoup 1.5.2和1.6这两个版本的主要特性、变化以及如何在项目中使用它们。 首先,让我们了解Jsoup的基本功能。Jsoup的核心功能包括: 1. **HTML...
在jsoup 1.6.1版本中,我们可以看到这个库已经相当成熟,提供了丰富的功能和优化。以下是一些关于jsoup的关键知识点: 1. **HTML解析**:jsoup的核心能力在于它强大的HTML解析机制。它使用了名为"Jsoup Parser"的...
Jsoup模仿了DOM解析器的工作方式,但同时也考虑到了性能和易用性,使得在Java中处理网页内容变得更加方便。其主要功能包括: 1. HTML解析:Jsoup可以解析HTML字符串或者从URL加载HTML,生成一个可操作的DOM树。 2. ...
**Jsoup详解** Jsoup(https://jsoup.org/)是一个Java库,设计用于处理真实世界的HTML。它提供了非常方便的API,用于抓取和解析数据,提取结构化信息,并修正不规范的HTML。Jsoup的主要特点包括: 1. **HTML解析*...
1. `jsoup.jar`:Jsoup的主要库文件,包含了所有的类和方法,导入此文件即可在项目中使用Jsoup。 2. `README.md`或`README.txt`:文件说明,介绍如何使用Jsoup以及可能的注意事项。 3. `LICENSE`:Jsoup的许可协议,...
**SpringBoot+Jsoup爬虫详解** 在现代Web开发中,数据抓取(或称爬虫)是一项重要的技能,尤其对于数据分析、市场研究和自动化任务。SpringBoot与Jsoup的结合提供了一个高效、灵活的解决方案来实现这个目标。本文将...
Jsoup的主要功能 1)从一个URL,文件或字符串中解析HTML 2)使用DOM或CSS选择器来查找、取出数据 3)可操作HTML元素、属性、文本 注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。 Jsoup的主要功能 1)...
本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据。 ### Java爬虫基础 Java爬虫是指使用Java语言编写的一类程序,这些程序...