- 浏览: 692646 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (181)
- Matlab (16)
- Java (26)
- autoHotkey (4)
- openCV (1)
- C++ (50)
- PDF-XChange Viewer (2)
- 学术 (11)
- javascript (4)
- linux (11)
- SWT (9)
- latex (7)
- GAE (2)
- windows (6)
- C# (3)
- PS (20)
- JNI (4)
- latex,批处理 (0)
- 批处理 (4)
- Android (5)
- 矩阵论 (1)
- SVM (1)
- 概率图模型 (0)
- Python (12)
- Eigen (5)
- 编程题 (1)
- MKL (1)
- 神经网络 (9)
- 最优化 (2)
- 摄影 (1)
- PPT (0)
- After Effects (3)
- CUDA (3)
- caffe (0)
- MXNet (2)
- svn (1)
- R (0)
- 虚拟机 (0)
- tensorflow (7)
- theano (1)
- Keras (1)
- vim (1)
- xgboost (1)
- spark (6)
- eclipse (2)
- word2vec (0)
- hadoop (1)
- dmlc (1)
- git (0)
最新评论
-
jeffersonz:
请问大神,这个插件记录下来的脚本为什么不能再Extendscr ...
PhotoShop - 记录PS的所有操作为JavaScript代码 -
cherishLC:
Andy__Zou 写道cherishLC 写道Andy__Z ...
Eigen的编译选项;MKL的使用 -
Andy__Zou:
cherishLC 写道Andy__Zou 写道cherish ...
Eigen的编译选项;MKL的使用 -
cherishLC:
Andy__Zou 写道cherishLC 写道Andy__Z ...
Eigen的编译选项;MKL的使用 -
Andy__Zou:
cherishLC 写道Andy__Zou 写道 您好,您的工 ...
Eigen的编译选项;MKL的使用
之前用过HTMLParser,许久不更新的东西了,印象中也没那么好用。
今天重新搜索了一下,发现jsoup很容易上手~选择器很好很强大。
支持DOM和选择器两种模式
1、下载
jsoup的网站很简洁:http://jsoup.org/
入门做的很不错:http://jsoup.org/cookbook/
2、简单的例子
以下示例用于抓取iteye首页的新闻及连接,共使用了3种方式获取元素:
输出如下:
。。。好多重复的链接啊!!!将选择器重的代码改为:
使得只选择的链接为dt标签的直接子类即可去掉[详情]项,更多选项如后文所示。
3、选择器字符串的语法
这里有实例介绍:http://jsoup.org/cookbook/extracting-data/selector-syntax
用法详解:http://jsoup.org/apidocs/org/jsoup/select/Selector.html
下图是从上面的网址抠出来的:
4、在线文档
http://jsoup.org/apidocs/
今天重新搜索了一下,发现jsoup很容易上手~选择器很好很强大。
支持DOM和选择器两种模式
1、下载
jsoup的网站很简洁:http://jsoup.org/
入门做的很不错:http://jsoup.org/cookbook/
2、简单的例子
以下示例用于抓取iteye首页的新闻及连接,共使用了3种方式获取元素:
选择器 |
用组件的Id |
用组件的class |
package tests; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class EgParseItEyeNews { public static void main(String[] args) throws IOException { String url = "http://www.iteye.com/"; // 不加userAgent会被视为爬虫。。。。。 Document doc = Jsoup.connect(url) .userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1 ") .get(); // Element news = doc.getElementById("news"); //1、通过ID Elements newsConents=doc.getElementsByClass("news_content");//2、通过class Element news=newsConents.first(); if (news == null) System.out.println(doc); else { // System.out.println(news); // System.out.println("end of news****************\n"); Elements elems = news.select("a"); // 3、通过选择器 , 把链接都提取出来 for (Element element : elems) { System.out.println(element.text() + " \t链接为:" + element.attr("href")); } } } }
输出如下:
- 轻量级JavaWeb开发框架EWeb4J作者赖伟威专访 链接为:http://www.iteye.com/magazines/105
- [详情] 链接为:http://www.iteye.com/magazines/105
- 12月TIOBE编程语言排行榜:年度语言非ObjC莫属 链接为:http://www.iteye.com/news/26673
- [详情] 链接为:http://www.iteye.com/news/26673
- JDK6明年2月停止更新,甲骨文呼吁尽快升级至7 链接为:http://www.iteye.com/news/26683
- [详情] 链接为:http://www.iteye.com/news/26683
。。。好多重复的链接啊!!!将选择器重的代码改为:
Elements elems = news.select("dt>a"); // 3、通过选择器 , 把链接都提取出来
使得只选择的链接为dt标签的直接子类即可去掉[详情]项,更多选项如后文所示。
3、选择器字符串的语法
这里有实例介绍:http://jsoup.org/cookbook/extracting-data/selector-syntax
用法详解:http://jsoup.org/apidocs/org/jsoup/select/Selector.html
下图是从上面的网址抠出来的:
4、在线文档
http://jsoup.org/apidocs/
发表评论
-
lambda表达式
2014-08-20 21:47 1909仅作备忘,要学习还是看给的链接吧 1、C++ 中文介绍:htt ... -
利用Doxygen生成C++、Java文档
2013-04-08 16:15 4475示例程序、配置文件及doxygen常见参数文字版参见本文附件 ... -
删除citeulike导出的bib文件中的中文字符,使之能在WinEdt中读取
2012-12-06 18:57 1816在使用Citeulikehttp://citeulike.or ... -
JNI中基本类型数组的传递方法(无需拷贝数据!!!)
2012-10-23 17:11 183780、先来看一下主要用到哪些函数: GetIntArrayEle ... -
swig--在java、C#中调用c++写的DLL(以vs2012配置为例)
2012-10-02 22:06 72421、下载、安装: 到http://www.swig.org/d ... -
GAE学习笔记——静态文件、资源文件;GAE中使用velocity模板
2012-07-13 21:49 1456参考资料:https://developers.google. ... -
Google application engine 的Eclipse配置方法
2012-07-11 19:52 15971、安装google的eclipse插件 到https://d ... -
javadoc命令
2012-04-06 14:54 1392以下内容引用自(原文更全):http://hi.baidu.c ... -
java7文件夹监控
2012-04-04 11:23 2970java7的文件夹监控真是太烂了,折腾了一天,封装的差不多了, ... -
SWT学习笔记——JFace中TableViewer的使用及注意事项
2012-04-01 15:26 3450问题: 1、使用CellEditor ... -
SWT学习笔记——JFace中TableViewer的使用及注意事项
2012-04-01 14:52 0问题: 1、使用CellEditor时出现org.eclips ... -
SWT学习笔记——SWT、JFace的配置(含源代码、javadoc的获取)
2012-04-01 14:08 2470具体的可以看官方的http://wiki.eclipse.or ... -
SWT学习笔记7——组件背景图片,鼠标事件,鼠标样式
2012-03-31 11:00 3710import org.eclipse.swt.grap ... -
SWT学习笔记6——Shell相关的事件
2012-03-31 10:23 1558这里有详细的事件列表:http://blog.csdn.net ... -
SWT学习笔记5——简易的多标签文本编辑器
2012-03-30 22:18 2283import java.io.BufferedRead ... -
SWT学习笔记4——系统托盘 system tray
2012-03-30 15:59 1593import org.eclipse.swt.widg ... -
SWT学习笔记3——颜色、字体、图片
2012-03-30 09:41 5888import org.eclipse.swt.gra ... -
SWT笔记2——测试UI线程的事件处理
2012-03-29 21:36 1410import org.eclipse.swt.widg ... -
SWT笔记1,组件的关系,屏幕信息
2012-03-29 21:20 1429import org.eclipse.swt.widg ... -
Linux JDK安装
2012-01-14 09:41 0引用 安装linux后会自动安装一个低版本的JDK,有时需要升 ...
相关推荐
综上所述,JSoup作为一款强大的HTML处理工具,无论是解析、提取还是操作HTML内容,都展现出了其高效和易用性,尤其适合于那些需要处理和分析网页内容的项目。在HTMLParser不再活跃的情况下,JSoup无疑是开发者的一个...
1. **数据抓取**:Jsoup可以轻松抓取网页上的结构化数据,如商品价格、评论等,用于数据分析或构建应用。 2. **网站验证**:在自动化测试中,Jsoup可以帮助验证HTML元素是否按预期显示或交互。 3. **内容过滤**:...
HttpClient和Jsoup是两个Java库,分别专注于HTTP通信和HTML解析,它们常被组合使用来高效地抓取网页数据。下面我们将详细探讨这两个库及其在网页抓取中的应用。 HttpClient是由Apache软件基金会开发的一个库,主要...
在网页分析领域,Jsoup是一个非常实用的工具,尤其对于那些需要从网站获取结构化数据或者进行爬虫开发的项目。 Jsoup的核心功能包括: 1. **HTML解析**:Jsoup可以解析HTML文档,将其转化为一个复杂的DOM树结构,...
在IT行业中,网络数据抓取是一项重要的技能,它允许开发者获取并分析网页上的信息,以进行各种用途,如数据分析、网站监控或者构建自己的应用程序。在这个主题中,我们将深入探讨两个关键概念:Http协议和Jsoup库,...
JSoup允许开发者通过CSS选择器来定位HTML元素,这与我们在网页设计时使用的CSS选择器是一样的。例如,新闻正文通常位于一个特定的`<div>`标签内,可能带有特定的类名或者ID。我们可以通过`select()`方法选取这些元素...
以下是关于如何使用Java+Jsoup抓取网页数据的详细讲解。 首先,你需要了解HTML的基础结构,因为Jsoup的工作原理是解析HTML文档并提供类似于DOM的API来操作这些文档。HTML是由标签组成的树形结构,每个标签都有属性...
本教程将深入探讨如何使用Jsoup有效地从网页中提取信息,并最终将其转化为JSON格式,为数据分析或应用程序接口(API)提供便利。 ### 1. Jsoup简介 Jsoup是由Jesse Wilson创建的一个开源项目,它的核心功能是解析...
在网页爬虫领域,jsoup尤其适用于抓取和分析结构化的HTML内容。 在进行分页爬取网页时,通常涉及到以下几个关键知识点: 1. **URL构造与导航**:首先,我们需要了解如何构建正确的URL来获取不同页面的数据。分页...
jsoup能够帮助开发者有效地解析网页内容,提取关键信息,尤其是网页正文,这对于新闻聚合、搜索引擎优化(SEO)以及数据分析等领域至关重要。本文将深入探讨jsoup库的功能特性,并演示如何利用它来获取网页正文。 ...
在这个案例中,我们将探讨如何使用Java的Jsoup库来实现一个简单的网页爬虫。Jsoup是一个强大的库,专为处理真实世界的HTML而设计,它提供了非常方便的方法来解析、查找和修改HTML文档。这个案例主要针对初级到中级的...
**jsoup库详解** 在Java世界中,处理HTML文档...通过学习和实践,你可以高效地抓取、解析和操作网页数据,为数据分析、爬虫开发等任务提供便利。在实际项目中,结合jsoup与其他Java库,可以实现更复杂的网页处理需求。
本文将详细介绍如何在Android环境中使用Jsoup进行网页爬虫的实践。 首先,我们需要在Android项目中添加Jsoup依赖。在`build.gradle(Module)`文件中添加以下依赖: ```groovy dependencies { implementation 'org....
通过分析网页源码,我们可以找到特定数据所在的HTML标签和类名。jsoup的CSS选择器功能强大,可以精确地定位这些元素,如`#newsTitle`选择ID为"newsTitle"的元素,`.news-content`选择所有class为"news-content"的...
**Jsoup解析与使用** Jsoup是一款非常实用的Java库,专为网页抓取和解析而设计。它提供了丰富的API,使得开发者可以方便地提取结构化数据,类似于浏览器执行JavaScript的方式,但更专注于HTML文档的处理。Jsoup的...
在这个项目中,我们使用Jsoup配合Java,实现了抓取整个网站的功能,包括其中的图片、CSS样式表和JavaScript文件。通过这样的工具,我们可以对网页进行离线浏览或者备份,甚至进行数据分析。 首先,我们要理解Jsoup...
### jsoup对网页的解析:深入理解与应用 在当今数据驱动的世界中,网页解析是...掌握`jsoup`的使用,不仅能够提高数据抓取的效率,还能增强对网页结构的理解,是任何从事Web开发或数据分析工作的人士都应掌握的技能。
通过熟练掌握jsoup库,我们可以快速实现对特定网页的定制化抓取,例如在新浪高尔夫频道的例子中,提取新闻信息并进行分析或存档。此外,jsoup还提供了多种高级功能,满足了多样化的网页解析需求,使得开发者可以更...
**Jsoup:网页抓取与解析利器** Jsoup是一个用于处理实际世界HTML的Java库。它提供了非常方便的API,用于提取和操作...这是一个非常有用的技能,无论是在数据分析、搜索引擎优化还是网页自动化测试中都有广泛的应用。
总结来说,jsoup和jdid的结合使用,为开发者提供了一种有效的方式去解析和操作网页的动态内容,尤其是在Windows环境下,可以实现与firebug类似的开发和调试功能。这对于网页数据的抓取、分析,以及自动化测试等领域...