- 浏览: 1547202 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (525)
- SEO (16)
- JAVA-EE-Hibernate (6)
- JAVA-EE-Struts (29)
- JAVA-EE-Spring (15)
- Linux (37)
- JAVA-SE (29)
- NetWork (1)
- CMS (14)
- Semantic Research (3)
- RIA-Flex (0)
- Ajax-Extjs (4)
- Ajax-Jquery (1)
- www.godaddy.com (0)
- SSH (34)
- JavaScript (6)
- SoftwareEngineer (9)
- CMMI (0)
- IDE-Myeclipse (3)
- PHP (1)
- Algorithm (3)
- C/C++ (18)
- Concept&Items (2)
- Useful WebSite (1)
- ApacheServer (2)
- CodeReading (1)
- Socket (2)
- UML (10)
- PowerDesigner (1)
- Repository (19)
- MySQL (3)
- SqlServer (0)
- Society (1)
- Tomcat (7)
- WebService (5)
- JBoss (1)
- FCKeditor (1)
- PS/DW/CD/FW (0)
- DesignPattern (11)
- WebSite_Security (1)
- WordPress (5)
- WebConstruction (3)
- XML|XSD (7)
- Android (0)
- Project-In-Action (9)
- DatabaseDesign (3)
- taglib (7)
- DIV+CSS (10)
- Silverlight (52)
- JSON (7)
- VC++ (8)
- C# (8)
- LINQ (1)
- WCF&SOA (5)
- .NET (20)
- SOA (1)
- Mashup (2)
- RegEx (6)
- Psychology (5)
- Stock (1)
- Google (2)
- Interview (4)
- HTML5 (1)
- Marketing (4)
- Vaadin (2)
- Agile (2)
- Apache-common (6)
- ANTLR (0)
- REST (1)
- HtmlAnalysis (18)
- csv-export (3)
- Nucth (3)
- Xpath (1)
- Velocity (6)
- ASP.NET (9)
- Product (2)
- CSS (1)
最新评论
-
lt26w:
理解成门面模式应该比较容易明白吧
FacadePattern-Java代码实例讲解 -
lt26w:
看下面的例子比较明白.
FacadePattern-Java代码实例讲解 -
javaloverkehui:
这也叫文档,别逗我行吗,也就自己看看。
HtmlCleaner API -
SE_XiaoFeng:
至少也应该写个注释吧。
HtmlCleaner API -
jfzshandong:
...
org.springframework.web.filter.CharacterEncodingFilter 配置
文章分类:Java编程
HtmlCleaner cleaner = new HtmlCleaner(); TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157077895.shtml")); //按tag取. Object[] ns = node.getElementsByName("title", true); //标题 if(ns.length > 0) { System.out.println("title="+((TagNode)ns[0]).getText()); } // /html/body/div[2]/div[4]/div/div/div/div[2]/p ns = node.evaluateXPath("//div[@class=\"blkContainerSblkCon\"]/p"); //选取class为指定blkContainerSblkCon的div下面的所有p标签 for (int i = 0; i < ns.length; i++) { String in = cleaner.getInnerHtml((TagNode)ns[i]); System.out.println("<p>"+in + "</p>"); } String in = cleaner.getInnerHtml((TagNode)ns[0]); System.out.println(in); System.out.println(((TagNode)ns[0]).getText());
HtmlCleaner cleaner = new HtmlCleaner(); String url = "http://finance.sina.com.cn/nmetal/hjfx.html"; URL _url = new URL(url); TagNode node = cleaner.clean(_url); //按tag取. Object[] ns = node.getElementsByName("title", true); //标题 if(ns.length > 0) { System.out.println("title="+((TagNode)ns[0]).getText()); } ns = node.evaluateXPath("//*[@class='Frame-Row3-01-C']/table[2]/tbody/tr/td/a"); //选取class为指定blkContainerSblkCon的div下面的所有p for (int i = 0; i < ns.length; i++) { //取链接文本 // String in = cleaner.getInnerHtml((TagNode)ns[i]); // System.out.println(in); //获取链接的 TagNode n = (TagNode) ns[i]; // System.out.println(n.getAttributeByName("href")); System.out.println(new URL(_url,n.getAttributeByName("href")).toString()); } // String in = cleaner.getInnerHtml((TagNode)ns[0]); // System.out.println(in); // System.out.println(((TagNode)ns[0]).getText()); // System.out.println("ul/li:"); // //按xpath取 // ns = node.evaluateXPath("//div[@class='d_1']//li"); // for(Object on : ns) { // TagNode n = (TagNode) on; // System.out.println("\ttext="+n.getText()); // } // System.out.println("a:"); // //按属性值取 // ns = node.getElementsByAttValue("name", "my_href", true, true); // for(Object on : ns) { // TagNode n = (TagNode) on; // System.out.println("\thref="+n.getAttributeByName("href")+", text="+n.getText()); // }
XPath文档:http://www.w3school.com.cn/xpath/xpath_syntax.asp
发表评论
-
htmlunit 示例
2010-08-20 18:40 4379先下载依赖的相关JAR包:http://sourcefor ... -
HTMLParser的两种使用方法
2010-04-15 16:37 5419HTMLParser的两种使用方法 ... -
基于Htmlparser的天气预报程序(续)
2010-04-14 13:53 1109zz:http://www.iteye.com/topic/6 ... -
httpclient(校内网)
2010-04-13 15:10 1333Java code <!-- C ... -
httpclient(校内网)
2010-04-13 15:10 1445httpclient(校内网),大家帮忙看看我的 http ... -
HTTPClient模拟登陆人人网
2010-04-13 14:58 1921zz: 目的: http://www.iteye. ... -
HtmlCleaner API
2010-04-13 13:40 4543HtmlCleaner API Create cleaner ... -
htmlcleaner惯用法
2010-04-13 13:39 1488Common usage Tipically the f ... -
htmlcleaner惯用法
2010-04-13 13:39 1557Common usage Tipically t ... -
htmlcleaner 使用示例.
2010-04-13 13:10 10067原文出处:http://blog.chenlb.com/200 ... -
http://htmlparser.com.cn/
2010-04-12 16:20 1073http://htmlparser.com.cn/ ... -
开源网络蜘蛛spider(转载)
2010-04-12 15:42 1357spider是搜索引擎的必须 ... -
基于Spindle的增强HTTP Spider
2010-04-12 15:33 1500zz:http://www.iteye.com/news ... -
Cobra: Java HTML 解析器
2010-04-12 15:32 2979Cobra 简介: Cobra是一个 ... -
用htmlparser分析并抽取正文
2010-04-12 15:26 1571我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能 ... -
HtmlParser初步研究
2010-04-12 15:18 952目的是快速入手,而不 ... -
基于Htmlparser的天气预报程序
2010-04-12 15:16 1094htmlparser是一个纯的java写的html解析的库,它 ...
相关推荐
2. 在`startElement`方法中,我们可以使用XPath表达式来判断当前元素是否是我们关心的。如果匹配,我们可以进行相应的处理。 3. 由于SAX不支持直接的XPath查询,我们需要先将元素的信息存储起来,比如在解析过程中...
**DOM4J中XPath用法详解** XPath,全称为XML Path Language,是一种在XML文档中查找信息的语言。它被设计用来方便地选取XML文档中的节点,包括元素、属性、文本等。DOM4J是一个非常流行的Java XML API,它提供了一...
### XPath 使用方法详解 #### 一、XPath简介 XPath 是一门专门用于在 XML 文档中查找信息的语言。它能够帮助用户有效地浏览 XML 文档结构,并从中抽取特定数据。XPath 的重要性不仅体现在其本身的功能上,还在于它...
3. **正则表达式辅助**:虽然XPath主要用于选取XML或HTML节点,但XPath Helper可能也支持结合正则表达式进行数据提取,这在处理复杂或不规则的数据格式时尤其有用。 4. **消息中间件集成**:在大型项目中,数据抓取...
本篇文章将深入探讨如何使用Dom4j,一个流行的Java库,结合XPath来解析XML文件中的路径表达式,同时阐述相对路径和绝对路径的匹配原则。 首先,我们要了解Dom4j库。Dom4j是一个灵活且高效的处理XML的Java库,它提供...
在这个"scrapy-xpath-示例用法.py"文件中,我们可以期待看到一系列关于如何在Scrapy项目中使用XPath的实例。 1. **XPath基本语法** - `/`:根节点选择器,表示从文档根部开始。 - `//`:任意深度选择器,用于选取...
本文将深入探讨JDOM库中XPath的相关方法——`selectNodes()`和`selectSingleNode()`,以及它们的用法。 首先,我们来理解JDOM的基本概念。JDOM是Java Document Object Model的缩写,它提供了一种基于Java的API来...
XPath,全称XML Path Language,是一种在XML文档中查找信息的语言。它被设计用来选取XML文档中的节点,如元素、...在实际项目中,XPath与其他XML技术(如XSLT、XQuery)结合使用,可以实现更为复杂的数据操作和转换。
XPath(XML Path Language)是一种在XML文档中查找信息的语言,它是W3C组织制定的一种标准查询...C#作为.NET框架的主要编程语言,提供了丰富的XML处理支持,结合这个XPath生成器,可以更好地进行XML相关的开发工作。
XPathHelper_2.0.2.zip 是一个包含XPath Helper Chrome扩展程序的压缩文件,版本为2.0.2。XPath Helper是一款非常实用的...熟悉XPath的使用,结合XPath Helper这样的工具,可以帮助开发者更有效地处理XML和HTML数据。
C#中,可以利用`XmlNode.SelectSingleNode()`方法找到指定的XPath路径,或者`XmlNode.SelectNodes()`方法获取所有匹配的节点。 3. **XPath表达式构建**:在获取到用户选择的元素后,小工具需要根据DOM结构自动生成...
总的来说,XPath和lxml是Python爬虫开发中的关键工具,它们的结合使用能够有效地解析和抽取网页数据。而"xpath-helper.crx"这个扩展程序则是开发过程中的一大利器,它提高了开发者的工作效率,降低了调试难度,使得...
在DEMO中,开发者可能已经提供了详细的注释,解释了代码的工作原理和XPath表达式的使用方法。 总结来说,"xpathDemo.zip"是一个关于使用JDOM和XPath处理XML文档的实例。通过学习和运行这个DEMO,你可以深入了解如何...
XPath Helper的使用方法包括: 1. 安装与启用:首先,用户需要将"2019chromecj.com.crx"文件拖拽到Chrome浏览器的扩展管理页面进行安装。安装完成后,会在浏览器的右上角看到XPath Helper的图标,点击即可启用。 2...
Selenium WebDriver 中使用 By.Xpath 快速定位页面元素 Selenium WebDriver 是一个...同时,By.Xpath 也可以与其他定位方法结合使用,例如 By.Id、By.Name、By.ClassName 等,从而实现更加灵活和强大的自动化测试。
在XSL中,XPath常与模板匹配结合使用,通过选取特定的XML节点并应用样式规则进行转换。例如,以下XSL模板使用XPath选取所有“price”元素,并将其格式化: ```xml 价格: ``` 此外,XPath还可以在其他XML...
XPath Helper是一款专为谷歌浏览器设计的插件,它极大地简化了网页抓取和解析过程,尤其对于使用XPath语法来定位HTML元素的用户来说,这款工具是不可或缺的助手。XPath(XML Path Language)是一种在XML文档中查找...
总的来说,XPath Helper 2.0.2是一个强大的辅助工具,它为处理网页内容提供了一个直观且高效的途径,尤其对于那些需要频繁使用XPath的用户来说,这款插件无疑是提高工作效率的一大利器。无论是进行网页开发、测试...
通过上述知识点,结合提供的实例,读者可以逐步掌握XPath的使用,实现高效地在XML文档中导航和提取数据。在“XPath指南”的22个实例中,每个实例都将涵盖上述的一个或多个知识点,通过实践加深理解。这些实例涵盖了...
Xpath生成器,可以通过输入的文件,进行匹配,生成全部可用的Xpath,犹豫HTML中部分标签允许无结束,如:("LINK" ,"META","SCRIPT","IMG" ,"INPUT", "FORM")故已经被忽略,如有朋友发现其中有问题,请告诉我哦...