HtmlParser初探--使用Nodefilter和Visitor进行网页分析

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 14437 次

锁定老帖子主题：HtmlParser初探--使用Nodefilter和Visitor进行网页分析精华帖 (0) :: 良好帖 (0) :: 新手帖 (1) :: 隐藏帖 (0)
作者	正文
yongtree 等级: 性别: 文章: 86 积分: 110 来自: 青岛	发表时间：2007-10-23 相关推荐: 运动控制领域8轴插补运动控制源码：双DMA实现高频率脉冲输出与加减速控制 2303040222橡胶232熊文栋（苯乙烯悬浮聚合）副本.pdf 音乐喷泉控制系统设计：基于Altium Designer的原理图与代码实现汽车主动悬架系统参数仿真与控制算法解析 Operating System 实验五进程管理编程实验更多相关推荐最近在做html页面转化成jsf页面的工作，尝试过使用正则表达式、dom4j等方法，都没有取得很好的结果。（html-->jsf会另写一篇文章进行讨论）现在在使用htmlparser对html进行解析，对于html页面的解析htmlparser是一个功能比较强大的工具（相关下载：http://sourceforge.net/projects/htmlparser/）。以下是经常使用的对页面解析的两种方法，简单的总结了这两种方法的实现步骤，希望在这里抛砖引玉，有这方面编程经验的们，能参与讨论，怎样用它来进行html-->jsf的转换。一、利用NodeFilter对网页进行分析 1、生成一个Parser a.通过url提取网络上的网页 Parser parser = new Parser(); parser.setURL("http://www.yahoo.com.cn"); b.提取本地网页文件通过读文件把网页文件转化成字符串； Parser parser=Parser.createParser(html,charset); 2、利用NodeFilter做一个filter a.利用Tag Name NodeFilter filter=new TagNameFilter("IMG"); b.利用Tag Class NodeFilter filter = new NodeClassFilter(ImageTag.class); 3、通过匹配filter，得到所有符合条件的Tag NodeList list=parser.extractAllNodesThat(filter); for(int i=0;i String content=list.elementAt(i).toHtml();//得到符合条件的Tag内容如果针对具体情况进行更加详细的处理，则： ImageTag imageTag=(ImageTag)list.elementAt(i); ………… } 然后根据需要做相应的处理。二、利用Visitor对网页进行分析 1、生成一个Parser a.通过url提取网络上的网页 Parser parser = new Parser(); parser.setURL("http://www.yahoo.com.cn"); b.提取本地网页文件通过读文件把网页文件转化成字符串； Parser parser=Parser.createParser(html,charset); 2、用visitor访问页面 ex：ObjectFindingVisitor visitor=new ObjectFindingVisitor(); parser.visitAllNodesWith(visitor); 3、通过特定的visitor得到符合条件的Tag Node[] nodes=visitor.getTags(); for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i]; ………… //根据需要做特定处理 } 相关文章：http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

water84222 等级: 初级会员性别: 文章: 151 积分: 10 来自: 大连	发表时间：2008-04-17 请问一下，怎样将修改过得html保存到文件中 code如下 parser = new Parser(getContentByLocalFile(file)); NodeFilter nt = new NodeClassFilter(ImageTag.class) ; NodeList tmpImageList = (NodeList) parser.parse(nt); /linkTmpHash = new Hashtable(); for (int i = 0; i < length; i++) { Element tmpElement = (Element) tmpNodeList.item(i); String href = tmpElement.getAttribute("href"); if (href != null && !href.equals("")) { linkTmpHash.put(href, ""); } } data.setHrefs((String[]) linkTmpHash.keySet().toArray(new String[linkTmpHash.size()]));/ BufferedWriter writer = new BufferedWriter(new OutputStreamWriter (new FileOutputStream (file))); linkTmpHash = new Hashtable(); for (int i = 0; i < tmpImageList.size(); i++) { imgnode = (ImageTag)tmpImageList.elementAt(i); String src = imgnode.getImageURL(); if (URLPathNameUtil.isAbsolutePath(src)) { if (testAbsolutePath) { testImagetag(file,src); } } else { if (testRelativePath) { testImagetag(file, src); } } if(getRealPath()!=null){ imgnode.setImageURL(getRealPath()); writer.write(tmpImageList.toHtml()); } /if (src != null && !src.equals("")) { linkTmpHash.put(src, ""); }/ } writer.flush(); writer.close (); 谢谢了
返回顶楼	回帖地址 0 0 请登录后投票

yongtree 等级: 性别: 文章: 86 积分: 110 来自: 青岛	发表时间：2008-05-04 water84222 写道请问一下，怎样将修改过得html保存到文件中 code如下 parser = new Parser(getContentByLocalFile(file)); NodeFilter nt = new NodeClassFilter(ImageTag.class) ; NodeList tmpImageList = (NodeList) parser.parse(nt); /linkTmpHash = new Hashtable(); for (int i = 0; i < length; i++) { Element tmpElement = (Element) tmpNodeList.item(i); String href = tmpElement.getAttribute("href"); if (href != null && !href.equals("")) { linkTmpHash.put(href, ""); } } data.setHrefs((String[]) linkTmpHash.keySet().toArray(new String[linkTmpHash.size()]));/ BufferedWriter writer = new BufferedWriter(new OutputStreamWriter (new FileOutputStream (file))); linkTmpHash = new Hashtable(); for (int i = 0; i < tmpImageList.size(); i++) { imgnode = (ImageTag)tmpImageList.elementAt(i); String src = imgnode.getImageURL(); if (URLPathNameUtil.isAbsolutePath(src)) { if (testAbsolutePath) { testImagetag(file,src); } } else { if (testRelativePath) { testImagetag(file, src); } } if(getRealPath()!=null){ imgnode.setImageURL(getRealPath()); writer.write(tmpImageList.toHtml()); } /if (src != null && !src.equals("")) { linkTmpHash.put(src, ""); }/ } writer.flush(); writer.close (); 谢谢了通过写文件就可以了啊。
返回顶楼	回帖地址 0 0 请登录后投票

nickcen 等级: 初级会员性别: 文章: 21 积分: 60 来自: 北京	发表时间：2008-05-04 个人感觉要做这个还是Python的BeautifulSoup最好。
返回顶楼	回帖地址 0 0 请登录后投票

hysoft 等级: 初级会员性别: 文章: 100 积分: 0 来自: HB	发表时间：2008-05-04 lz对 html里通过ajax方式显示的一些链接有无好方法获得？这些链接在htm 通过查看源码得不到的而是封装在一些数组里
返回顶楼	回帖地址 0 0 请登录后投票

nickcen 等级: 初级会员性别: 文章: 21 积分: 60 来自: 北京	发表时间：2008-05-06 如果你只是想获得这些链接，而不是用Java获得这些链接，那么你可以写个greasemonkey的创建，或者用XUL。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: