ybj

浏览: 2888 次
性别:
来自: 奉化

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (3)

社区版块

存档分类

今天在用HTMLParser解析学校团委的网页时发现一个问题，无法解析我所需的节点，经过几次尝试后依然不行。这令我很困惑，在反复查看了节点过滤设置后也没发现什么问题。这令我万分不解，于是我把整张网页的所有节点都打印了出来，发现只得到部分节点还有不少节点没有解析出来，而我需要的节点正是在无法解析的节点中。在查了百度之后没有在网上发现相关的资料，特发此文，希望有达人可以解惑！！！ PS：网址：http://www.tw.tzc.edu.cn/ 解析代码： try { Parser parser = new Parser("http:// ...

2010-09-09 14:29
浏览 1204
评论(1)
分类:编程语言

用HTMLParser解析网页出现的小问题

Office PHP Microsoft XML 工作

用Heritrix抓取网站后，我用HTMLParser对抓取的网页进行解析。不可否认，HTMLParser的确是一个功能强大且使用方便的解析器。但我在使用中也发现了一些小问题，比如像这样：写道各有关二级学院、部门：<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 根据台科〔2009〕70号文件《关于2010年台州市科学技术重大贡献奖推荐工作的通知》（详见http://www.tzinfo.gov.cn/news.php?newsi=&id=244 ...

2010-08-21 20:29
浏览 909
评论(0)
分类:编程语言

Heritrix无法抓取二级网站

lucene 搜索引擎

最近正在做一个基于Lucene+Heritrix的校园网的搜索引擎。因为是第一次使用Heritrix所以对他的配置不是很懂。在用Heritrix抓取网站时无法更深入的抓取二级网站。苦恼啊！！！

2010-08-15 15:27
浏览 775
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用HTMLParser解析网页时，有一部分网页节点无法解析

用HTMLParser解析网页出现的小问题

Heritrix无法抓取二级网站

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用HTMLParser解析网页时，有一部分网页节点无法解析

用HTMLParser解析网页出现的小问题

Heritrix无法抓取二级网站

最近访客更多访客>>