`
ybj
  • 浏览: 2888 次
  • 性别: Icon_minigender_1
  • 来自: 奉化
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论
文章列表
今天在用HTMLParser解析学校团委的网页时发现一个问题,无法解析我所需的节点,经过几次尝试后依然不行。这令我很困惑,在反复查看了节点过滤设置后也没发现什么问题。这令我万分不解,于是我把整张网页的所有节点都打印了出来,发现只得到部分节点还有不少节点没有解析出来,而我需要的节点正是在无法解析的节点中。在查了百度之后没有在网上发现相关的资料,特发此文,希望有达人可以解惑!!!   PS:       网址:http://www.tw.tzc.edu.cn/         解析代码: try { Parser parser = new Parser("http:// ...
用Heritrix抓取网站后,我用HTMLParser对抓取的网页进行解析。不可否认,HTMLParser的确是一个功能强大且使用方便的解析器。但我在使用中也发现了一些小问题,比如像这样: 写道 各有关二级学院、部门:<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 根据台科〔2009〕70号文件《关于2010年台州市科学技术重大贡献奖推荐工作的通知》(详见http://www.tzinfo.gov.cn/news.php?newsi=&id=244 ...
最近正在做一个基于Lucene+Heritrix的校园网的搜索引擎。因为是第一次使用Heritrix所以对他的配置不是很懂。 在用Heritrix抓取网站时无法更深入的抓取二级网站。 苦恼啊!!!
Global site tag (gtag.js) - Google Analytics