`

CssSelectorNodeFilter用法

阅读更多

这里演示htmlparser1.6中CssSelectorNodeFilter的用法。
这个版本的CssSelector不支持pseudoclasses,比如:parent是不能用的。

 

 

import org.htmlparser.Parser;
import org.htmlparser.filters.CssSelectorNodeFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class ItemExtractor {
  public static void main(String[] args) {
    String url = "http://www.some.site/aa.html";
    String[] rlt=getItemLinks(url);
    for(int i=0;rlt!=null && i<rlt.length;i++){
      System.out.println(rlt[i]);
    }
  }
  public static String[] getItemLinks(String url){
    String[] rlt=null;
    CssSelectorNodeFilter divFilter=new CssSelectorNodeFilter ("div[id='someid'] .className a");
    try {
      Parser parser = new Parser(url);
      NodeList list = parser.extractAllNodesThatMatch(divFilter);
      rlt=new String[list.size()];
      for(int i=0;i<list.size();i++){
        TagNode n1=(TagNode)list.elementAt(i);
        rlt[i]=n1.getAttribute("href");
      }
    } catch (ParserException e) {
      e.printStackTrace();
    }
    return rlt;
  }
}
 

真的吗?

真的吗?

 

 

  • 大小: 24.3 KB
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

Global site tag (gtag.js) - Google Analytics