浏览 1171 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2012-06-07
public static void main(String args[]) throws Exception { String url="http://www.67ba.com/"; String encod = dectedEncode(url);//获得页面的编码格式 getHtmlUrls(url, encod); } public static void getHtmlUrls(String url, String pageEncoding) { NodeList nodelist = null; try { Parser parser = new Parser(url); parser.setEncoding(pageEncoding); nodelist = parser.parse(new NodeClassFilter(LinkTag.class)); } catch (ParserException e) { e.printStackTrace(); } if (nodelist != null && nodelist.size() > 0) { for (int i = 0; i < nodelist.size(); i++){ String urlLink = ((LinkTag)nodelist.elementAt(i)).extractLink(); String urltext = ((LinkTag)nodelist.elementAt(i)).getLinkText(); if(urlLink.indexOf("67ba.com")>1||urlLink.indexOf("jianzhi8.com")>1) System.out.println( urlLink +""+urltext); } } } /** * 检测URL指定的网页的字符集 * @param url * @return 返回网页的实际编码方式 */ public static String dectedEncode(String url) { String[] encodes = oriEncode.split(","); for (int i = 0; i < encodes.length; i++) { if (dectedCode(url, encodes[i])) { return encodes[i]; } } return null; } 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |