用HtmlParser 写个简单的 news爬虫 -

yinchunjian

浏览: 286394 次
性别:
来自: 苏州

最近访客更多访客>>

u012363178

scm002

techdo

loki888

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

用HtmlParser 写个简单的 news爬虫

博客分类：

java

Bean 正则表达式 SQL MySQL thread

有一段时间没写博客了，这几天回到学校我同学要赶着交毕业设计，让我帮他写个爬虫，专门抓搜狐的新闻，我用过爬虫，但是从来没有自己写过爬虫，于是Google了一下，找到了一篇不错的文章：使用 HttpClient 和 HtmlParser 实现简易爬虫　 .　参考里面的代码，自己写了个简易的搜狐新闻爬虫。

　　爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻，然后将新闻添加到数据库中。

　　代码其实很简单的：

　　LinkParser.java

import com.sohu.SohuNews; import java.util.HashSet; import java.util.Set; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.filters.OrFilter; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; /** 　*　这个类是用来搜集新闻链接地址的。将符合正则表达式的URL添加到URL数组中。　* @author guanminglin 　*/ public class LinkParser { 　　　 // 获取一个网站上的链接,filter 用来过滤链接　　　 public static Set<String> extracLinks(String url, LinkFilter filter) { 　　　　　　　 Set<String> links = new HashSet<String>(); 　　　　　　　 try { 　　　　　　　　　　　 Parser parser = new Parser(url); 　　　　　　　　　　　 parser.setEncoding("gb2312"); 　　　　　　　　　　　 // 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接　　　　　　　　　　　 NodeFilter frameFilter = new NodeFilter() { 　　　　　　　　　　　　　　　 public boolean accept(Node node) { 　　　　　　　　　　　　　　　　　　　 if (node.getText().startsWith("frame src=")) { 　　　　　　　　　　　　　　　　　　　　　　　 return true; 　　　　　　　　　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　　　　　　　　　　 return false; 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 }; 　　　　　　　　　　　 // OrFilter 来设置过滤 <a> 标签，和 <frame> 标签　　　　　　　　　　　 OrFilter linkFilter = new OrFilter(new NodeClassFilter( 　　　　　　　　　　　　　　　　　　　 LinkTag.class), frameFilter); 　　　　　　　　　　　 // 得到所有经过过滤的标签　　　　　　　　　　　 NodeList list = parser.extractAllNodesThatMatch(linkFilter); 　　　　　　　　　　　 for (int i = 0; i < list.size(); i++) { 　　　　　　　　　　　　　　　 Node tag = list.elementAt(i); 　　　　　　　　　　　　　　　 if (tag instanceof LinkTag)// <a> 标签　　　　　　　　　　　　　　　 { 　　　　　　　　　　　　　　　　　　　 LinkTag link = (LinkTag) tag; 　　　　　　　　　　　　　　　　　　　 String linkUrl = link.getLink();// url 　　　　　　　　　　　　　　　　　　　 if (filter.accept(linkUrl)) { 　　　　　　　　　　　　　　　　　　　　　　　 links.add(linkUrl); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } else// <frame> 标签　　　　　　　　　　　　　　　 { 　　　　　　　　　　　　　　　　　　　 // 提取 frame 里 src 属性的链接如 <frame src="test.html"/> 　　　　　　　　　　　　　　　　　　　 String frame = tag.getText(); 　　　　　　　　　　　　　　　　　　　 int start = frame.indexOf("src="); 　　　　　　　　　　　　　　　　　　　 frame = frame.substring(start); 　　　　　　　　　　　　　　　　　　　 int end = frame.indexOf(" "); 　　　　　　　　　　　　　　　　　　　 if (end == -1) { 　　　　　　　　　　　　　　　　　　　　　　　 end = frame.indexOf(">"); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　　　　　 String frameUrl = frame.substring(5, end - 1); 　　　　　　　　　　　　　　　　　　　 if (filter.accept(frameUrl)) { 　　　　　　　　　　　　　　　　　　　　　　　 links.add(frameUrl); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 } catch (ParserException e) { 　　　　　　　　　　　 e.printStackTrace(); 　　　　　　　 } 　　　　　　　 return links; 　　　 } 　　　 public void doParser(String url) { 　　　　　　　 SohuNews news = new SohuNews(); 　　　　　　　 Set<String> links = LinkParser.extracLinks( 　　　　　　　　　　　　　　　 url, new LinkFilter() { 　　　　　　　　　　　 //提取以 http://news.sohu.com 开头的链接　　　　　　　　　　　 public boolean accept(String url) { 　　　　　　　　　　　　　　　 if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) { 　　　　　　　　　　　　　　　　　　　 return true; 　　　　　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　　　　　　 return false; 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 }); 　　　　　　　 //循环迭代出连接，然后提取该连接中的新闻。　　　　　　　 for (String link : links) { 　　　　　　　　　　　 System.out.println(link); 　　　　　　　　　　　 news.parser(link); //解析连接　　　　　　　　　　　　　　　　　　 } 　　　 } 　　　 //测试主页新闻，可以得到主页上所有符合要求的网页地址，并进行访问。　　　 public static void main(String[] args) { 　　　　　　　 String url = "http://news.sohu.com/"; 　　　　　　　 LinkParser parser = new LinkParser(); 　　　　　　　 parser.doParser(url); 　　　 } }

　上面这段带码比较简单，就是用来提取 http://news.sohu.com　上面的新闻连接，格式类似这样：http://news.sohu.com/20090518/n264012864.shtml

　　所以写了一小段的正则表达式来匹配他：

Set<String> links = LinkParser.extracLinks( 　　　　　　　　　　　　　　　 url, new LinkFilter() { 　　　　　　　　　　　 //提取以 http://news.sohu.com 开头的链接　　　　　　　　　　　 public boolean accept(String url) { 　　　　　　　　　　　　　　　 if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) { 　　　　　　　　　　　　　　　　　　　 return true; 　　　　　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　　　　　　 return false; 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 });

　　还有一个核心类就是用来解析搜狐新闻的类，该类用于重网页中提取出新闻，然后将新闻添加到数据库中。代码中还用到了一个NewsBean

　　这段代码就不贴出来了，很简单的POJO 代码。核心代码都在下面。

　　SohuNews.java

import com.sohu.bean.NewsBean; import com.sohu.db.ConnectionManager; import java.util.ArrayList; import java.util.List; import java.util.logging.Level; import java.util.logging.Logger; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.beans.StringBean; import org.htmlparser.filters.AndFilter; import org.htmlparser.filters.HasAttributeFilter; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.Div; import org.htmlparser.tags.HeadingTag; import org.htmlparser.tags.Span; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; import java.sql.PreparedStatement; import java.sql.SQLException; /** 　* 用于对搜狐网站上的新闻进行抓取　* @author guanminglin <guanminglin@gmail.com> 　*/ public class SohuNews { 　　　 private Parser parser = null;　　 //用于分析网页的分析器。　　　 private List newsList = new ArrayList();　　　 //暂存新闻的List；　　　 private NewsBean bean = new NewsBean(); 　　　 private ConnectionManager manager = null;　　　 //数据库连接管理器。　　　 private PreparedStatement pstmt = null; 　　　 public SohuNews() { 　　　 } 　　　 /** 　　　　 * 获得一条完整的新闻。　　　　 * @param newsBean 　　　　 * @return 　　　　 */ 　　　 public List getNewsList(final NewsBean newsBean) { 　　　　　　　 List list = new ArrayList(); 　　　　　　　 String newstitle = newsBean.getNewsTitle(); 　　　　　　　 String newsauthor = newsBean.getNewsAuthor(); 　　　　　　　 String newscontent = newsBean.getNewsContent(); 　　　　　　　 String newsdate = newsBean.getNewsDate(); 　　　　　　　 list.add(newstitle); 　　　　　　　 list.add(newsauthor); 　　　　　　　 list.add(newscontent); 　　　　　　　 list.add(newsdate); 　　　　　　　 return list; 　　　 } 　　　 /** 　　　　 *　设置新闻对象，让新闻对象里有新闻数据　　　　 * @param newsTitle 新闻标题　　　　 * @param newsauthor　新闻作者　　　　 * @param newsContent 新闻内容　　　　 * @param newsDate　新闻日期　　　　 * @param url　新闻链接　　　　 */ 　　　 public void setNews(String newsTitle, String newsauthor, String newsContent, String newsDate, String url) { 　　　　　　　 bean.setNewsTitle(newsTitle); 　　　　　　　 bean.setNewsAuthor(newsauthor); 　　　　　　　 bean.setNewsContent(newsContent); 　　　　　　　 bean.setNewsDate(newsDate); 　　　　　　　 bean.setNewsURL(url); 　　　 } 　　　 /** 　　　　 * 该方法用于将新闻添加到数据库中。　　　　 */ 　　　 protected void newsToDataBase() { 　　　　　　　 //建立一个线程用来执行将新闻插入到数据库中。　　　　　　　 Thread thread = new Thread(new Runnable() { 　　　　　　　　　　　 public void run() { 　　　　　　　　　　　　　　　 boolean sucess = saveToDB(bean); 　　　　　　　　　　　　　　　 if (sucess != false) { 　　　　　　　　　　　　　　　　　　　 System.out.println("插入数据失败"); 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 }); 　　　　　　　 thread.start(); 　　　 } 　　　 /** 　　　　 * 将新闻插入到数据库中　　　　 * @param bean 　　　　 * @return 　　　　 */ 　　　 public boolean saveToDB(NewsBean bean) { 　　　　　　　 boolean flag = true; 　　　　　　　 String sql = "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)"; 　　　　　　　 manager = new ConnectionManager(); 　　　　　　　 String titleLength = bean.getNewsTitle(); 　　　　　　　 if (titleLength.length() > 60) {　 //标题太长的新闻不要。　　　　　　　　　　　 return flag; 　　　　　　　 } 　　　　　　　 try { 　　　　　　　　　　　 pstmt = manager.getConnection().prepareStatement(sql); 　　　　　　　　　　　 pstmt.setString(1, bean.getNewsTitle()); 　　　　　　　　　　　 pstmt.setString(2, bean.getNewsAuthor()); 　　　　　　　　　　　 pstmt.setString(3, bean.getNewsContent()); 　　　　　　　　　　　 pstmt.setString(4, bean.getNewsURL()); 　　　　　　　　　　　 pstmt.setString(5, bean.getNewsDate()); 　　　　　　　　　　　 flag = pstmt.execute(); 　　　　　　　 } catch (SQLException ex) { 　　　　　　　　　　　 Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); 　　　　　　　 } finally { 　　　　　　　　　　　 try { 　　　　　　　　　　　　　　　 pstmt.close(); 　　　　　　　　　　　　　　　 manager.close(); 　　　　　　　　　　　 } catch (SQLException ex) { 　　　　　　　　　　　　　　　 Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); 　　　　　　　　　　　 } 　　　　　　　 } 　　　　　　　 return flag; 　　　 } 　　　 /** 　　　　 * 获得新闻的标题　　　　 * @param titleFilter 　　　　 * @param parser 　　　　 * @return 　　　　 */ 　　　 private String getTitle(NodeFilter titleFilter, Parser parser) { 　　　　　　　 String titleName = ""; 　　　　　　　 try { 　　　　　　　　　　　 NodeList titleNodeList = (NodeList) parser.parse(titleFilter); 　　　　　　　　　　　 for (int i = 0; i < titleNodeList.size(); i++) { 　　　　　　　　　　　　　　　 HeadingTag title = (HeadingTag) titleNodeList.elementAt(i); 　　　　　　　　　　　　　　　 titleName = title.getStringText(); 　　　　　　　　　　　 } 　　　　　　　 } catch (ParserException ex) { 　　　　　　　　　　　 Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); 　　　　　　　 } 　　　　　　　 return titleName; 　　　 } 　　　 /** 　　　　 * 获得新闻的责任编辑，也就是作者。　　　　 * @param newsauthorFilter 　　　　 * @param parser 　　　　 * @return 　　　　 */ 　　　 private String getNewsAuthor(NodeFilter newsauthorFilter, Parser parser) { 　　　　　　　 String newsAuthor = ""; 　　　　　　　 try { 　　　　　　　　　　　 NodeList authorList = (NodeList) parser.parse(newsauthorFilter); 　　　　　　　　　　　 for (int i = 0; i < authorList.size(); i++) { 　　　　　　　　　　　　　　　 Div authorSpan = (Div) authorList.elementAt(i); 　　　　　　　　　　　　　　　 newsAuthor = authorSpan.getStringText(); 　　　　　　　　　　　 } 　　　　　　　 } catch (ParserException ex) { 　　　　　　　　　　　 Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); 　　　　　　　 } 　　　　　　　 return newsAuthor; 　　　 } 　　　 /* 　　　　 * 获得新闻的日期　　　　 */ 　　　 private String getNewsDate(NodeFilter dateFilter, Parser parser) { 　　　　　　　 String newsDate = null; 　　　　　　　 try { 　　　　　　　　　　　 NodeList dateList = (NodeList) parser.parse(dateFilter); 　　　　　　　　　　　 for (int i = 0; i < dateList.size(); i++) { 　　　　　　　　　　　　　　　 Span dateTag = (Span) dateList.elementAt(i); 　　　　　　　　　　　　　　　 newsDate = dateTag.getStringText(); 　　　　　　　　　　　 } 　　　　　　　 } catch (ParserException ex) { 　　　　　　　　　　　 Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); 　　　　　　　 } 　　　　　　　 return newsDate; 　　　 } 　　　 /** 　　　　 * 获取新闻的内容　　　　 * @param newsContentFilter 　　　　 * @param parser 　　　　 * @return　 content 新闻内容　　　　 */ 　　　 private String getNewsContent(NodeFilter newsContentFilter, Parser parser) { 　　　　　　　 String content = null; 　　　　　　　 StringBuilder builder = new StringBuilder(); 　　　　　　　 try { 　　　　　　　　　　　 NodeList newsContentList = (NodeList) parser.parse(newsContentFilter); 　　　　　　　　　　　 for (int i = 0; i < newsContentList.size(); i++) { 　　　　　　　　　　　　　　　 Div newsContenTag = (Div) newsContentList.elementAt(i); 　　　　　　　　　　　　　　　 builder = builder.append(newsContenTag.getStringText()); 　　　　　　　　　　　 } 　　　　　　　　　　　 content = builder.toString();　 //转换为String 类型。　　　　　　　　　　　 if (content != null) { 　　　　　　　　　　　　　　　 parser.reset(); 　　　　　　　　　　　　　　　 parser = Parser.createParser(content, "gb2312"); 　　　　　　　　　　　　　　　 StringBean sb = new StringBean(); 　　　　　　　　　　　　　　　 sb.setCollapse(true); 　　　　　　　　　　　　　　　 parser.visitAllNodesWith(sb); 　　　　　　　　　　　　　　　 content = sb.getStrings(); //　　　　　　　　　　　　　　　 String s = "\";} else{ document.getElementById('TurnAD444').innerHTML = \"\";} } showTurnAD444(intTurnAD444); }catch(e){}"; 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 content = content.replaceAll("\\\".*[a-z].*\\}", ""); 　　　　　　　　　　　　　　　　　　　　　　　　　　　 content = content.replace("[我来说两句]", ""); 　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　 System.out.println("没有得到新闻内容！"); 　　　　　　　　　　　 } 　　　　　　　 } catch (ParserException ex) { 　　　　　　　　　　　 Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); 　　　　　　　 } 　　　　　　　 return content; 　　　 } 　　　 /** 　　　　 * 根据提供的URL，获取此URL对应网页所有的纯文本信息，次方法得到的信息不是很纯，　　　　 *常常会得到我们不想要的数据。不过如果你只是想得到某个URL 里的所有纯文本信息，该方法还是很好用的。　　　　 * @param url 提供的URL链接　　　　 * @return RL对应网页的纯文本信息　　　　 * @throws ParserException 　　　　 * @deprecated 该方法被 getNewsContent()替代。　　　　 */ 　　　 @Deprecated 　　　 public String getText(String url) throws ParserException { 　　　　　　　 StringBean sb = new StringBean(); 　　　　　　　 //设置不需要得到页面所包含的链接信息　　　　　　　 sb.setLinks(false); 　　　　　　　 //设置将不间断空格由正规空格所替代　　　　　　　 sb.setReplaceNonBreakingSpaces(true); 　　　　　　　 //设置将一序列空格由一个单一空格所代替　　　　　　　 sb.setCollapse(true); 　　　　　　　 //传入要解析的URL 　　　　　　　 sb.setURL(url); 　　　　　　　 //返回解析后的网页纯文本信息　　　　　　　 return sb.getStrings(); 　　　 } 　　　 /** 　　　　 * 对新闻URL进行解析提取新闻，同时将新闻插入到数据库中。　　　　 * @param content 　　　　 */ 　　　 public void parser(String url) { 　　　　　　　 try { 　　　　　　　　　　　 parser = new Parser(url); 　　　　　　　　　　　 NodeFilter titleFilter = new TagNameFilter("h1"); 　　　　　　　　　　　 NodeFilter contentFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "sohu_content")); 　　　　　　　　　　　 NodeFilter newsdateFilter = new AndFilter(new TagNameFilter("span"), new HasAttributeFilter("class", "c")); 　　　　　　　　　　　 NodeFilter newsauthorFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("class", "editUsr")); 　　　　　　　　　　　 String newsTitle = getTitle(titleFilter, parser); 　　　　　　　　　　　 parser.reset();　　 //记得每次用完parser后，要重置一次parser。要不然就得不到我们想要的内容了。　　　　　　　　　　　 String newsContent = getNewsContent(contentFilter, parser); 　　　　　　　　　　　 System.out.println(newsContent);　　 //输出新闻的内容，查看是否符合要求　　　　　　　　　　　 parser.reset(); 　　　　　　　　　　　 String newsDate = getNewsDate(newsdateFilter, parser); 　　　　　　　　　　　 parser.reset(); 　　　　　　　　　　　 String newsauthor = getNewsAuthor(newsauthorFilter, parser); 　　　　　　　　　　　 //先设置新闻对象，让新闻对象里有新闻内容。　　　　　　　　　　　 setNews(newsTitle, newsauthor, newsContent, newsDate, url); 　　　　　　　　　　　 //将新闻添加到数据中。　　　　　　　　　　　 this.newsToDataBase(); 　　　　　　　　　　　　　　　　　　 } catch (ParserException ex) { 　　　　　　　　　　　 Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); 　　　　　　　 } 　　　 } 　　　 //单个文件测试网页　　　 public static void main(String[] args) { 　　　　　　　 SohuNews news = new SohuNews(); 　　　　　　　 news.parser("http://news.sohu.com/20090518/n264012864.shtml");　　　　　 } }

　　存放新闻的数据库用的是MySql 建表语句如下：（其实不用数据库也可以的，在SohuNews类中注释掉那行红色的代码就可以了，所有得到的新闻都会在后台打印的。）

CREATE DATABASE IF NOT EXISTS sohunews; USE sohunews; -- -- Definition of table `news` -- DROP TABLE IF EXISTS `news`; CREATE TABLE `news` ( 　 `newsid` int(11) NOT NULL auto_increment, 　 `newstitle` varchar(60) NOT NULL, 　 `newsauthor` varchar(20) NOT NULL, 　 `newscontent` text NOT NULL, 　 `newsurl` char(130) NOT NULL, 　 `newsdate` varchar(24) NOT NULL, 　 PRIMARY KEY　 (`newsid`) ) ENGINE=InnoDB　 DEFAULT CHARSET=utf8;

　　以上的代码写的很粗糙，项目中使用到了HtmlParser工具包，如果需要可以到http://sourceforge.net/projects/htmlparser 网站上下载。如果有需要这个

　　爬虫项目源码的朋友可以留下E-mail 索取。

　　这篇文章只是一篇抛砖引玉的文章，希望懂爬虫的你能够给点意见，大家交流交流！！

分享到：

jndi简介 | javaScript闭包

2010-04-27 10:08
浏览 2063
评论(1)
分类:互联网
查看更多

1 楼 rightzheng 2010-10-27

right_zheng@yahoo.com.cn求代码

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用HtmlParser 写个简单的 news爬虫

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用HtmlParser 写个简单的 news爬虫

评论

发表评论

相关推荐

jar/war/ear包的区别

Weblogic10 Classloading 问题

weblogic 页面访问速度慢的可能原因及解决办法

java常量定义

java接口

Tomcat显示路径下全部文件的问题

使用批处理提高数据库执行效率

pageContext对象的使用

java中的vo 、dto 、dao

java final关键字

java中组合和继承关系

java包访问权限

window.open参数

base64

java远程调试

java注解

Asptctj是什么

jndi简介

将数字转换成字符串

解析xml文件

最近访客更多访客>>