- 浏览: 283122 次
- 性别:
- 来自: 苏州
文章分类
最新评论
-
tyyh08t1003:
< controller locale="tr ...
Session对象创建和控制 -
rightzheng:
right_zheng@yahoo.com.cn求代码
用HtmlParser 写个简单的 news爬虫 -
liujiaoshui:
而简单赋值运算和复合赋值运算的最大差别就在于:复合赋值运算符会 ...
简单赋值与复合赋值区别 -
yinchunjian:
<script>
function f1(){
...
javaScript闭包 -
明天的昨天:
zyh_1986 写道function f1(){ n=99 ...
javaScript闭包
有一段时间没写博客了,这几天回到学校我同学要赶着交毕业设计,让我帮他写个爬虫,专门抓搜狐的新闻,我用过爬虫,但是从来没有自己写过爬虫,于是Google了一下,找到了一篇不错的文章:使用 HttpClient 和 HtmlParser 实现简易爬虫 . 参考里面的代码,自己写了个简易的搜狐新闻爬虫。
爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻,然后将新闻添加到数据库中。
代码其实很简单的:
LinkParser.java
import com.sohu.SohuNews;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
/**
* 这个类是用来搜集新闻链接地址的。将符合正则表达式的URL添加到URL数组中。
* @author guanminglin
*/
public class LinkParser {
// 获取一个网站上的链接,filter 用来过滤链接
public static Set<String> extracLinks(String url, LinkFilter filter) {
Set<String> links = new HashSet<String>();
try {
Parser parser = new Parser(url);
parser.setEncoding("gb2312");
// 过滤 <frame >标签的 filter,用来提取 frame 标签里的 src 属性所表示的链接
NodeFilter frameFilter = new NodeFilter() {
public boolean accept(Node node) {
if (node.getText().startsWith("frame src=")) {
return true;
} else {
return false;
}
}
};
// OrFilter 来设置过滤 <a> 标签,和 <frame> 标签
OrFilter linkFilter = new OrFilter(new NodeClassFilter(
LinkTag.class), frameFilter);
// 得到所有经过过滤的标签
NodeList list = parser.extractAllNodesThatMatch(linkFilter);
for (int i = 0; i < list.size(); i++) {
Node tag = list.elementAt(i);
if (tag instanceof LinkTag)// <a> 标签
{
LinkTag link = (LinkTag) tag;
String linkUrl = link.getLink();// url
if (filter.accept(linkUrl)) {
links.add(linkUrl);
}
} else// <frame> 标签
{
// 提取 frame 里 src 属性的链接如 <frame src="test.html"/>
String frame = tag.getText();
int start = frame.indexOf("src=");
frame = frame.substring(start);
int end = frame.indexOf(" ");
if (end == -1) {
end = frame.indexOf(">");
}
String frameUrl = frame.substring(5, end - 1);
if (filter.accept(frameUrl)) {
links.add(frameUrl);
}
}
}
} catch (ParserException e) {
e.printStackTrace();
}
return links;
}
public void doParser(String url) {
SohuNews news = new SohuNews();
Set<String> links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 开头的链接
public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) {
return true;
} else {
return false;
}
}
});
//循环迭代出连接,然后提取该连接中的新闻。
for (String link : links) {
System.out.println(link);
news.parser(link); //解析连接
}
}
//测试主页新闻,可以得到主页上所有符合要求的网页地址,并进行访问。
public static void main(String[] args) {
String url = "http://news.sohu.com/";
LinkParser parser = new LinkParser();
parser.doParser(url);
}
}
上面这段带码比较简单,就是用来提取 http://news.sohu.com 上面的新闻连接 ,格式类似这样:http://news.sohu.com/20090518/n264012864.shtml
所以写了一小段的正则表达式来匹配他:
Set<String> links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 开头的链接
public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) {
return true;
} else {
return false;
}
}
});
还有一个核心类就是用来解析搜狐新闻的类,该类用于重网页中提取出新闻,然后将新闻添加到数据库中。代码中还用到了一个NewsBean
这段代码就不贴出来了,很简单的POJO 代码。核心代码都在下面。
SohuNews.java
import com.sohu.bean.NewsBean;
import com.sohu.db.ConnectionManager;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.HeadingTag;
import org.htmlparser.tags.Span;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import java.sql.PreparedStatement;
import java.sql.SQLException;
/**
* 用于对搜狐网站上的新闻进行抓取
* @author guanminglin <guanminglin@gmail.com>
*/
public class SohuNews {
private Parser parser = null; //用于分析网页的分析器。
private List newsList = new ArrayList(); //暂存新闻的List;
private NewsBean bean = new NewsBean();
private ConnectionManager manager = null; //数据库连接管理器。
private PreparedStatement pstmt = null;
public SohuNews() {
}
/**
* 获得一条完整的新闻。
* @param newsBean
* @return
*/
public List getNewsList(final NewsBean newsBean) {
List list = new ArrayList();
String newstitle = newsBean.getNewsTitle();
String newsauthor = newsBean.getNewsAuthor();
String newscontent = newsBean.getNewsContent();
String newsdate = newsBean.getNewsDate();
list.add(newstitle);
list.add(newsauthor);
list.add(newscontent);
list.add(newsdate);
return list;
}
/**
* 设置新闻对象,让新闻对象里有新闻数据
* @param newsTitle 新闻标题
* @param newsauthor 新闻作者
* @param newsContent 新闻内容
* @param newsDate 新闻日期
* @param url 新闻链接
*/
public void setNews(String newsTitle, String newsauthor, String newsContent, String newsDate, String url) {
bean.setNewsTitle(newsTitle);
bean.setNewsAuthor(newsauthor);
bean.setNewsContent(newsContent);
bean.setNewsDate(newsDate);
bean.setNewsURL(url);
}
/**
* 该方法用于将新闻添加到数据库中。
*/
protected void newsToDataBase() {
//建立一个线程用来执行将新闻插入到数据库中。
Thread thread = new Thread(new Runnable() {
public void run() {
boolean sucess = saveToDB(bean);
if (sucess != false) {
System.out.println("插入数据失败");
}
}
});
thread.start();
}
/**
* 将新闻插入到数据库中
* @param bean
* @return
*/
public boolean saveToDB(NewsBean bean) {
boolean flag = true;
String sql = "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)";
manager = new ConnectionManager();
String titleLength = bean.getNewsTitle();
if (titleLength.length() > 60) { //标题太长的新闻不要。
return flag;
}
try {
pstmt = manager.getConnection().prepareStatement(sql);
pstmt.setString(1, bean.getNewsTitle());
pstmt.setString(2, bean.getNewsAuthor());
pstmt.setString(3, bean.getNewsContent());
pstmt.setString(4, bean.getNewsURL());
pstmt.setString(5, bean.getNewsDate());
flag = pstmt.execute();
} catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} finally {
try {
pstmt.close();
manager.close();
} catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
}
return flag;
}
/**
* 获得新闻的标题
* @param titleFilter
* @param parser
* @return
*/
private String getTitle(NodeFilter titleFilter, Parser parser) {
String titleName = "";
try {
NodeList titleNodeList = (NodeList) parser.parse(titleFilter);
for (int i = 0; i < titleNodeList.size(); i++) {
HeadingTag title = (HeadingTag) titleNodeList.elementAt(i);
titleName = title.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return titleName;
}
/**
* 获得新闻的责任编辑,也就是作者。
* @param newsauthorFilter
* @param parser
* @return
*/
private String getNewsAuthor(NodeFilter newsauthorFilter, Parser parser) {
String newsAuthor = "";
try {
NodeList authorList = (NodeList) parser.parse(newsauthorFilter);
for (int i = 0; i < authorList.size(); i++) {
Div authorSpan = (Div) authorList.elementAt(i);
newsAuthor = authorSpan.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return newsAuthor;
}
/*
* 获得新闻的日期
*/
private String getNewsDate(NodeFilter dateFilter, Parser parser) {
String newsDate = null;
try {
NodeList dateList = (NodeList) parser.parse(dateFilter);
for (int i = 0; i < dateList.size(); i++) {
Span dateTag = (Span) dateList.elementAt(i);
newsDate = dateTag.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return newsDate;
}
/**
* 获取新闻的内容
* @param newsContentFilter
* @param parser
* @return content 新闻内容
*/
private String getNewsContent(NodeFilter newsContentFilter, Parser parser) {
String content = null;
StringBuilder builder = new StringBuilder();
try {
NodeList newsContentList = (NodeList) parser.parse(newsContentFilter);
for (int i = 0; i < newsContentList.size(); i++) {
Div newsContenTag = (Div) newsContentList.elementAt(i);
builder = builder.append(newsContenTag.getStringText());
}
content = builder.toString(); //转换为String 类型。
if (content != null) {
parser.reset();
parser = Parser.createParser(content, "gb2312");
StringBean sb = new StringBean();
sb.setCollapse(true);
parser.visitAllNodesWith(sb);
content = sb.getStrings();
// String s = "\";} else{ document.getElementById('TurnAD444').innerHTML = \"\";} } showTurnAD444(intTurnAD444); }catch(e){}";
content = content.replaceAll("\\\".*[a-z].*\\}", "");
content = content.replace("[我来说两句]", "");
} else {
System.out.println("没有得到新闻内容!");
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return content;
}
/**
* 根据提供的URL,获取此URL对应网页所有的纯文本信息,次方法得到的信息不是很纯,
*常常会得到我们不想要的数据。不过如果你只是想得到某个URL 里的所有纯文本信息,该方法还是很好用的。
* @param url 提供的URL链接
* @return RL对应网页的纯文本信息
* @throws ParserException
* @deprecated 该方法被 getNewsContent()替代。
*/
@Deprecated
public String getText(String url) throws ParserException {
StringBean sb = new StringBean();
//设置不需要得到页面所包含的链接信息
sb.setLinks(false);
//设置将不间断空格由正规空格所替代
sb.setReplaceNonBreakingSpaces(true);
//设置将一序列空格由一个单一空格所代替
sb.setCollapse(true);
//传入要解析的URL
sb.setURL(url);
//返回解析后的网页纯文本信息
return sb.getStrings();
}
/**
* 对新闻URL进行解析提取新闻,同时将新闻插入到数据库中。
* @param content
*/
public void parser(String url) {
try {
parser = new Parser(url);
NodeFilter titleFilter = new TagNameFilter("h1");
NodeFilter contentFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "sohu_content"));
NodeFilter newsdateFilter = new AndFilter(new TagNameFilter("span"), new HasAttributeFilter("class", "c"));
NodeFilter newsauthorFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("class", "editUsr"));
String newsTitle = getTitle(titleFilter, parser);
parser.reset(); //记得每次用完parser后,要重置一次parser。要不然就得不到我们想要的内容了。
String newsContent = getNewsContent(contentFilter, parser);
System.out.println(newsContent); //输出新闻的内容,查看是否符合要求
parser.reset();
String newsDate = getNewsDate(newsdateFilter, parser);
parser.reset();
String newsauthor = getNewsAuthor(newsauthorFilter, parser);
//先设置新闻对象,让新闻对象里有新闻内容。
setNews(newsTitle, newsauthor, newsContent, newsDate, url);
//将新闻添加到数据中。
this.newsToDataBase();
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
}
//单个文件测试网页
public static void main(String[] args) {
SohuNews news = new SohuNews();
news.parser("http://news.sohu.com/20090518/n264012864.shtml");
}
}
存放新闻的数据库用的是MySql 建表语句如下:(其实不用数据库也可以的,在SohuNews类中注释掉那行红色的代码就可以了,所有得到的新闻都会在后台打印的。)
CREATE DATABASE IF NOT EXISTS sohunews;
USE sohunews;
--
-- Definition of table `news`
--
DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
`newsid` int(11) NOT NULL auto_increment,
`newstitle` varchar(60) NOT NULL,
`newsauthor` varchar(20) NOT NULL,
`newscontent` text NOT NULL,
`newsurl` char(130) NOT NULL,
`newsdate` varchar(24) NOT NULL,
PRIMARY KEY (`newsid`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
以上的代码写的很粗糙,项目中使用到了HtmlParser工具包,如果需要可以到http://sourceforge.net/projects/htmlparser 网站上下载。如果有需要这个
爬虫项目源码的朋友可以留下E-mail 索取。
这篇文章只是一篇抛砖引玉的文章,希望懂爬虫的你能够给点意见,大家交流交流!!
发表评论
-
jar/war/ear包的区别
2011-03-24 14:58 1541经常在我们Java Web项目中看到jar/war/ear这几 ... -
Weblogic10 Classloading 问题
2011-03-24 14:51 1598首先要说说Weblogic的classloading ... -
weblogic 页面访问速度慢的可能原因及解决办法
2011-03-24 11:40 1809系统部署在weblogic8.1上去后,发现比在tomcat下 ... -
java常量定义
2011-03-04 11:54 1430static final String MY_STATIC_F ... -
java接口
2011-03-04 11:24 988public interface Runnable { ... -
Tomcat显示路径下全部文件的问题
2011-01-07 16:46 1136打开你tomcat/conf/web.xml ... -
使用批处理提高数据库执行效率
2010-11-03 16:01 1187Statement stmt = conn.createSta ... -
pageContext对象的使用
2010-09-27 14:22 5182pageContext对象 pageContext ... -
java中的vo 、dto 、dao
2010-09-08 10:34 28208VO是跟数据库里表的映射,一个表对应一个VO DAO是用VO来 ... -
java final关键字
2010-08-10 15:15 1296一、final关键字 1、定义为static final 的 ... -
java中组合和继承关系
2010-08-09 15:51 16451、 组合是在一个类中引用其他类对象 Java中组合是&q ... -
java包访问权限
2010-08-09 10:15 3149包访问权限是指 方法未声明时默认为包访问权限 只有 在同一包下 ... -
window.open参数
2010-06-05 22:30 952前言:经常上网的朋友可能会到过 这样一些网站,一进入首页立刻 ... -
base64
2010-05-26 22:12 1455Base64是网络上最常见的 ... -
java远程调试
2010-05-18 12:15 2638Eclipse高级操作 远程调 ... -
java注解
2010-05-07 14:40 1213JAVA注解的总结 一 ... -
Asptctj是什么
2010-05-07 11:02 1084What is AspectJ <script>& ... -
jndi简介
2010-05-06 13:54 914JNDI是 Java 命名与目录接 ... -
将数字转换成字符串
2010-03-16 21:56 1927public static String getNumberS ... -
解析xml文件
2010-03-06 16:56 921一个解析xml文件 SAXBuilder builder = ...
相关推荐
以下是如何使用HtmlParser实现网络爬虫的关键知识点: 1. **HtmlParser库**:HtmlParser是一个强大的HTML解析器,它能够解析HTML文档,将其转换为一个可操作的节点树,方便开发者通过节点过滤和遍历来获取目标信息...
Java使用HtmlParser实现简单的网络爬虫是一种常见的技术实践,它涉及到网络编程、HTML解析和数据提取等核心概念。本文将详细讲解如何运用Java语言结合HtmlParser库来构建一个基础的网络爬虫,以便从网页中获取所需...
使用htmlparser制作的网页爬虫例题
本教程将聚焦于如何使用HTMLPARSER和HTTPCLIENT库来构建一个基础的网络爬虫。这两个工具是Java开发者常用来解析HTML和进行HTTP请求的重要库。 首先,HTMLPARSER是一个开源的Java库,它可以解析HTML文档并提供类似于...
总之,HttpClient和HtmlParser结合使用,可以构建一个基础的网络爬虫,用于抓取和解析网页数据。它们提供了一种有效的方式,让开发者能够轻松地与Web服务器交互,并处理返回的HTML内容,从而实现各种Web数据挖掘和...
在Java编程环境中,开发一个简单的网络爬虫是通过结合使用HttpClient库进行网络请求以及HtmlParser库解析HTML内容来实现的。HttpClient是一个强大的HTTP客户端库,它允许开发者发送各种HTTP请求并接收响应,而...
在本场景中,我们讨论如何使用HTMLParser库来创建一个基础的网络爬虫,以便从网页上抓取和分析数据。 首先,我们需要了解HTMLParser的基本用法。HTMLParser设计为易于使用,它提供了对HTML元素、属性和文本的访问,...
本项目就是利用HTMLParser库来编写一个基础的网页爬虫,用于爬取新浪新闻的数据,并将抓取到的数据存储到Excel表格中。以下是关于这个项目的一些关键知识点和实现细节: 1. **HTMLParser库**:HTMLParser是一个开源...
HttpClient 和 HtmlParser 是在Java开发中构建网络爬虫(Crawler)时常用到的两个库。HttpClient 提供了丰富的HTTP客户端接口,可以用于发送HTTP请求并接收响应,而HtmlParser则用于解析HTML文档,提取所需的数据。...
总的来说,这个例子展示了如何利用HTMLParser库构建一个简单的网络爬虫,抓取特定网站上的基金数据。通过阅读和理解"FundTableBean.java"的代码,我们可以学习到如何解析HTML,以及如何将抓取到的数据组织和存储。这...
综上所述,网络爬虫开发者在使用HTMLParser进行开发时,需要了解它的基本原理、核心类和构造函数、调试工具的使用、页面编码设置方法、以及一些基本的代码实践。同时,开发者应该具备良好的问题解决和代码调试能力,...
本话题主要涉及三个关键库:HttpClient、jsoup以及HtmlParser和htmllexer。这些库为构建简单的Java爬虫提供了必要的工具和功能。 HttpClient是Apache基金会的一个开源项目,提供了用于执行HTTP请求的强大工具集。它...
提供的代码片段展示了如何使用Java的基本I/O操作来实现一个简单的网页抓取程序。下面对该代码进行详细分析: 1. **导入必要的类**: ```java import java.io.BufferedReader; import java.io.BufferedWriter; ...
在本文中,我们将探讨如何使用 HttpClient 和 HtmlParser 这两个Java库来实现一个简单的网页爬虫。HttpClient 是一个强大的HTTP客户端库,而 HtmlParser 则是一个用于解析HTML文档的高效工具,两者结合可以帮助我们...
在本文中,我们将深入探讨如何使用`HttpClient`和`HtmlParser`两个开源库来实现一个简易的网络爬虫。 **HttpClient简介** `HttpClient`是Apache基金会Jakarta Commons项目下的一个子项目,主要提供了对HTTP协议的...