讨论网页文章通用抓取方法

liu208286

浏览: 17177 次
性别:
来自: 北京

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

正则表达式 HTML

这一段时间一直在做一个网页内容抓取的东西（新闻抓取），到现在基本完成了，由于网站个数不是太多，选用的是一个站点一个模板的方式进行内容的提取。可是模板的方式呢，实现地区比较简单，但是为每个网站添加模板是个很痛苦的事。

最近几天一直在想怎么用通用的方式提取网页信息，我现在有个想法是，由于html中标签是用来分段的，那么我把一个网页下载下来然后用正则表达式的取标签中内容。如果是单个的标签那么判断里面是不是有标点（文章里应该都有标点的吧？），如果的有的话那么就是文章正文。如果标签是连续多个的话一般来说直接就可以确定它是文章了，这样就可以把文章提取出来。(刚发现还要网友评论要考虑，晕！怎么除去这类不需要的信息啊！)

还有一个体会是，网页中除了正文中的超连接外，其他的都是可以去除的。

怎么取出一个网页的内容呢？各位有什么想法吗？

如果有人熟悉网页分块提取的话，欢迎给个思路怎么做。

1
顶

1
踩

分享到：

为什么要有构造函数呢？

2008-11-15 13:32
浏览 3325
评论(5)
查看更多

5 楼 liu208286 2008-11-19

flyinweb 写道

你需要《基于视觉网页块分析技术的正文抽取》
vips

谢啦，下来在看了，不知道能看的懂吗？

4 楼 fuliang 2008-11-18

Wrapper就是做这件事情的，现在有许多讨论抽取网页中结构化数据论文可以参考。

3 楼 tanleihaoren 2008-11-18

使用htmlparser或者正则吧！个人感觉正则好一些。

2 楼 flyinweb 2008-11-16

你需要《基于视觉网页块分析技术的正文抽取》
vips

1 楼 playfish 2008-11-15

抓取简单，找个html解析的类库，比如Jericho，使用它提供的一些api来解析。

将javaeye这样的文章正文，只要一句代码就能获得到了。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论