网页正文抽取演示 - King's blog for Search Engine - ITeye博客

`

yy8354

浏览: 80409 次
性别:
来自: 北京

最近访客更多访客>>

zhengwei9994

ideologist

KEYS123456789

whut_chj2016

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

renhongchao：你好，特征提取的时候，多分类下一个词对于分类的互信息，这个怎么 ...
信息论中的MI(互信息公式)
xuzhibin：这里也有一个识别率还可以正文提取算法，有兴趣的同学可以去看看： ...
聊聊网页正文提取
xiang861206：用navigation.loadURI()加载时，要是http ...
Gecko(jrex)研究记录 JS AJAX页面内容抓取处理（1）
yy8354：呵呵我是JAVA .NET C/C++都用
libsvm分类总结
drunkyong：兄弟可以选择去博客园开博，大家都是搞.net的，这里.NET人 ...
libsvm分类总结

网页正文抽取演示

博客分类：

信息抽取

ASP.net 正则表达式 ASP 算法 .net

阅读更多

演示地址如下：http://202.110.133.114/tsegment/webanalyer.aspx

属于早期作品，采用规则方法提出非正文内容，则认为留下的内容为正文。仅作简单技术演示之用，感谢TT同学提供的空间并帮我写的演示程序。

该功能已封装成.NET组件，可提供程序直接调用，近期提供下载。

可用于大家收集语料时候网页内容提取之用。

如对此组件有兴趣，请直接邮件至我MSN信箱，我正考虑采用新算法完善并编写多个语言版本，在这里先统计下人数
看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.
目前能想到可能会用到的标识类型:导航条广告正文正文标题相关文章版权信息评论如大家还有其他想到的类型,请告之

无法处理导航页，提取正文时也不考虑图片类文章及文章中的配图。

该组件内部算法主要应用了规则模型抽取，所有规则基本使用正则表达式实现，具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。
http://www.likeshow.net/article.asp?id=60
http://www.likeshow.net/article.asp?id=55

组件下载:
http://www.likeshow.net/article.asp?id=91

分享到：

信息论中的MI(互信息公式)

2008-05-28 17:10
浏览 2970
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于行块分布函数的通用网页正文抽取算法优化，Python实现+源代码+文档说明: 该正文抽取算法在基于行块分布函数的网页正文抽取方法上做了稍许改进，提高了准确率，使提取的正文更加“一字不差”。在比赛给出的测试包下进行测试，准确率达到90以上。 ## 算法实现描述对于新闻博客类网站，...

Python实现基于行块分布函数的通用网页正文抽取算法优化.zip: Python实现基于行块分布函数的通用网页正文抽取算法优化 - 不懂运行，下载完可以私聊问，可远程教学 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关...

《基于行块分布函数的通用网页正文抽取》的Python实现方式+源代码+文档说明: 网页正文内容抽取 =================== 此代码是对论文《基于行块分布函数的通用网页正文抽取》的Python实现方式。论文的出发点是针对搜索引擎正文提取的解决方案，移除了所有的标签元素，因此我在此保留了标签元素...

本科毕设论文-—互联网网页文本对象抽取实现技术.doc: 本文主要介绍了互联网网页文本对象抽取实现技术，旨在解决信息爆炸带来的挑战，提出了基于 HTML 特征和机器学习的博客正文抽取算法，并展示了基于该算法的博客搜索引擎 Geeseek 的系统结构和界面演示。一、互联网...

互联网网页文本对象抽取实现技术本科毕业论文.doc: 基于该博客正文抽取算法，展示了博客搜索引擎Geeseek的系统结构和界面演示。该系统属于新型的垂直搜索引擎，能够对博客和博文进行快速有效的搜索。据了解，Geeseek也是目前国内高校中第一个博客搜索引擎。五、信息...

互联网网页文本对象抽取实现技术本科生毕业论文本科毕设论文.doc: 基于该博客正文抽取算法的博客搜索引擎 Geeseek 的系统结构和界面演示。该系统属于新型的垂直搜索引擎，能够对博客和博文进行快速有效的搜索。据了解，Geeseek 也是目前国内高校中第一个博客搜索引擎。本文提出的...

基于规则模型的通用网页正文提取组件: <br>该组件内部算法主要应用了规则模型抽取，所有规则基本使用正则表达式实现，具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。 ...

互联网网页文本对象抽取实现技术本科毕业(设计)论文.doc: 《互联网网页文本对象抽取实现技术》这篇本科毕业论文主要探讨了如何从互联网的海量网页中自动抽取并整合文本对象信息，以应对信息爆炸带来的挑战。论文作者为张辉，指导教师为林亚平。首先，文章指出互联网中存在...

ｗｅｂ信息抽取技术综述.pdf: Intel中国研究中心的ZHANG Yi-Min和ZHOU Joe F等在ACL-2000上演示了他们开发的一个抽取中文命名实体的系统。网页信息抽取技术的评价指标包括准确率、召回率、F值等。准确率是指系统正确抽取的实体数量占总实体...

Web信息自动/半自动抽取系统——演示版: 实现网页自动分类，自动抽取模板（附带模板编辑器），自动标注语义（仅针对部分格式化良好的页面），自动抽取数据. 包中附带了演示用的网页集. 使用Java6+SWT(JFace)+htmlparser+dom4j开发，自带精简版Jre6. 本科...

web-text-extractor.zip_mineralsb5p_php 正文提取_网页 extractor: 总结起来，这个压缩包提供了一套多语言的解决方案，用于从网页中高效地提取文本正文，尤其适合需要处理大量网页数据的项目，例如搜索引擎、文本分析或信息抽取系统。通过阅读文档，理解示例，开发者可以快速掌握如何...

基于Map_Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类.zip: 4. **新闻正文抽取**：这是从HTML网页中提取新闻主要内容的过程。这通常涉及到对网页结构的理解，以及使用正则表达式或HTML解析库来定位正文部分。 5. **文本分类**：通过机器学习算法，将新闻内容自动分类到预定义...

信息抽取sftmealy详细算法.pdf: 本文主要讨论了一种基于有限状态转换器（Finite-State Transducers, FST）的信息抽取算法，该算法应用于半结构化文本的挖掘，如网页中的表格和列表数据。以下是对"信息抽取sftmealy详细算法.pdf"文档中提到的知识点...

金油条网页正文提取器.Net组件1.0: 金油条正文提取器是基于文本距离去噪，精度默认是20,用于网站的新闻，文章等的正文提取，特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展，编码大部分可以自动识别。最新版本和在线演示。详见...

影视领域实体关系抽取实验.rar: 在"RelationExtractionDemo"目录下，可能包含了关系抽取算法的示例代码或者演示，展示了如何应用这些特征进行关系分类。"src"目录通常包含源代码，包括数据处理、模型训练、预测等功能。"doc"目录可能包含实验文档，...

Javafx WebengineDOM树生成抽取Demo: 本Demo的核心目标是演示如何使用JavaFX的WebEngine组件来生成并抽取DOM树。首先，WebEngine加载一个网页URL，解析网页内容后，它会生成一个DOM树。这个树是由Node对象组成的，包括Element、Text、Comment等类型，...

js 随机抽奖源码随机抽取彩票: 在提供的压缩包文件“js+实现+随机抽取彩票.htm”中，很可能是包含了一个简单的网页示例，演示了上述概念的实际应用。打开这个文件，你将能看到一个实际运行的随机抽奖程序。通过查看源代码，你可以学习到如何将...

unity抽取html信息demo: "unity抽取html信息demo"就是这样一个示例项目，它演示了如何在Unity中处理HTML数据，虽然可能不是全自动化的解决方案，但它提供了从静态HTML页面中提取关键信息的基础方法。 Unity本身并不直接支持HTML解析，但...

C#仿搜索引擎爬行演示程序源码.RAR: 标题中的"C#仿搜索引擎爬行演示程序源码.RAR"是一个使用C#编程语言开发的项目，其目标是模仿搜索引擎的工作原理，实现对网站的爬行、数据抓取以及快照存储的功能。这个源码可以帮助开发者理解搜索引擎爬虫的实现过程...

jQuery在设定范围随机抽取数字.zipzip: 此外，这个项目可能还包含了关于如何在实际网页中部署和测试这个功能的说明，以及可能的优化或扩展，比如设置随机数范围的输入框，或者实现连续生成多个随机数的功能。总之，"jQuery在设定范围随机抽取数字"这个...

Global site tag (gtag.js) - Google Analytics