`
txf2004
  • 浏览: 7041813 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

一种面向搜索引擎的网页分块、切片的原理,实现和演示

阅读更多
一种面向搜索引擎的网页分块、切片的原理,实现和演示



最近看到 2005 年的 全国搜索引擎和网上信息挖掘学术研讨会 上 华南木棉信息检索的队长 欧健文 的 华南木棉信息检索 的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设:
1、网页分块切分的基本单位是html中的table , div 等标签(目前版本只支持:table ,div 标签)。
2、网页分块切片识别依赖于相似url的对比。比如:我们认为一下两个url的网页html文本结构相似:
http://news.soufun.com/2005-11-26/580107.htm
http://news.soufun.com/2005-11-26/580175.htm
而下面两个url的网页结构不相似:
http://news.soufun.com/subject/weekly051121/index.html
http://news.soufun.com/2005-11-26/580175.htm

用途:
1、根据分析网页结构区分网页是 主题型网页 还是 目录型网页;
2、根据分析网页结构 找出 网页的 主题内容,相关内容和噪音内容;

实现的3个阶段:
1、对网页结构进行合理切片;
2、比较相似网页的切片结构;
3、分析切片数据,得出结论。
演示地址:
http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp



分享到:
评论

相关推荐

    一种基于分块的Web数据实体抽取方法

    该论文中提到的网页信息解析器ABCD,正是基于上述原理设计和实现的。通过一系列的实验,验证了该解析器在新闻网站复杂结构页面上的有效性。实验结果显示,ABCD具有良好的性能,能准确地抽取数据实体,满足实际项目的...

    中文搜索引擎分块倒排索引存储模式

    标题“中文搜索引擎分块倒排索引存储模式”所涵盖的知识点主要包括搜索引擎的倒排索引技术,特别是针对中文搜索引擎的特定优化和实现方式。下面将详细展开: 1. 倒排索引的定义和作用:倒排索引是一种在搜索引擎中...

    视觉的网页分块

    基于视觉的网页分块demo VIPS 视觉 网页 分块

    搜索引擎的实现(JAVA,含源码)

    在这个主题中,我们将探讨如何使用JAVA语言来实现一个搜索引擎,主要关注开源的Lucene库。Lucene是一个强大的全文检索库,它提供了索引和搜索文本的高级功能。 首先,我们需要了解搜索引擎的基本工作原理。搜索引擎...

    互联网网页文本对象抽取实现技术本科毕业论文.doc

    本文将对互联网网页文本对象抽取实现技术进行详细的介绍和分析,並探讨该技术在信息抽取和搜索引擎中的应用。 一、互联网网页文本对象抽取实现技术的概念 互联网网页文本对象抽取实现技术是一种自动化的技术,旨在...

    基于网页分块的主题爬虫研究.pdf

    总的来说,基于网页分块的主题爬虫研究是提升搜索引擎性能的重要手段,通过对网页内容的精细化处理,可以更准确地捕捉到与主题相关的信息,提高搜索结果的准确性。未来的研究可能将进一步探索如何优化分块策略,提高...

    图像重叠分块的实现与重构

    在图像处理领域,分块处理是一种常见的技术,用于将大图像分割成小的、易于管理的块,以便进行各种计算和分析。"图像重叠分块的实现与重构"这一主题涉及了如何有效地将图像切分成具有重叠区域的块,并在处理后重新...

    本科毕设论文-—互联网网页文本对象抽取实现技术.doc

    本文主要介绍了互联网网页文本对象抽取实现技术,旨在解决信息爆炸带来的挑战,提出了基于 HTML 特征和机器学习的博客正文抽取算法,并展示了基于该算法的博客搜索引擎 Geeseek 的系统结构和界面演示。 一、互联网...

    51学习板分块原理图

    "51学习板分块原理图"提供了深入了解51单片机工作原理和实践操作的重要资源。这个压缩包中包含的"实验板分块原理图"是理解51单片机系统架构的关键。 首先,我们要了解51单片机的基本结构。51单片机是由Intel公司...

    面向SW26010处理器的三维Stencil自适应分块参数算法.pdf

    本文提出了面向SW26010处理器的三维Stencil自适应分块参数算法,解决了现有的三维Stencil优化在SW26010处理器上的缺少时间分块和分块参数需手工调优的问题,并提供了一个系统的性能分析模型,指导分块参数的优化方向...

    分块读取Blob字段数据演示(Delphi + Oracle)

    分块读取Blob的原理是将大文件分成较小的数据块,每次只从数据库中读取一块,而不是一次性加载整个Blob。在Delphi中,可以使用Oracle的ODAC(Oracle Data Access Components)库来实现。下面是一个简单的分块读取...

    web大文件上传、秒传、分块上传演示c#.net

    使用webupload实现了在C# .net项目中的断点续传演示(绝对不亏的,现在.net中webupload服务端好多都不完整,我这个是自己写完用到项目中的,比较稳定,虽然代码比较初级,后面也没整理) 演示地址:...

    互联网网页文本对象抽取实现技术本科生毕业论文本科毕设论文.doc

    基于该博客正文抽取算法的博客搜索引擎 Geeseek 的系统结构和界面演示。该系统属于新型的垂直搜索引擎,能够对博客和博文进行快速有效的搜索。据了解,Geeseek 也是目前国内高校中第一个博客搜索引擎。 本文提出的...

    分块查找算法实现

    分块查找算法是一种在大规模数据集合中提高查找效率的策略,它是对传统顺序查找方法的优化。在传统的顺序查找中,我们需要线性遍历整个数据序列来查找目标元素,这在数据量大时效率较低。分块查找通过将数据划分为较...

    操作系统小型仿真系统模拟(分块c++实现)

    操作系统小型仿真系统模拟是一种教学工具,它通过C++编程语言来实现操作系统的核心功能,以便学习者可以更好地理解和分析操作系统的内部工作原理。这种仿真系统通常会简化实际操作系统中的复杂概念,使其更适合教学...

Global site tag (gtag.js) - Google Analytics