`
winzenghua
  • 浏览: 1423452 次
  • 性别: Icon_minigender_2
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

网页切片算法的若干问题

阅读更多
这是我研究网页切片算法的一个汇总想法。
之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示 ,随着工作的深入,逐渐碰到以下问题:

网页切片的粒度问题:
网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。

网页切片的网页对象:
互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。
网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?

网页内容区最大范围识别:
从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。

如果处理分页的内容型网页:
现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。

无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:


蜗牛发表于2006-02-21 12:40 AMIP: 220.184.129.*
我那天用浮动的<div>用绝对位置定位代替<table>定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。

弄死他。看他怎么分析。

这样的算法太依赖于具体实现了,很难有好的解决办法。

况且,现在依赖客户端脚本展现动态表现力慢慢开始流行,这个算法很难适应未来的潮流。

就拿最简单的,我有一个类似于OutLook工具条的页面风格,都是脚本生成的,我看他怎么分析!

视觉分析只能落脚到视觉上,只能对页面的静态画面作分析才能得到正确的条块分割,分割条块是容易的简单算法就能做到,但是要把这些内容归结到分割到的条块是难的。

好的办法只有一个,模拟鼠标击键,击键处的对象返回响应,这在IE能够实现的。这样才能取得分割好条块后的对象归属。

我怎么想都觉得我的简单算法都要比文中的算法强多了。

视觉依靠画面分割条块,很简单,对空白进行膨胀-缩小算法,这样留白就能逐渐清晰出来,文字就模糊了。然后作模糊处理,然后用一个亮度阈值把图片转换成二值图,然后作一个矢量化处理,留下线条。归结到90度和0度上去,得到一个条块分割的矢量图。

然后,每一块中按照密度用鼠标点击模拟获得对象!这样就可以完成了条块归纳了。

干吗要分析HTML呢?情况多得很,根本分析不过来。

我目前的进展是:可以识别 导航区、链接区、页脚区。
对内容区的分析是个难点,鉴于我自己的需要,只要找到最大的内容区就可以了。

这段时间对算法的一个体会就是,算法就是解决特定问题的方法。教科书上的算法大都是最一般性,常用性的方法的说明。
套句俗话,能解决实际问题的方法就是好方法。但能把我们解决的问题用数学模型表达出来仍是一个不断提高算法水平的基本要求。

感兴趣的可以看看: primary number hitched 42 就是生命、宇宙和zeta函数的答案?






分享到:
评论

相关推荐

    嵌入式Linux平台的分层邻接切片算法.pdf

    切片算法的基本任务是将三维模型分解成若干层,每层由一系列轮廓线组成,轮廓线再由打印机逐层打印。在众多切片算法中,分层邻接排序算法以其快速和低内存占用的特点,在嵌入式系统中具有较高的适应性。该算法将模型...

    ART算法图像重构.ppt

    实际上的问题是沿着若干条直线的积分估算值来计算 μ(x,y) 值。 Radon 变换是计算图像在某一指定角度射线方向上的投影的变换方法。二维函数 f(x,y) 的投影是其在确定方向上的线积分,如下图所示,二维函数 f(x,y) ...

    动态分页算法java代码

    1. 分页:分页是一种数据展示策略,它将大量数据分成若干小块(页),每次只加载和显示一块,提高用户体验,减少服务器压力。 2. 动态分页:动态分页是根据用户请求的页码和每页数量来实时计算和返回数据,而不是一...

    散乱点云的拓扑结构重建算法的研究.docx

    在切片过程中,点云模型被切割成若干个平面图形,每个平面图形包含了原本空间中的点云数据,为后续的数据重构打下了基础。 接下来,文章进一步介绍了切片数据结构的设计。为了便于动态存储和检索,切片数据结构采用...

    数学建模竞赛中应当掌握的十类算法

    - **分治算法**:将大问题分解为若干小问题,分别求解后再合并,适用于许多排序和搜索问题。 这些算法不仅能够帮助参赛者高效地解决问题,还能培养其逻辑思维能力和程序设计能力。 #### 六、最优化理论的非经典...

    包括聚类算法,降维算法,神经网络方法.zip

    谱聚类则是基于图论的方法,通过拉普拉斯矩阵对数据进行切片,以找到最佳分割。 降维算法主要用于减少数据的复杂性,降低特征数量,同时保持数据的主要特性。这在高维数据处理中尤其有用,因为它可以减少计算资源的...

    基于粒子群优化算法的5G网络切片功能迁移机制

    该机制基于粒子群优化算法,将虚拟机模拟成粒子,每次迁移过程中,将所有的粒子分成若干个子群,在群内和群间同时应用粒子群优化算法,参照历史最优解和当前全局最优解更新粒子位置,通过选取标记因子较小的粒子实时...

    锥束CT的分区短扫描FDK重建算法 (2009年)

    本文分析了短扫描FDK算法(shortscanFDK,SS-FDK)重建时的数据完整性,提出了根据重建切片高度自适应地将重建切片分成若干区域,对每个区域采用SS-FDK算法进行重建的分区短扫描FDK重建算法。理论分析及试验仿真表明,该...

    一种RANSAC多模型拟合的隧道点云滤波算法.docx

    通过双投影法获得隧道中轴线,然后根据中轴线的走向对隧道点云进行切片分割和断面提取,这一步是为了将点云数据分割成若干个便于处理的独立部分。 3. 最重要的一步是利用RANSAC算法对每个断面的点云进行圆模型的...

    基于切片GRU的日志异常检测研究_王易东1

    随着信息技术的快速发展,网络通讯及安全领域中的日志异常检测显得愈发重要。日志异常检测不仅要确保...未来,这种基于最小质因数切片的日志异常检测算法有望在更多领域得到应用,进一步推动日志异常检测技术的发展。

    WEBGIS若干关键技术研究

    现有的标注算法如离散梯度下降、启发式算法、回溯算法和模拟退火算法等存在效率低、耗时长的问题。本文提出了一种基于四叉树的动态地图标注算法,利用并行计算技术提高标注效率,确保在大规模地图数据下仍能快速完成...

    Cura_14.06.1.tar——3D打印软件

    更新切片引擎 修复若干问题 更新内置固件 新增乐享3D独创的收缩补偿算法 完美解决零件缩孔问题

    Cura_14.06.1-中文版

    此版本主要集中在切片引擎的升级、问题修复、内置固件更新以及一项独特的收缩补偿算法的引入,旨在为用户带来更加精确和高效的3D打印体验。 首先,更新的切片引擎是Cura 14.06.1的核心改进之一。切片引擎是3D打印...

    视频m3u8切片加密TS批量缓存还原苹果cms自动入库纯易语言源码.txt

    视频切片是指将一个完整的视频文件分割成若干个较小的片段,每个片段通常是一个独立的TS文件。这种做法的优势在于能够提高视频传输效率,尤其是在网络条件不稳定的情况下,服务器可以根据用户的网络状况动态调整发送...

    基于锥束CT切片图像的复杂零件三维表面重构 (2006年)

    提出了一种面向复杂零件的三维表面重构新方法:首先采用3D亚体素边缘检测算法提取序列切片图像的高精度封闭轮廓,并重构出切片轮廓的拓扑信息,然后采用一种改进的基于截面属性的轮廓分割算法得到若干组局部结构轮廓...

    基于多结构元素形态分割的改进射线投射算法

    文章还指出,为了解决传统射线投射算法的计算瓶颈问题,文章中介绍的改进算法引入了图像分割技术。图像分割的目的是将图像划分为若干个互不相交的区域,这些区域应该尽可能地满足特定区域的一致性准则,并且相邻区域...

Global site tag (gtag.js) - Google Analytics