论坛首页 编程语言技术论坛

New SubProject TPDA

浏览 1691 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-03-30  

Xspider2的前期已经完成,目前的版本是0.1.1b可以实现

 

Single page的抓取; 页面深度的返回与存储

 

现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释

 

TPDA: The Page/Point Depth Algorithm.

 

争取实现:

  • 页面深度和路径
  • 无分词文本空间高频词语提取
  • 路径最优算法
核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
论坛首页 编程语言技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics