论坛首页 Java企业应用论坛

自制行业搜索引擎

浏览 10944 次
精华帖 (0) :: 良好帖 (2) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-02-20  
同意,后续工作才是重点.
不过抓取用python更高效。
0 请登录后投票
   发表时间:2008-02-21  
htmlunit也行. 我们这边是用得这个.
0 请登录后投票
   发表时间:2008-02-23  
觉得要通用的话,有待大家实现一个诸如rss一样的标准格式,但是没貌似可能性没有
0 请登录后投票
   发表时间:2008-02-27  
互联网数据虽大,但是现在用一个 关键词 很难找到不同的技术文章了。
搜索引擎需要做到把重复内容的排除,然后找到文章原出处就好了,呵呵
0 请登录后投票
   发表时间:2008-10-06  
严重同意,后续工作才是重点。抓取只是一些规则的定义
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics