锁定老帖子 主题:自制行业搜索引擎
精华帖 (0) :: 良好帖 (2) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2008-02-20
同意,后续工作才是重点.
不过抓取用python更高效。 |
|
返回顶楼 | |
发表时间:2008-02-21
htmlunit也行. 我们这边是用得这个.
|
|
返回顶楼 | |
发表时间:2008-02-23
觉得要通用的话,有待大家实现一个诸如rss一样的标准格式,但是没貌似可能性没有
|
|
返回顶楼 | |
发表时间:2008-02-27
互联网数据虽大,但是现在用一个 关键词 很难找到不同的技术文章了。
搜索引擎需要做到把重复内容的排除,然后找到文章原出处就好了,呵呵 |
|
返回顶楼 | |
发表时间:2008-10-06
严重同意,后续工作才是重点。抓取只是一些规则的定义
|
|
返回顶楼 | |