- 浏览: 1478 次
- 性别:
- 来自: 北京
最新评论
文章列表
最近由于找不到一款适合的海量文件的公司内部搜索引擎,只好自己动手写了一个,并注册了个域名将其放在美国的一个VPS上。详情请见http://www.enpknowledge.com/index_cn.html。如果您有兴趣,请下载使用,欢迎您多提宝贵意见。同时 ...
公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!
这是详细需求:
(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。
(2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。
(3) 系统最好用Java开发,可以使用HttpClient, Nutch, Heritrix等一些开源软件。需要提供能维护的、可读的源代码;
(4) 系统要求在一周内要遍历所有给定的网址,搜索速度要求能够接受 ...