DFS分布式文件搜索引擎 -

carlwu

浏览: 1530 次
性别:
来自: 北京

最近访客更多访客>>

woodding2008

wurui_0

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

DFS分布式文件搜索引擎

博客分类：

搜索引擎
分布式
海量
文件

搜索引擎分布式海量文件

最近由于找不到一款适合的海量文件的公司内部搜索引擎，只好自己动手写了一个，并注册了个域名将其放在美国的一个VPS上。详情请见http://www.enpknowledge.com/index_cn.html。如果您有兴趣，请下载使用，欢迎您多提宝贵意见。同时也非常欢迎您加盟合作，打造一个属于我们自己的事业。

这个搜索引擎的主要特点是：

· 基于分布式的高性能文件搜索引
· 支持的文件总大小可达到数百TB（数万GB）
· 单个文件的大小可达数百GB
· 支持的文件数量可超过数千万个
· 支持的文件格式超过数千种，常见的文件格式如MS-Office，PDF，图片，视频...
· 支持OCR（光学字符识别）
· 多语言支持，如英语、汉语、阿拉伯语、俄语、日语等
· 支持中文的自定义分词
· 界面非常友好，功能强大
· 基于文件夹的增强的安全管理
· RESTful API接口，使软件程序员可以将该引擎嵌入到其他应用程序中。

软件的下载安装详见http://www.enpknowledge.com/getStarted.html。最简演示版本见http://www.enpknowledge.com:18888/filesearch/，这是一个石油勘探开发行业的一些网络爬取的一些资料。

这个内部搜索引擎非常适合积累了大量文档和技术资料的中小型公司，特别是国外中小型公司，我们可以帮他们快速找到存在文件服务器或个人计算机上的文档。在此基础上，我们正在开发文本挖掘功能，帮助客户把非结构化及半结构化的数据转换成为结构化数据，并进行统计分析和图形展示。我们在石油勘探开发行业已经积累了丰富经验，现准备先在石油行业打开销路，然后在移植到其他行业。欢迎有志之士加盟合作。

分享到：