`
- 浏览:
1478 次
- 性别:
- 来自:
北京
-
最近由于找不到一款适合的海量文件的公司内部搜索引擎,只好自己动手写了一个,并注册了个域名将其放在美国的一个VPS上。详情请见http://www.enpknowledge.com/index_cn.html。如果您有兴趣,请下载使用,欢迎您多提宝贵意见。同时也非常欢迎您加盟合作,打造一个属于我们自己的事业。
这个搜索引擎的主要特点是:
- · 基于分布式的高性能文件搜索引
- · 支持的文件总大小可达到数百TB(数万GB)
- · 单个文件的大小可达数百GB
- · 支持的文件数量可超过数千万个
- · 支持的文件格式超过数千种,常见的文件格式如MS-Office,PDF,图片,视频...
- · 支持OCR(光学字符识别)
- · 多语言支持,如英语、汉语、阿拉伯语、俄语、日语等
- · 支持中文的自定义分词
- · 界面非常友好,功能强大
- · 基于文件夹的增强的安全管理
- · RESTful API接口,使软件程序员可以将该引擎嵌入到其他应用程序中。
软件的下载安装详见http://www.enpknowledge.com/getStarted.html。最简演示版本见http://www.enpknowledge.com:18888/filesearch/,这是一个石油勘探开发行业的一些网络爬取的一些资料。
这个内部搜索引擎非常适合积累了大量文档和技术资料的中小型公司,特别是国外中小型公司,我们可以帮他们快速找到存在文件服务器或个人计算机上的文档。在此基础上,我们正在开发文本挖掘功能,帮助客户把非结构化及半结构化的数据转换成为结构化数据,并进行统计分析和图形展示。我们在石油勘探开发行业已经积累了丰富经验,现准备先在石油行业打开销路,然后在移植到其他行业。欢迎有志之士加盟合作。
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
分布式文件系统(DFS)是一种先进的数据存储架构,它允许在多台计算机之间共享和管理大量数据,从而实现高效、容错和可扩展的文件访问。DFS的核心思想是将单一的文件系统逻辑分布在多个物理节点上,这些节点通过网络...
Google的搜索引擎需要一个能够存储大量数据且能够容忍硬件故障的分布式文件系统,其读写特性通常是写入一次,多次读取。 HDFS的设计目的是满足大规模廉价集群环境的需求,特别是在硬件模块可能出现频繁故障的环境下...
因此,搜索引擎应运而生,它是一种能帮助用户在万维网上快速、有效地找到所需文件的计算机程序。最初的搜索引擎如Archine、Wanderer和RBSE,从简单的FTP文件查找逐渐演变为对HTML文件正文进行索引并引入关键字匹配的...
1. **Hadoop**:一个开源的分布式计算框架,包括HDFS(分布式文件系统)和MapReduce(分布式计算模型)。 2. **Spark**:基于内存计算的分布式计算引擎,支持批处理、交互式查询、实时流处理等多种计算模式。 3. *...
3. **分布式文件系统(DFS)**:如Hadoop的HDFS,用于存储和管理分布在多台计算机上的大量数据,提供高吞吐量的数据访问能力,适合处理大数据。 4. **分布式数据库**:如Cassandra和MongoDB,能够跨多个服务器存储和...
架构上分为DFS(分布式文件系统)负责数据持久化,Master节点负责全局协调,包括分配tablet、垃圾回收、负载均衡等。TabletServer处理读写请求,而LocalGroup则结合leveldb存储引擎。在Tera系统中,leveldb的使用...
随着Google发布GFS(Google File System)和MapReduce的论文,Hadoop的核心组件——分布式文件系统(HDFS)和并行计算模型MapReduce应运而生。Hadoop在2006年被雅虎引入并发展壮大,最终成为Apache软件基金会的一员...
### Nutch开源搜索引擎增量索引recrawl的终极解决办法 #### 知识点解析: **Nutch与Hadoop集成下的recrawl策略** Nutch是一款基于Java的开源搜索引擎框架,能够爬取网页、提取数据并建立索引。它利用Apache ...
搜索引擎_Visual_C++_"揭示了这个压缩包内容的主要特点,它包含了一个名为"DFStu.cpp"的源代码文件,是使用Visual C++编写的,目的是实现搜索引擎的一部分功能,特别是涉及到图的深度优先搜索(DFS, Depth-First ...
Google在2003年至2004年公开了GFS和MapReduce的部分细节,这促使Cutting等人在两年内实现了分布式文件系统(DFS)和MapReduce机制,从而极大地提升了Nutch的性能。2005年,Hadoop作为Nutch的子项目加入Apache基金会...
- HDFS(Hadoop Distributed File System):分布式文件系统是Hadoop的核心,它将大文件分割成多个块,并在集群中的多台服务器上存储这些块的副本,保证了数据的高可用性和容错性。 - MapReduce:是Hadoop用于大...
受到Google在大数据处理上的三篇关键论文——GFS(Google文件系统)、MapReduce和BigTable的启发,Cutting和团队在2003至2004年间实现了分布式文件系统(DFS)和MapReduce机制,从而显著提升了Nutch的性能。...
首先,Fast-DFS是一个开源的分布式文件系统,它主要解决大容量存储和负载均衡的问题。在电商项目中,Fast-DFS用于存储商品图片、用户头像等大量非结构化数据。它能有效分摊服务器压力,提高文件访问速度,并通过...
而批处理则以MapReduce为代表,通过将任务分解为小部分并行处理,降低计算复杂性,例如Hadoop中的MapReduce框架,它在Google的DFS基础上构建了分布式文件系统HDFS,以及NoSQL数据库Hbase、数据仓库工具Hive等。...
Hadoop是源自Apache Lucene项目的一个子项目,起源于Nutch搜索引擎项目的分布式存储和计算需求。作为一个开源平台,Hadoop的核心在于分布式文件系统(HDFS)和MapReduce计算框架,旨在简化处理大规模数据的任务。其...
GFS广泛应用于Google内部的各种服务,包括但不限于搜索引擎、数据分析和研究开发等领域。其中最大的集群可以拥有数千台服务器,提供数百TB的存储空间,并为数百个客户端提供服务。这样的规模不仅体现了GFS的强大能力...
随着数据量的增长,Lucene面临挑战,于是借鉴Google的分布式计算理念,诞生了Nutch——一个微型版的搜索引擎。随着时间推移,Nutch中的DFS(Distributed File System)和MapReduce机制逐渐演变为Hadoop项目,于2005...
1. **分布式**: Elasticsearch是一个分布式的搜索引擎,这意味着它可以跨多个节点进行数据分片和复制,从而提高可用性和容错性。每个节点都可以存储、搜索和处理数据,使得系统能够水平扩展以应对大数据量的需求。 ...