开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引
整个视频搜索引擎包括:网站(C#+C语言)、中文分词服务器3.2(C语言)、索引内核2.0(C语言)、索引服务器1.0(C#+C语言)、采集器3.1(delphi)
网站 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
数据存储:可采用mysql、sql server、sqlite、oracle中的任何一种,无须更改代码,只需更改配置文件
性能指标:每分钟有效并发10万
在线范例:http://bida.cc
下载地址:
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是
索引服务器1.0 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
性能指标:每天有效索引>=50万(实时:新增数据即时索引)
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是
索引内核2.0(C语言) 相关指标:
名称:百万商业圈全文索引器
开发语言:C语言
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8、ubuntu、SUSE、CenterOS
性能指标:采用创新的倒排全文索引,单机(普通PC 2G内存)支持3000万网页的全文索引,任意检索不超过0.2秒。
功能支持:新增索引、更新索引、删除索引、检索归并
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
索引内核1.0(C语言)说明,包括动态摘要、高亮显示、相关设置等
中文分词服务器3.2(C语言) 相关指标:
名称:百万商业圈中文分词服务器
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:用例共 3000分10K+的随机文章
平均性能:5万字以内的文章单线程切分1秒内可以切分完毕
在线范例:http://bida.cc:888
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
内部版本:单线程稳定版
相关说明:http://www.cnblogs.com/bwsyq/archive/2011/12/02/2271611.html
注:网站开发框架中提供了三种中文分词方式 默认采用 百万商业圈中文分词
采集器3.1(delphi) 相关指标:
名称:百万商业圈龙蛛采集器 - 视频采集器
编译器:delphi 7.0
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:非特殊情况可连续运行>=一年
平均性能:2MB以内带宽每分钟采集上千视频
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
附加:百万商业圈龙蛛采集器3.1 - 网页采集器:可自行设置保存目录和采集深度,
理论上根据一个入口地址可采集整个互联网,没有特殊情况程序可持续运行一年,
不会有任何错误,每5000个文档自动生成一个子目录,文件名都是整数,便于索引。
完整说明请参见:百万商业圈视频搜索引擎说明.doc (2.66MB)
完整源代码下载1: 百万商业圈视频搜索引擎源代码及完整说明 (37.42MB) 在windows上打的包
完整源代码下载2:所有源代码及全部模块完整下载地址 (39.58MB) 在linux上打的包
注意:单机(普通PC、一般硬盘、2G内存)最大支持3000万条数据或网页的全文索引,任意检索不超过0.2秒。
超过3000万的数据,请使用:百万商业圈开源可编程的集群分布式云平台
分享到:
相关推荐
Ambar是一个功能强大的开源文档搜索引擎,它集成了自动抓取、光学字符识别(OCR)和实时全文搜索功能,极大地提升了文档处理和检索的效率。 ### 1. Node.js介绍 Node.js是一个基于Chrome V8引擎的JavaScript运行...
Lucene是Apache软件基金会的开源项目,是一款强大的全文检索库,被广泛应用于Java开发中,为开发者提供了构建高性能搜索引擎的能力。在本文中,我们将深入探讨如何基于Lucene 2.4版本创建简单的全文索引并进行搜索...
搜索引擎的体系结构通常包含多个核心组件,这些组件包括采集器、分析器、索引器、索引数据库和检索器。采集器负责从互联网或内部数据源收集信息。分析器对收集到的数据进行处理,以便于索引器的进一步处理。索引器则...
标题中的"(C#开源搜索引擎).rar"表明这是一个与C#编程语言相关的开源搜索引擎项目。开源意味着源代码可供公众查看、使用、修改和分发。这个压缩包可能包含了一个完整的搜索引擎解决方案,供开发者学习、研究或者在...
迅龙中文Web搜索引擎是一款由C#编程语言编写的开源搜索引擎程序,它为开发者提供了一种高效、易用的方式来实现中文网页的索引与检索功能。这款软件的核心在于其强大的文本处理和搜索算法,能够有效地处理中文分词和...
Caliph是一款开源的图像检索工具,它在计算机视觉和图像处理领域中扮演着重要的角色。开源软件意味着它的源代码对公众开放,允许用户查看、修改和分发代码,为研究和开发提供了极大的便利。Caliph的主要功能是帮助...
5. **丰富的搜索功能**:除了基本的全文检索,Solr还支持地理位置搜索、评分排序、 faceted search(分类浏览)等高级功能。 6. **自定义功能**:用户可以通过编写插件自定义分析器、查询解析器、过滤器等,满足特定...
Nutch 是一个开源的网络爬虫项目,主要用来抓取互联网上的网页并建立索引,为信息检索提供基础。对于初学者来说,它是一个很好的平台,可以深入了解搜索引擎的工作原理并动手实践。 ### 1. 系统架构 Nutch 的系统...
建立索引,检索,分词,分类,开源搜索引擎,solr
《C#实现的开源搜索引擎深度解析》 在IT领域,搜索引擎是信息检索的重要工具,而C#作为.NET框架下的主流编程语言,也被广泛应用于各种软件开发,包括搜索引擎的实现。本篇文章将深入探讨一个基于C#编写的开源搜索...
垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...
网博垂直搜索引擎完全开源版 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,完全开源,可以与...
Lucene.Net 是一个基于 Apache Lucene 的开源全文搜索引擎库,专为 .NET Framework 平台设计。它提供了一套高级文本搜索程序库,让开发者能够在 .NET 应用程序中轻松实现全文检索功能。在本案例中,我们将在 .Net ...
Lucene是一款非常优秀且成熟的开源全文索引检索工具包,它完全采用Java语言编写,由Doug Cutting于1999年创建,并于2001年10月捐赠给了Apache基金会,成为Apache基金的一个子项目。Lucene不仅开源免费,而且具有很高...
1. **搜索引擎体系结构**:描述了典型的全文搜索引擎的组成,包括采集器、分析器、索引器、检索器、人机接口和索引数据库。 2. **小型搜索引擎的目标与功能**:旨在帮助学生理解信息检索技术的原理,并实际搭建一个...
### Lucene基于Java的全文检索引擎简介 #### 一、Lucene概述与历史背景 Lucene是一个基于Java的全文检索引擎工具包,旨在为各种规模的应用程序提供强大的文本搜索功能。该工具包由Doug Cutting创建,他是全文检索...
Swish-e是一个开源的全文搜索引擎,它支持多种文件格式,并且允许用户自定义索引策略。这个压缩包可能包含了源代码、编译脚本、文档和其他相关资源,供学习者研究和实践。 通过学习这个项目,你可以了解到以下关键...