`
javatgo
  • 浏览: 1169345 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引

 
阅读更多

开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引

整个视频搜索引擎包括:网站(C#+C语言)、中文分词服务器3.2(C语言)、索引内核2.0(C语言)、索引服务器1.0(C#+C语言)、采集器3.1(delphi)

网站 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
数据存储:可采用mysql、sql server、sqlite、oracle中的任何一种,无须更改代码,只需更改配置文件
性能指标:每分钟有效并发10万
在线范例:http://bida.cc
下载地址:
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引服务器1.0 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
性能指标:每天有效索引>=50万(实时:新增数据即时索引)
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引内核2.0(C语言) 相关指标:
名称:百万商业圈全文索引器
开发语言:C语言
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8、ubuntu、SUSE、CenterOS
性能指标:采用创新的倒排全文索引,单机(普通PC 2G内存)支持3000万网页的全文索引,任意检索不超过0.2秒。
功能支持:新增索引、更新索引、删除索引、检索归并
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
索引内核1.0(C语言)说明,包括动态摘要、高亮显示、相关设置等


中文分词服务器3.2(C语言) 相关指标:
名称:百万商业圈中文分词服务器
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:用例共 3000分10K+的随机文章
平均性能:5万字以内的文章单线程切分1秒内可以切分完毕
在线范例:http://bida.cc:888
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
内部版本:单线程稳定版
相关说明:http://www.cnblogs.com/bwsyq/archive/2011/12/02/2271611.html
注:网站开发框架中提供了三种中文分词方式 默认采用 百万商业圈中文分词

采集器3.1(delphi)  相关指标:
名称:百万商业圈龙蛛采集器 - 视频采集器
编译器:delphi 7.0
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:非特殊情况可连续运行>=一年
平均性能:2MB以内带宽每分钟采集上千视频
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是

附加:百万商业圈龙蛛采集器3.1 - 网页采集器:可自行设置保存目录和采集深度,
理论上根据一个入口地址可采集整个互联网,没有特殊情况程序可持续运行一年,
不会有任何错误,每5000个文档自动生成一个子目录,文件名都是整数,便于索引。

完整说明请参见:百万商业圈视频搜索引擎说明.doc (2.66MB) 
完整源代码下载1: 百万商业圈视频搜索引擎源代码及完整说明 (37.42MB) 在windows上打的包
完整源代码下载2:所有源代码及全部模块完整下载地址 (39.58MB) 在linux上打的包

注意:单机(普通PC、一般硬盘、2G内存)最大支持3000万条数据或网页的全文索引,任意检索不超过0.2秒。
     超过3000万的数据,请使用:百万商业圈开源可编程的集群分布式云平台

0
0
分享到:
评论

相关推荐

    Node.js-Ambar是一个开源文档搜索引擎具有自动抓取OCR标记和实时全文搜索功能

    Ambar是一个功能强大的开源文档搜索引擎,它集成了自动抓取、光学字符识别(OCR)和实时全文搜索功能,极大地提升了文档处理和检索的效率。 ### 1. Node.js介绍 Node.js是一个基于Chrome V8引擎的JavaScript运行...

    lucene全文检索简单索引和搜索实例

    Lucene是Apache软件基金会的开源项目,是一款强大的全文检索库,被广泛应用于Java开发中,为开发者提供了构建高性能搜索引擎的能力。在本文中,我们将深入探讨如何基于Lucene 2.4版本创建简单的全文索引并进行搜索...

    信息检索的开源工具(骆卫华)

    搜索引擎的体系结构通常包含多个核心组件,这些组件包括采集器、分析器、索引器、索引数据库和检索器。采集器负责从互联网或内部数据源收集信息。分析器对收集到的数据进行处理,以便于索引器的进一步处理。索引器则...

    (C#开源搜索引擎).rar

    标题中的"(C#开源搜索引擎).rar"表明这是一个与C#编程语言相关的开源搜索引擎项目。开源意味着源代码可供公众查看、使用、修改和分发。这个压缩包可能包含了一个完整的搜索引擎解决方案,供开发者学习、研究或者在...

    迅龙中文Web搜索引擎(.NET)-开源的搜索引擎程序C#编写

    迅龙中文Web搜索引擎是一款由C#编程语言编写的开源搜索引擎程序,它为开发者提供了一种高效、易用的方式来实现中文网页的索引与检索功能。这款软件的核心在于其强大的文本处理和搜索算法,能够有效地处理中文分词和...

    开源图像检索工具:Caliph

    Caliph是一款开源的图像检索工具,它在计算机视觉和图像处理领域中扮演着重要的角色。开源软件意味着它的源代码对公众开放,允许用户查看、修改和分发代码,为研究和开发提供了极大的便利。Caliph的主要功能是帮助...

    Lucene全文检索框架+Solr搜索引擎(2018版.Java)

    5. **丰富的搜索功能**:除了基本的全文检索,Solr还支持地理位置搜索、评分排序、 faceted search(分类浏览)等高级功能。 6. **自定义功能**:用户可以通过编写插件自定义分析器、查询解析器、过滤器等,满足特定...

    Nutch使用总结 信息检索 建立索引 搜索引擎

    Nutch 是一个开源的网络爬虫项目,主要用来抓取互联网上的网页并建立索引,为信息检索提供基础。对于初学者来说,它是一个很好的平台,可以深入了解搜索引擎的工作原理并动手实践。 ### 1. 系统架构 Nutch 的系统...

    开源搜索引擎,solr

    建立索引,检索,分词,分类,开源搜索引擎,solr

    一个C#写的开源搜索引擎代码

    《C#实现的开源搜索引擎深度解析》 在IT领域,搜索引擎是信息检索的重要工具,而C#作为.NET框架下的主流编程语言,也被广泛应用于各种软件开发,包括搜索引擎的实现。本篇文章将深入探讨一个基于C#编写的开源搜索...

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 带效果预览图片

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...

    垂直搜索引擎完全开源版

    网博垂直搜索引擎完全开源版 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,完全开源,可以与...

    Lucene.Net 实现全文检索

    Lucene.Net 是一个基于 Apache Lucene 的开源全文搜索引擎库,专为 .NET Framework 平台设计。它提供了一套高级文本搜索程序库,让开发者能够在 .NET 应用程序中轻松实现全文检索功能。在本案例中,我们将在 .Net ...

    开源搜索框架lucene介绍

    Lucene是一款非常优秀且成熟的开源全文索引检索工具包,它完全采用Java语言编写,由Doug Cutting于1999年创建,并于2001年10月捐赠给了Apache基金会,成为Apache基金的一个子项目。Lucene不仅开源免费,而且具有很高...

    骆卫华-利用开源工具构造小型搜索引擎

    1. **搜索引擎体系结构**:描述了典型的全文搜索引擎的组成,包括采集器、分析器、索引器、检索器、人机接口和索引数据库。 2. **小型搜索引擎的目标与功能**:旨在帮助学生理解信息检索技术的原理,并实际搭建一个...

    Lucene基于Java的全文检索引擎简介

    ### Lucene基于Java的全文检索引擎简介 #### 一、Lucene概述与历史背景 Lucene是一个基于Java的全文检索引擎工具包,旨在为各种规模的应用程序提供强大的文本搜索功能。该工具包由Doug Cutting创建,他是全文检索...

    用C语言写的C搜索引擎含多种建立索引的方式

    Swish-e是一个开源的全文搜索引擎,它支持多种文件格式,并且允许用户自定义索引策略。这个压缩包可能包含了源代码、编译脚本、文档和其他相关资源,供学习者研究和实践。 通过学习这个项目,你可以了解到以下关键...

Global site tag (gtag.js) - Google Analytics