- 浏览: 588205 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (365)
- Tomcat调优 (2)
- Apache Http (20)
- Webserver安装 (5)
- Linux安装 (28)
- Linux常用命令 (17)
- C语言及网络编程 (10)
- 文件系统 (0)
- Lucene (12)
- Hadoop (9)
- FastDFS (8)
- 报表 (0)
- 性能测试 (1)
- JAVA (18)
- CSharp (3)
- C++ (38)
- BI (0)
- 数据挖掘 (0)
- 数据采集 (0)
- 网址收集整理 (3)
- Resin (0)
- JBoss (0)
- nginx (0)
- 数据结构 (1)
- 随记 (5)
- Katta (1)
- Shell (6)
- webservice (0)
- JBPM (2)
- JQuery (6)
- Flex (41)
- SSH (0)
- javascript (7)
- php (13)
- 数据库 (6)
- 搜索引擎排序 (2)
- LVS (3)
- solr (2)
- windows (1)
- mysql (3)
- 营销软件 (1)
- tfs (1)
- memcache (5)
- 分布式搜索 (3)
- 关注的博客 (1)
- Android (2)
- clucene (11)
- 综合 (1)
- c c++ 多线程 (6)
- Linux (1)
- 注册码 (1)
- 文件类型转换 (3)
- Linux 与 asp.net (2)
- perl (5)
- coreseek (1)
- 阅读器 (2)
- SEO (1)
- 励志 (1)
- 在线性能测试工具 (1)
- yii (7)
- 服务器监控 (1)
- 广告 (1)
- 代理服务 (5)
- zookeeper (8)
- 广告联盟 (0)
- 常用软件下载 (1)
- 架设自已的站点心得 (0)
最新评论
-
terry07:
java 7 用这个就可以了 Desktop desktop ...
关于java Runtime.getRunTime.exec(String command)的使用 -
HSINKING:
怎么设置打开的dos 窗口是指定的路径下
关于java调用bat文件,不打开窗口 -
liubang201010:
hyperic hq更多参考资料,请访问:http://www ...
hyperic-hq -
^=^:
STDIN_FILENO是unistd.h中定义的一个numb ...
深入理解dup和dup2的用法 -
antor:
留个记号,学习了
[转]用java流方式判断文件类型
lucene2.32 and lucene3.02 搜索对比 ,三次搜索结果的归结所花时间(应用较特殊)
经过测试初步总结如下
lucene3.0.2优化点:
所用的搜索时间提升了50%,消耗内存相差3G之多(26.5G-23.5GB )
lucene3.0.2不足之处,经过几次测试,初始化索引加载时间要比lucene2.0.3长
2010-1-5
1\测试单次搜索的数据承受量
2\测试单次搜索的数据承受量,加上类别统计()
条件:
机器配置
Intel(R) Xeon(R) CPU E5506 @2.13GHz (2 处理器)
内存 32GB
系统类型 64位操作系统
1\
condition :bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+nowPage=1+keyword=供应+lay=2
document num:58,293,970 (110G)
<page>
<perPage>10</perPage>
<total>4916415</total>
<count>7500</count>
<countone>7500</countone>
<counttwo>0</counttwo>
<countthree>0</countthree>
<begin>1</begin>
<end>10</end>
<time>858</time>
[总个搜索]花费总时间为:936
2\
document number 116,587,940 (220G)
condition :bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+nowPage=1+keyword=供应+lay=2
used memory
5.37G
<page>
<perPage>10</perPage>
<total>9832830</total>
<count>7500</count>
<countone>7500</countone>
<counttwo>0</counttwo>
<countthree>0</countthree>
<begin>1</begin>
<end>10</end>
<time>3635</time>
</page>
[总个搜索]花费总时间为:3807
3\ 关键字较多情况下
document number 116,587,940
condition :bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+nowPage=1+keyword=供应产品+lay=2
要10多秒才能出结果了
初步结论
5000万的时候 搜索带类别聚类还能接受
达到亿级时 要10多秒才能出数据,如果单线程搜索,基本不能用,需要考滤并行算法了处理之
引用condition java -Xmx24g -Xms24g -Xmn23g -Xss128k -XX:+UseConcMarkSweepGC -XX:CMSFullGCsBeforeCompaction=8 -XX:+UseCMSCompactAtFullCollection -XX:ParallelGCThreads=8 -XX:CMSInitiatingOccupancyFraction=500m document number :12000000 1\ new version load load julei: 111088,71074 mill(2min) 23.5GB old version load load julei 66925 mill 26.5GB 2\bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+lay=2+nowPage=10+keyword=技术规格 new : a\ <page> <perPage>10</perPage> <total>5667685</total> <count>7500</count> <countone>0</countone> <counttwo>6463</counttwo> <countthree>1037</countthree> <begin>91</begin> <end>100</end> <time>1638</time> [总个搜索]花费总时间为:1872 old <page> <perPage>10</perPage> <total>5658667</total> <count>7500</count> <countone>0</countone> <counttwo>6463</counttwo> <countthree>1037</countthree> <begin>91</begin> <end>100</end> <time>3354</time> [总个搜索]花费总时间为:4524 b\ <page> <perPage>10</perPage> <total>5667685</total> <count>7500</count> <countone>0</countone> <counttwo>6463</counttwo> <countthree>1037</countthree> <begin>91</begin> <end>100</end> <time>1388</time> [总个搜索]花费总时间为:1544 old <page> <perPage>10</perPage> <total>5658667</total> <count>7500</count> <countone>0</countone> <counttwo>6463</counttwo> <countthree>1037</countthree> <begin>91</begin> <end>100</end> <time>2028</time> [总个搜索]花费总时间为:3167 c\ <perPage>10</perPage> <total>5667685</total> <count>7500</count> <countone>0</countone> <counttwo>6463</counttwo> <countthree>1037</countthree> <begin>91</begin> <end>100</end> <time>1295</time> [总个搜索]花费总时间为:1419 old <perPage>10</perPage> <total>5658667</total> <count>7500</count> <countone>0</countone> <counttwo>6463</counttwo> <countthree>1037</countthree> <begin>91</begin> <end>100</end> <time>2012</time> [总个搜索]花费总时间为:3213 3\ bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+lay=2+nowPage=10 new : a\ <page> <perPage>10</perPage> <total>11658794</total> <count>7500</count> <countone>7500</countone> <counttwo>0</counttwo> <countthree>0</countthree> <begin>91</begin> <end>100</end> <time>1123</time> [总个搜索]花费总时间为:1248 old: <page> <perPage>10</perPage> <total>11639726</total> <count>7500</count> <countone>7500</countone> <counttwo>0</counttwo> <countthree>0</countthree> <begin>91</begin> <end>100</end> <time>1841</time> [总个搜索]花费总时间为:2933 b\ <page> <perPage>10</perPage> <total>11658794</total> <count>7500</count> <countone>7500</countone> <counttwo>0</counttwo> <countthree>0</countthree> <begin>91</begin> <end>100</end> <time>1108</time> [总个搜索]花费总时间为:1248 c\ <page> <perPage>10</perPage> <total>11658794</total> <count>7500</count> <countone>7500</countone> <counttwo>0</counttwo> <countthree>0</countthree> <begin>91</begin> <end>100</end> <time>1045</time> [总个搜索]花费总时间为:1232 old: <perPage>10</perPage> <total>11639726</total> <count>7500</count> <countone>7500</countone> <counttwo>0</counttwo> <countthree>0</countthree> <begin>91</begin> <end>100</end> <time>1576</time> [总个搜索]花费总时间为:2699 4\ bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+lay=2+nowPage=10+keyword=凯迪系列散热器 new \ <page> <perPage>10</perPage> <total>2621837</total> <count>7501</count> <countone>1</countone> <counttwo>0</counttwo> <countthree>7500</countthree> <begin>91</begin> <end>100</end> <time>562</time> [总个搜索]花费总时间为:733 old <page> <perPage>10</perPage> <total>2619057</total> <count>7500</count> <countone>1</countone> <counttwo>0</counttwo> <countthree>7499</countthree> <begin>91</begin> <end>100</end> <time>1014</time> </page> [总个搜索]花费总时间为:2153 <perPage>10</perPage> <total>2619057</total> <count>7500</count> <countone>1</countone> <counttwo>0</counttwo> <countthree>7499</countthree> <begin>91</begin> <end>100</end> <time>998</time> [总个搜索]花费总时间为:2059 5\ bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+nowPage=10+keyword=凯迪系列散热器 取最低值(5次到10次): new: <perPage>10</perPage> <total>2621837</total> <count>7501</count> <countone>1</countone> <counttwo>0</counttwo> <countthree>7500</countthree> <begin>91</begin> <end>100</end> <time>468</time> [总个搜索]花费总时间为:546 old <page> <perPage>10</perPage> <total>2619057</total> <count>7500</count> <countone>1</countone> <counttwo>0</counttwo> <countthree>7499</countthree> <begin>91</begin> <end>100</end> <time>609</time> [总个搜索]花费总时间为:1747
经过测试初步总结如下
lucene3.0.2优化点:
所用的搜索时间提升了50%,消耗内存相差3G之多(26.5G-23.5GB )
lucene3.0.2不足之处,经过几次测试,初始化索引加载时间要比lucene2.0.3长
2010-1-5
1\测试单次搜索的数据承受量
2\测试单次搜索的数据承受量,加上类别统计()
条件:
机器配置
Intel(R) Xeon(R) CPU E5506 @2.13GHz (2 处理器)
内存 32GB
系统类型 64位操作系统
1\
condition :bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+nowPage=1+keyword=供应+lay=2
document num:58,293,970 (110G)
<page>
<perPage>10</perPage>
<total>4916415</total>
<count>7500</count>
<countone>7500</countone>
<counttwo>0</counttwo>
<countthree>0</countthree>
<begin>1</begin>
<end>10</end>
<time>858</time>
[总个搜索]花费总时间为:936
2\
document number 116,587,940 (220G)
condition :bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+nowPage=1+keyword=供应+lay=2
used memory
5.37G
<page>
<perPage>10</perPage>
<total>9832830</total>
<count>7500</count>
<countone>7500</countone>
<counttwo>0</counttwo>
<countthree>0</countthree>
<begin>1</begin>
<end>10</end>
<time>3635</time>
</page>
[总个搜索]花费总时间为:3807
3\ 关键字较多情况下
document number 116,587,940
condition :bi=1+stype=0+channel=9+sf=THREE+sort=60+tis=1+nowPage=1+keyword=供应产品+lay=2
要10多秒才能出结果了
初步结论
5000万的时候 搜索带类别聚类还能接受
达到亿级时 要10多秒才能出数据,如果单线程搜索,基本不能用,需要考滤并行算法了处理之
发表评论
-
关于搜索聊天记录
2011-11-24 11:14 1597奶酪(524300045) 16:33:15 语言都是一样 ... -
亿级数据的高并发通用搜索引擎架构设计[
2011-03-27 23:56 962from [url=http://blog.s135.com/ ... -
Lucene3.0索引格式相关网址
2010-10-29 11:14 1336【Lucene3.0 初窥】索引文件格式(1):预备知识 ... -
一个简单索引的配置文件
2010-10-22 18:12 1096索引模式(稳定,快速,可迅速恢同步,可迅速恢复性,同一结点间的 ... -
百度分词算法探秘 获取优质长尾流量
2010-10-19 13:25 1057注:本文对百度分词切词研究及如何获取优质长尾流量分析的很有道理 ... -
取重网记
2010-10-19 09:17 776搜索引擎重复网页发现技术分析 http://www.x ... -
Lucene2.32升级到3.0 前期记录点
2010-09-14 16:38 8512010.09.14 1\NIOFSDirectory 的使用 ... -
统计类优化算法初步
2010-09-01 17:54 994public class testcache { c ... -
【Lucene3.0 初窥】索引文件格式
2010-08-11 15:35 1059【Lucene3.0 初窥】索引文件格式(5):posting ... -
lucene搜索结果排序之Payload
2010-08-06 10:34 1673提高特定词汇的评分 利用 Payload 功能,可以提高文档 ... -
自定义排序<1>
2010-07-08 11:42 963说明: 用户会员登陆后,根据该会员属于的类别排序(主要表现 ...
相关推荐
《Lucene 3.0.2:高效Java文件检索库与简单搜索引擎构建指南》 Lucene,这个在Java世界中赫赫有名的全文检索库,以其卓越的性能和易用性,成为了开发人员构建搜索引擎的首选工具。本次我们将深入探讨Lucene 3.0.2...
而Lucene的索引机制则更加灵活和高效,它基于项的静态存储,能够实现基于项的高效搜索,从而大幅提高了搜索速度和资源利用率。 ### 结论 综上所述,Lucene与关系型数据库各有千秋,分别在全文检索和事务处理两个...
同样,`lucene-2.0.CHM` 文件则提供了 Lucene 2.0 的 API 文档,尽管旧版本,但依然能为那些需要维护旧系统或对比学习的开发者提供参考。 总的来说,从 Lucene 2.0 进化到 3.0,主要变化在于性能提升、查询功能增强...
《深入剖析Lucene.NET 2.3.2:.NET平台下的开源全文搜索引擎》 Lucene.NET是一款在.NET平台上实现的开源全文搜索引擎库,它基于Java版本的Lucene,为.NET开发者提供了强大的文本搜索功能。Lucene.NET 2.3.2版本是其...
Lucene是一款强大的全文搜索引擎库,广泛应用于各种数据检索场景。在C#环境下,利用Lucene进行时间区间搜索是提高数据检索效率和精确度的重要手段。本篇将深入探讨如何在C#中实现Lucene的时间区间查询匹配,以及涉及...
在IT领域,搜索引擎技术是不可或缺的一部分,而Apache Lucene是一个高性能、全文本搜索库,它为开发者提供了构建自定义搜索引擎应用程序所需的所有工具。本篇我们将深入探讨如何在Lucene中实现模糊搜索,以及相关的...
在"Lucene全文搜索_LuceneJava全文搜索_"这个主题中,我们将深入探讨Lucene如何在Java环境中实现高效的全文搜索引擎。首先,Lucene的核心概念包括文档(Document)、字段(Field)、索引(Index)和搜索(Search)。...
**Lucene 搜索引擎实现详解** Lucene 是一个开源全文搜索引擎库,由 Apache 软件基金会维护。它提供了一套强大的数据结构和算法,用于高效地存储和检索大量文本数据。通过 Lucene,开发者可以轻松地在自己的应用...
2. **创建索引**:索引是Lucene搜索的核心。我们需要定义一个Analyzer(分析器)来处理文本,如使用StandardAnalyzer进行英文分词。然后,使用Directory(目录)对象(如FSDirectory)指定存储索引的位置,最后使用...
**Lucene站内搜索技术详解** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,被广泛应用于各种搜索引擎和站内搜索解决方案中。它提供了丰富的文本分析、索引和搜索功能,使得开发者能够轻松地在自己的...
You should also see files called lucene-queryparser-{version}.jar, lucene-analyzers-common-{version}.jar and lucene-demo-{version}.jar under queryparser, analysis/common/ and demo/, respectively.
在这个过程中,Lucene 和 Heritrix 是两个非常关键的工具,它们分别在搜索引擎的构建中扮演着不同的角色。 首先,Lucene 是一个基于 Java 的开源信息检索库,它为开发者提供了一系列用于构建搜索引擎的工具和接口。...
### 利用Lucene实现高级搜索的关键知识点 #### Lucene简介 Lucene是Apache软件基金会下的一个开源全文检索库,提供了高性能的文本搜索能力。它不仅适用于网站的搜索功能,还可以用于任何需要文本搜索的应用场景,如...
总之,Lucene的BM25示例是一个极好的学习资源,它涵盖了从索引构建到查询执行的关键步骤,并通过实际对比展示了如何使用更先进的相似度算法提升搜索效果。对于希望在文本检索领域深入研究或应用Lucene的开发者来说,...
Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了一个高级、灵活的文本搜索API,允许开发者轻松地在应用程序中实现复杂的搜索功能。这次提供的“lucene-4.7.0”压缩包包含了Lucene 4.7.0...
《深入探索Lucene5:拼音搜索的实现与应用》 Lucene是一个强大的全文搜索引擎库,广泛应用于各种信息检索系统中。在Lucene5版本中,它不仅提供了基础的文本搜索功能,还支持了拼音搜索,这极大地提高了中文搜索的...
《Lucene in Action》是关于Apache Lucene的权威指南,这本书深入浅出地介绍了全文搜索引擎的构建和优化。Lucene是一个高性能、全文本搜索库,它允许开发人员在应用程序中轻松实现复杂的搜索功能。这本书主要面向...
而Lucene是Apache软件基金会的一个开放源代码全文搜索引擎库,能够帮助开发者实现强大的搜索功能。本篇文章将深入探讨如何在Spring MVC项目中集成Lucene进行全文搜索,以提升用户体验。 首先,我们需要理解Spring ...
lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....
《基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现》是一篇深入探讨搜索引擎技术在特定领域的应用的优秀研究生毕业论文。这篇论文的核心是利用开源工具Lucene和Heritrix来构建一个针对职位信息的垂直搜索引擎,...