Solr的使用进行的调研 -

aitanjupt

浏览: 2454 次
性别:
来自: 南京

最近访客更多访客>>

xsz

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2014-05 ( 2)
更多存档...

Solr的使用进行的调研

博客分类：

Solr

性能 Solr DataImportHandler 索引效率

摘要：本篇是本人对Solr的使用进行的调研，具体包括

使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的效率、以及测试Solr的搜索效率等。

具体的搜索引擎概念、Solr搭建方法、数据库mysql使用方法，假设读者已有了基础。

http://www.cnblogs.com/wgp13x/p/3742653.html

1. Solr

1.1 Solr从数据库中读取数据并创建索引速度（使用DataImportHandler）

l 一次性创建索引

在JVM内存配置为256M时，建立索引至1572865时出现Java heap异常；增加JVM内存配置至512M，设置系统环境变量：JAVA_OPTS -Xms256m -Xmx512m，能成功建立2112890条(花费2m 46s)。

平均索引创建速度为：12728/s（两个string字段，长度大约为20字符）。

l 增量创建索引

注意：近实时增量索引需要写数据库服务的时间与搜索引擎服务器时间同步（数据库服务时间先于搜索引擎服务器时间才行）。

使用默认的DIH创建增量索引速度较慢（50/s~400/s），不如全索引（1W/s），因为需要从数据库中读取多遍（1、要更新的IDs；2、每1ID去数据库中重取所有列）。

故需要更改DIH增量索引程序，以全索引的方式读数据；或采取全读出的方式，一次全读出所有列，具体文件配置如下：

<?xml version="1.0" encoding="UTF-8" ?>

<dataSource name="mysqlServer"

type="JdbcDataSource"

driver="com.mysql.jdbc.Driver"

batchSize="-1"

url="jdbc:mysql://192.103.101.110:3306/locationplatform"

user="lpuser"

password="jlitpassok"/>

<entity name="locatedentity" pk="id"

query="select id,time from locationplatform.locatedentity where isdelete=0 and my_date > '${dataimporter.last_index_time}'"

deletedPkQuery="select id from locationplatform.locatedentity where isdelete=1 and my_date > '${dataimporter.last_index_time}'"

deltaQuery="select -1 id"

deltaImportQuery="select id,time from locationplatform.locatedentity where isdelete=0 and my_date > '${dataimporter.last_index_time}'">

</entity>

</document>

</dataConfig>

通过这样的配置可以达到增量索引9000/s（两个string字段）（数据库里对时间建立索引，对这里的性能影响不大）。

l 注意：作者不推荐使用DataImportHandler，有其它更好更方便的实现可以使用。

1.2 Solr创建索引效率

ConcurrentUpdateSolrServer使用http方式，embedded方式官方不推荐使用。ConcurrentUpdateSolrServer不需要commit，solrServer.add(doc)即可添加数据。SolrServer solrServer = newConcurrentUpdateSolrServer(solrUrl, 队列大小, 线程数)其需要与autoCommit、autoSoftCommit配置搭配使用，网上建议配置如下：

<openSearcher>false</openSearcher>

</autoCommit>

</autoSoftCommit>

17个各种类型字段（原纯文本Size约为200B，SolrInputDocument对象Size约为930B），以只保存ID、每字段均建立索引的方式创建索引。

如需具体的测试代码可以联系本人。

17个字段，四核CPU，16G内存，千兆网络

数据量(W条)	线程数	队列大小	时间(s)	网络(MB/s)	速率(W条/s)
200	20	10000	88	10.0	2.27
200	20	20000	133	9.0	1.50
200	40	10000	163	10.0	1.22
200	50	10000	113	10.5	1.76
200	100	10000	120	10.5	1.67

速度：Solr创建索引速度与Solr机器CPU正相关，一般情况下CPU占用率能达到接近100%，内存占用率在默认情况下需达到接近100%，网络、磁盘占用率均小。因此创建索引的效率瓶颈在CPU及内存。当内存占用率维持在接近100%，索引大小达到物理内存大小时，插入新的数据容易出现OOM错误，这时需要使用ulimit –v unlimited命令更改virtual memory配置为unlimited再启动Solr便不会出现OOM错误。在64位机器系统上，官方推荐使用MMapDirectory。
NRTCachingDirectory速度偏慢，会在某一时间索引添加停滞，Size先大后小，减小后索引添加继续。
大小：1亿索引大小约为13-16GB，2亿索引大小约为30GB。

1.3 Solr搜索方式

交集：{name:亿度 AND address:海淀} {text:海淀 AND 亿度}。
联集：{name:亿度 OR address:海淀} {text:海淀 OR 亿度}。
排除：{text:海淀 -亿度}。
通配符：{bank:中国*银}。
范围：{num:[30 TO60]}。
分页：start rows
排序：sort
Group 权重中文分词 ...

1.4 亿级数据搜索速度

本节测试是基于1.2节创建的索引上的。

l精确搜索

数据量(亿条)	字段数	字段类型	时间(ms)
1	1	long	1
1	1	double	80-1400
1	1	string	7-800
1	1	date	2-400
1	2(OR)	long	2
1	2(OR)	double	200-2400
1	2(OR)	string	500-1000
1	2(OR)	date	5-500

模糊搜索

数据量(亿条)	字段数	字段类型	时间(ms)
1	1	long	2000-10000
1	1	double	1000-17000
1	1	string	20-16000
1	1	date	/
1	2(OR)	long	3000-25000
1	2(OR)	double	7000-45000
1	2(OR)	string	3000-48000
1	2(OR)	date	/

范围搜索

数据量(亿条)	字段数	字段类型	时间(ms)
1	1	long	6-46000
1	1	double	80-11000
1	1	string	7-3000
1	1	date	1000-2000
1	2(OR)	long	100-13000
1	2(OR)	double	100-60000
1	2(OR)	string	3000-13000
1	2(OR)	date	7000-10000

结论：

范围越大，结果数据越多，搜索花费时间越长。

第一次搜索较慢，后来时间花费较少。

来自为知笔记(Wiz)

本人主要从事海量数据处理、搜索，系统消息处理，系统架构设计的工作。喜欢写些文章，将自己近期的工作经验总结一下。欢迎转载，但转载时请说明出处。也可以关注我的新浪微博http://weibo.com/aitanjupt，进行交流。

本文出自 “aitanjupt” 博客，请务必保留此出处http://aitanjupt.blog.51cto.com/2839166/1414964

0
顶

0
踩

分享到：

RabbitMQ关键性问题调研

2014-05-21 21:34
浏览 1131
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr的使用进行的调研

摘要：本篇是本人对Solr的使用进行的调研，具体包括

使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的效率、以及测试Solr的搜索效率等。

http://www.cnblogs.com/wgp13x/p/3742653.html

1. Solr

1.1 Solr从数据库中读取数据并创建索引速度（使用DataImportHandler）

1.2 Solr创建索引效率

1.3 Solr搜索方式

1.4 亿级数据搜索速度

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr的使用进行的调研

摘要：本篇是本人对Solr的使用进行的调研，具体包括

使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的效率、以及测试Solr的搜索效率等。

http://www.cnblogs.com/wgp13x/p/3742653.html

1. Solr

1.1 Solr从数据库中读取数据并创建索引速度（使用DataImportHandler）

1.2 Solr创建索引效率

1.3 Solr搜索方式

1.4 亿级数据搜索速度

评论

发表评论

相关推荐

最近访客更多访客>>