赞美开源,赞美luence贡献的廉价全文搜索解决方案

chenjinlai

浏览: 70314 次
性别:
来自: 杭州

最近访客更多访客>>

JohnLin1988

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (52)

社区版块

存档分类

搜索引擎全文检索 Solr Tomcat XML

由于技术大佬的分享和开源社区的贡献,让咱们小企业也能拥有廉价的搜索引擎...

成本可能只是几天,就能有海量数据的快速搜索解决方案...

虽然目前还没推广开,很多disscuz论坛还不能开放全文搜索...不过可以想见这一天会很快到来的

luence是目前最强劲的搜索引擎之一....而且更新快,apache的重点项目,本来是java的,php等其他语言用java不方便...
于是有了solr,这是把luence封装成http接口...每个插入,查询通过xml格式的post,get方法得到...可以给php之类的用...

今天研究了一下基于solr的中文检索解决方案...

1. 把solr压缩包的 example/solr 复制到D:\solr
2. 把solr压缩包的 dist/*.war包放到tomcat的应用目录webapps,改名为solr.war

3. 在tomcat\conf\Catalina\localhost 目录下部署 solr.xml
内容如下:
<Context docBase="D:/Program Files/Apache Software Foundation/tomcat-solr/Tomcat 6.0/webapps/solr.war" debug="0" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="D:/solr/solr" override="true" />
</Context>
kk
4. 配置solr/conf/schema.xml里面加上
<fieldType name="text_chinese" class="solr.TextField">
<analyzer class="jeasy.analysis.MMAnalyzer" />
</fieldType>

这个中文切词工具在这里有: http://jesoft.cn ,号称:
kk
分词算法：正向最大匹配 + 词尾多重消歧 + 22万精选词典
分词效率：每秒30万字（测试环境迅驰1.6，第一次分词需要1－2秒加载词典）
内存消耗：30M

5. Tomcat 6.0\conf\server.xml里面加上utf-8编码支持
<Connector port="8080" protocol="HTTP/1.1" maxHttpHeaderSize="8192" URIEncoding="UTF-8"/>

这样已经能搜索出完整的中文词语了,不过还没有分词
kk
solr/example/exampledocs下面运行语句...
java -Durl=http://localhost:8080/solr/update -jar post.jar *.xml
就能把所有xml递交上去...

这是我的field类型,type用于表示资料类型属性,title是题目,content是内容
<field name="id" type="string" indexed="true" stored="true" required="true" />
<field name="type" type="text_chinese" indexed="true" stored="true" omitNorms="true"/>
<field name="title" type="text_chinese" indexed="true" stored="true"/>
<field name="content" type="text_chinese" indexed="true" stored="true"/>
<field name="text" type="text_chinese" indexed="true" stored="false" multiValued="true"/>

kk因为默认搜索text,所以把title和content也加上去

<copyField source="title" dest="text"/>
<copyField source="content" dest="text"/>

然后...搜索了一下效果真好...

下一步是批量生成本地数据库的xml文件,我是这么考虑的

小批量产生文件,递交,再次产生,递交...

ENV["RAILS_ENV"] = "development"
require File.expand_path(File.dirname(__FILE__) + "/../config/environment")

global = Article.find(:all,:order=>'id desc',:limit=>1000)

while(1)
f = open('tmp.xml','w')
ss = global[0,50]
puts ss.size
exit if ss.size != 50
global = global[50,global.size]

f.write('<add>')
for a in ss
f.write('<doc>')
f.write '<field name="id">'+a.id.to_s+"</field>\n"
f.write "<field name='type'>article</field>\n"
a.title = '' if !a.title
f.write '<field name="title"><![CDATA['+a.title+"]]></field>\n"
a.description = '' if !a.description
f.write '<field name="content"><![CDATA['+a.description+"]]></field>\n"
f.write('</doc>')
end
f.write('</add>')

f.close

system('run.bat')
end

配到服务器上时候又是一堆问题...

先是8080端口访问不了,后来对比了xml文件发现少了这个
<Host name="localhost" appBase="webapps"
unpackWARs="true" autoDeploy="true"
xmlValidation="false" xmlNamespaceAware="false">
</Host>

后来可以访问了,页面好像卡死了
查看log java.lang.OutOfMemoryError: Java heap space

在tomcat里面放了512m初始内存

重启tomcat就好了...这个内存问题以后可能还是个麻烦事...

....中间一番折腾

最后终于跑起来了...

不过没估计到文章太多,本来是全部读取...差点没搞死机器...
后来改成一次性读取id,然后小批量通过id去读取文章生成xml文件,递交...

恩,接下来就是和网站的对接...

--------------
chenjinlai
2008-03-07

分享到：

solr系统和网站查询的对接...

2008-03-07 12:42
浏览 2016
评论(1)
查看更多

1 楼 niule 2008-10-23

你好，我是按照步骤来部署的，也是用的jeasy的分词
在analyze里已经可以分词了，但是在query的时候，还是没有分词，

比如索引里有“中文分词终于”这句，我查询“中文终于”的时候，在query中是没有分词，得不到结果
请问是哪里没有配置正确呢，谢了

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论