`
lzj0470
  • 浏览: 1272959 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表
华硕 F83E81Se-SL 处理器型号 Intel 酷睿2双核 T8100 标称主频 2.1GHz 前端总线 800MHz 二级缓存 3MB
Lucene中文分析器的中文分词准确性和性能比较   作者: approximation 对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。 单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,将文字进行切分。车东的交叉双字分割或者叫二元分词我觉得 ...
作为Java程序员来说,最痛苦的事情莫过于可以选择的范围太广,可以读的书太多,往往容易无所适从。我想就我自己读过的技术书籍中挑选出来一些,按照学习的先后顺序,推荐给大家,特别是那些想不断提高自己技术水平的Jav ...
昨天,搞了一天,在win2003下,搜索中文有些可以搜索的出来,有些搜索不出来,已经确定mysql 编码为utf8,代码编码也是utf8,配置文件也设置了utf-8,但是就是搜索不出来,郁闷了,why? 没办法,搞不定,重新照抄别人的例子,咦~~,搜索中文没问题,为什么在我这里就不行呢?接着,拿它的配置文件跟我的对照一般,发现它的配置文件里面存在min_infix_len = 1,而我的到charset_table就结束啦。我测试了一下,有结果了。可以搜索中文。呵呵。 我的配置文件为: source newgn { type = mysql sql_host = ...
用的修复命令是:myisamchk -r bbsthreads 其中bbsthreads是我出问题的表名,当然使用这个命令还得进入mysql你所出问题的数据库的表的存放路径,具体更详细的命令可以看帮助:myisamchk --help; 如果用以上命令你不能解决问题请看后面 ...
一、概述   在Web应用中,有些报表的生成可能需要数据库花很长时间才能计算出来;有的网站提供天气信息,它需要访问远程服务器进行SOAP调用才能得到温度信息。所有这一切都属于复杂信息的例子。在Web页面中加入过多的 ...
在JSP里,获取客户端的IP地址的方法是:request.getRemoteAddr(),这种方法在大部分情况下都是有效的。但是在通过了Apache,Squid等反向代理软件就不能获取到客户端的真实IP地址了。如果使用了反向代理软件,用request.getRemoteAddr()方法获取的IP地址是:127.0.0.1或192.168.1.110,而并不是客户端的真实IP。   经过代理以后,由于在客户端和服务之间增加了中间层,因此服务器无法直接拿到客户端的 IP,服务器端应用也无法直接通过转发请求的地址返回给客户端。但是在转发请求的HTTP头信息中,增加了X-FORWARDED-FOR ...
http://www.99inf.net/SoftwareDev/Java/44847.htm
1、启动选项中修改 启动mysql的时候加参数 -O max_heap_table_size=64M 。 2、修改my.cnf 在[mysqld]的段中 增加 max_heap_table_size = 32M 3、在mysql客户端工具中修改 mysql> set max_heap_table_size=32777216; Query OK, 0 rows affected (0.00 sec) mysql> ...
领导要求在开发的系统中添加发送短信的功能,但又不想使用人家的短信服务器(想省钱,哈哈),只好自己开发。上网找了很久,最好找到了一个不错的发送短信的jar包——jsmsengine。它是一个开源的东东,你可以访问http://jsmsengine.sourceforge.net/ 来了解更详细的信息。下面就是我在使用的过程中遇到的一些问题,在这里与大家一起分享。       将jsmsengine_1_2_6-B1下载并解压,可以看到相关的jar包、源码、文档、例子以及一个简单的SMS服务器程序。闲话少说,赶紧在eclipse中新建一个项目将源码和例子引进来,然后又向同事借了个支持AT指令 ...
前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统。网上的资料大多是在linux环境下的安装使用,当然,作为生产环境很有必要部署在*nix环境下,作为学习测试,还是windows环境比较方便些。 本文旨在提供一种便捷的方式让Sphinx在windows下安装配置以支持中文全文检索,配置部分在linux下通用。 一、关于Sphinx Sphinx 是一个在GPLv2 下发布的一个全文检索引擎,商业授权(例如, 嵌入到其他程序中)需要联系作者(Sphinxsearch.com)以获得商业授权。 一般而言,Sphinx是一个独 ...
本文出自:http://blog.s135.com/post/385.htm   曾经在七月,写过一篇文章──《基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计》,前公司的分类信息搜索基于此架构,效果明显,甚至将很大一部分带Where条件的MySQL SQL查询,都改用了Sphinx+MySQL搜索。但是,这套架构仍存在局限:一是MySQL本身的并发能力有限,在200~300个并发连接下,查询和更新就比较慢了;二是由于MySQL表的主键与Sphinx索引的ID一一对应,从而无法跨多表建立整站查询,而且新增加类别还得修改配置文件,比较麻烦;三是因为和MySQL集成,无法发挥出 ...
http://www.sphinxsearch.com/ Sphinx是一个俄国人开发的搜索引擎,它的主要特点是: 一、性能非常出色 150万条记录一两分钟就索引完毕,2-4GB以内的文本检索速度不到0.1秒钟。ferret也望尘莫及,更不要说lucene了。 二、和数据库集成性很好 Sphinx通过配置文件可以自行读取数据库信息做索引,不依赖任何外部的应用程序,并且可以作为一个daemon进程启动,支持分布式检索,并发响应性能很好。因此很多过去使用ferret的人因为并发检索的问题都改用Sphinx了。 三、可以做MySQL的全文检索 MySQL的数据库引擎是可插拔的结构,Sphinx开 ...
一、编译先前条件 确认是否已经安装以下软件,有些也许不是必须的,但建议还是都装上。 apt-get install autoconf automake autotools-dev cpp curl gawk gcc lftp libc6-dev linux-libc-dev make libpcre3-dev libpcrecpp0 g++ libtool libncurses5-dev   aptitude install libmysql++-dev libmysqlclient15-dev checkinstall   apt-get install python python ...
1 环境:windows 2003 + tomcat6.0.14 + lucene 2.2.0配置: Intel Pentium D CPU 3.00GHz,3.00GHz,992MB内存 索引数据量:200万loadrunner 200并发测试,每秒钟请求一次.平均hit/sec = 187.54平均响应时间小于0.5秒 cpu 100%,内存:830MB IndexReader还没有采用单例模式时,只能并发20,改成单例模式后就可以并发200左右了.LUCENE还是比较强的.   来源:http://zhangxinzhou.wwww.blog.ccidnet.com/blog- ...
Global site tag (gtag.js) - Google Analytics