regain增加paoding中文分词以及server端版本设置
原文来自:http://monner.iteye.com/blog/254804
———————————————————————-
补充:
用paoding中文分词,先建立词典
vi /etc/profile
export PAODING_DIC_HOME=/data/paoding/dic
将paoding的dic目录里的内容copy到 /data/paoding/dic
windows设置见手册
另外导入lucene/contrib/memory下的包lucene-memory到regain/lib中.再编译.
server版本中有个问题需要修改.如果出现乱码可尝试将
src/net/sf/regain/search/SearchToolkit.java
修改为下面的
queryString = query.toString().trim();
//add by robin
try {
queryString = new String(queryString.getBytes(”iso-8859-1″),”UTF-8″);
} catch (Exception e) {
}
request.setContextAttribute(SEARCH_QUERY_CONTEXT_ATTR_NAME, queryString);
}
分享到:
相关推荐
例如,使用Java编程时,可以使用`BufferedReader`和`FileReader`的构造函数指定编码,如`new BufferedReader(new InputStreamReader(new FileInputStream(file), "GBK"))`。 4. **日志和错误排查**:当出现编码问题...
Java开发中的中文乱码问题是一个常见的困扰,尤其是在处理网页页面提交和URL时。本文将详细介绍如何解决这些问题。 首先,我们来看一下页面提交到Tomcat时出现的乱码问题。这通常与服务器配置有关。在Tomcat的配置...
当尝试一次性处理200M左右的文本时,可能会遇到`java.lang.OutOfMemoryError: Java heap space`错误。这主要是由于Lucene在内存中缓冲文档,直至达到一定的数量或内存限制,然后才将数据写入硬盘。为了解决这个问题...
标题中的"C# 中文分词 LUCENE IKAnalyzer"是指使用C#语言实现的一个中文分词工具,它基于开源全文检索引擎Lucene,并且采用了IKAnalyzer(智能汉字分词系统)的Java版本进行移植。Lucene是一个强大的、高性能的信息...
- **导入分词数据**:将`D:\tools\javaTools\lucene\mmseg4j-1.8.5\data`下的所有文件复制到`D:\lucene\solr\home\dic`。 **6. 测试Solr** 通过访问`http://localhost:8080/solr/admin/`并点击相关按钮进行测试。 ...
点标签显示乱码, 请设置Tomcat的 URIEncoding 为 UTF-8 项目截图 SpringBoot开发非常美观的java博客系统(包含后台管理功能) 转自:https://gitee.com/mtons/mblog SpringBoot开发非常美观的java博客系统(包含...
最近一直在研究爬虫和Lucene,虽然开始决定选用Heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复运行该Job时文件夹始终是同一个...
- 页面乱码:确认Tomcat的URIEncoding已设置为UTF-8。 - Java运行异常:检查EmbeddedServletContainerFactory的配置。 - 第三方登录失效:确保已注册并配置第三方开放平台的OAuth账号。 - Maven依赖问题:在IDE...
`jsp乱码原因.jpg`可能解释了在处理JSP页面时可能出现的字符编码问题,提供了识别和解决乱码的策略。 `Subversion+and+TortoiseSVN.pdf`是关于版本控制系统Subversion及其图形界面工具TortoiseSVN的指南,它们在...
标签显示乱码,需检查Tomcat的URIEncoding是否已设置为UTF-8。对于启动异常“Unable to start EmbeddedWebApplicationContext”,需要检查EmbeddedServletContainerFactory的配置。第三方登录无响应,可能是因为回调...
此外,通过集成Lucene搜索引擎,实现了站内搜索,提高了内容检索效率。为了适应不同设备的浏览需求,博客系统采用了响应式布局设计,确保在各种屏幕尺寸下都能呈现良好的视觉效果。 技术选型方面,本系统基于JDK8...
Lucene搜索引擎实现站内搜索,提高了信息查找的效率。Ehcache作为缓存工具,优化了性能。视图模板使用Freemarker,前端框架采用Bootstrap,结合Jsoup、fastjson、jQuery、Seajs等工具,构建了响应式布局,确保了在...
wget http://apache.justdn.org/lucene/nutch/nutch-0.8.1.tar.gz ``` 解压下载的归档文件: ```bash tar zxvf nutch-0.8.1.tar.gz ``` **3. 抓取页面** 为了启动抓取任务,需要先准备一个包含待抓取网址的文件...
FAQ部分提供了一些常见问题的排查方法,例如出现乱码或查询不到结果时的解决措施。 通过这篇教程,我们可以获得关于如何安装配置Solr,如何通过Solr进行索引构建和搜索,以及如何优化Solr性能的详细指导。同时,也...
开源企业搜索引擎Apache Solr是一个广泛使用的开源搜索平台,它基于Apache Lucene,使用Java编写,并提供基于HTTP的简单RESTful API。本文档是一个关于如何应用Apache Solr的企业教程,涵盖了安装配置、应用模式、...
1. 全文检索:为了提高搜索效率,可以引入全文检索引擎,如Lucene,它提供高效的索引和搜索功能。 2. 智能提示:类似Google的自动补全功能,可以使用AJAX(Asynchronous JavaScript and XML)异步请求,当用户输入...