java lucene乱码 - - ITeye博客

`

wujiangming

浏览: 14477 次
性别:
来自: 南京

最近访客更多访客>>

yangyuan1115

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (12)

社区版块

存档分类

最新评论

java lucene乱码

lucene Java Windows .net Blog

阅读更多

regain增加paoding中文分词以及server端版本设置
原文来自:http://monner.iteye.com/blog/254804
———————————————————————-
补充:
用paoding中文分词,先建立词典
vi /etc/profile
export PAODING_DIC_HOME=/data/paoding/dic
将paoding的dic目录里的内容copy到 /data/paoding/dic
windows设置见手册

另外导入lucene/contrib/memory下的包lucene-memory到regain/lib中.再编译.

server版本中有个问题需要修改.如果出现乱码可尝试将
src/net/sf/regain/search/SearchToolkit.java
修改为下面的
queryString = query.toString().trim();

//add by robin
try {
queryString = new String(queryString.getBytes(”iso-8859-1″),”UTF-8″);
} catch (Exception e) {
}
request.setContextAttribute(SEARCH_QUERY_CONTEXT_ATTR_NAME, queryString);
}

分享到：

regain 安装 | java lucene

2010-01-10 17:11
浏览 1802
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene 字符编码问题: 例如，使用Java编程时，可以使用`BufferedReader`和`FileReader`的构造函数指定编码，如`new BufferedReader(new InputStreamReader(new FileInputStream(file), "GBK"))`。 4. **日志和错误排查**：当出现编码问题...

java页面中文乱码的解决办法: Java开发中的中文乱码问题是一个常见的困扰，尤其是在处理网页页面提交和URL时。本文将详细介绍如何解决这些问题。首先，我们来看一下页面提交到Tomcat时出现的乱码问题。这通常与服务器配置有关。在Tomcat的配置...

Lucene初试——关于大文本建立索引和中文乱码以及QueryParser检索的一些体会 - sheen口开河 - CSDN博客: 当尝试一次性处理200M左右的文本时，可能会遇到`java.lang.OutOfMemoryError: Java heap space`错误。这主要是由于Lucene在内存中缓冲文档，直至达到一定的数量或内存限制，然后才将数据写入硬盘。为了解决这个问题...

c# 中文分词 LUCENE IKAnalyzer: 标题中的"C# 中文分词 LUCENE IKAnalyzer"是指使用C#语言实现的一个中文分词工具，它基于开源全文检索引擎Lucene，并且采用了IKAnalyzer（智能汉字分词系统）的Java版本进行移植。Lucene是一个强大的、高性能的信息...

solr3.5与tomcat的部署配置以及与java项目的集成: - **导入分词数据**：将`D:\tools\javaTools\lucene\mmseg4j-1.8.5\data`下的所有文件复制到`D:\lucene\solr\home\dic`。 **6. 测试Solr** 通过访问`http://localhost:8080/solr/admin/`并点击相关按钮进行测试。 ...

SpringBoot开发非常美观的java博客系统(包含后台管理功能): 点标签显示乱码, 请设置Tomcat的 URIEncoding 为 UTF-8 项目截图 SpringBoot开发非常美观的java博客系统(包含后台管理功能) 转自：https://gitee.com/mtons/mblog SpringBoot开发非常美观的java博客系统(包含...

一个简单的java爬虫产品: 最近一直在研究爬虫和Lucene，虽然开始决定选用Heritrix来执行爬虫操作，但是后来发现用它来做还是存在一定的问题，比如需要程序生成相应的XML文件，对于同一个Job，怎样才能保证重复运行该Job时文件夹始终是同一个...

SpringBoot开发非常美观的java博客系统.pdf: - 页面乱码：确认Tomcat的URIEncoding已设置为UTF-8。 - Java运行异常：检查EmbeddedServletContainerFactory的配置。 - 第三方登录失效：确保已注册并配置第三方开放平台的OAuth账号。 - Maven依赖问题：在IDE...

传智播客Javaweb课件大全ppt 第二部分: `jsp乱码原因.jpg`可能解释了在处理JSP页面时可能出现的字符编码问题，提供了识别和解决乱码的策略。 `Subversion+and+TortoiseSVN.pdf`是关于版本控制系统Subversion及其图形界面工具TortoiseSVN的指南，它们在...

SpringBoot开发非常美观的java博客系统(包含后台管理功能).pdf: 标签显示乱码，需检查Tomcat的URIEncoding是否已设置为UTF-8。对于启动异常“Unable to start EmbeddedWebApplicationContext”，需要检查EmbeddedServletContainerFactory的配置。第三方登录无响应，可能是因为回调...

SpringBoot开发非常美观的java博客系统 (2).pdf: 此外，通过集成Lucene搜索引擎，实现了站内搜索，提高了内容检索效率。为了适应不同设备的浏览需求，博客系统采用了响应式布局设计，确保在各种屏幕尺寸下都能呈现良好的视觉效果。技术选型方面，本系统基于JDK8...

SpringBoot开发非常美观的java博客系统(包含后台管理功能).docx: Lucene搜索引擎实现站内搜索，提高了信息查找的效率。Ehcache作为缓存工具，优化了性能。视图模板使用Freemarker，前端框架采用Bootstrap，结合Jsoup、fastjson、jQuery、Seajs等工具，构建了响应式布局，确保了在...

Nutch全文搜索学习笔记: wget http://apache.justdn.org/lucene/nutch/nutch-0.8.1.tar.gz ``` 解压下载的归档文件： ```bash tar zxvf nutch-0.8.1.tar.gz ``` **3. 抓取页面** 为了启动抓取任务，需要先准备一个包含待抓取网址的文件...

Solr 教程 pdf: FAQ部分提供了一些常见问题的排查方法，例如出现乱码或查询不到结果时的解决措施。通过这篇教程，我们可以获得关于如何安装配置Solr，如何通过Solr进行索引构建和搜索，以及如何优化Solr性能的详细指导。同时，也...

开源企业搜索引擎SOLR的应用教程.pdf: 开源企业搜索引擎Apache Solr是一个广泛使用的开源搜索平台，它基于Apache Lucene，使用Java编写，并提供基于HTTP的简单RESTful API。本文档是一个关于如何应用Apache Solr的企业教程，涵盖了安装配置、应用模式、...

jsp仿google搜索: 1. 全文检索：为了提高搜索效率，可以引入全文检索引擎，如Lucene，它提供高效的索引和搜索功能。 2. 智能提示：类似Google的自动补全功能，可以使用AJAX（Asynchronous JavaScript and XML）异步请求，当用户输入...

Global site tag (gtag.js) - Google Analytics