0

0

回答

208 浏览

求算法牛解一个分词算法,PHP ,ASP 解答。[已解决]5

数据库中3条记录。 1:i love you 2:i love her 3:i love you and her 只要有重复出现大于2次,就输出。 例如:一个字母的分词 i, love, you, her 2 个字母重复出现的 i love , love you 3个字母 i love you 这样的。

2013年4月08日 12:40
0

1

回答

1576 浏览

Lucene4.2版本的IndexWriter构造函数已经不提供是否增量索引的boolean 那在哪?[已解决]5

Lucene4.2版本的IndexWriter构造函数已经不提供是否增量索引的boolean 那在哪? 我一直以为在IndexWriterConfig这个里头可以设置。 但是看了API。貌似没有这个属性。 纠结。 原来设置全量增量式在IndexWriter的参数 true\false。现在莫有了。 纠结。纠结啊~ 

2013年3月22日 18:20
0

1

回答

646 浏览

lunece 3.6 调用 合并段索引的各种操作 不起作用[已解决]5

public void Createindex() throws Exception { // IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_36, analyzer); // LogMergePolicy mergePolicy = new LogByteSizeMergePolicy(); ...

2013年3月20日 21:58
0

1

回答

274 浏览

一个关于lucene搜索返回内容的问题~[已解决]10

我想用lucene实现搜索功能,我有6个txt文档,加起来有2G左右,存放在一个文件夹内,我想对里面的数据实现搜索,同时最后返回含有这个数据的文档名称以及该文档中包含这个数据的那一行文本,我用的是lucene3.0。但是我现在遇到了一个问题。建立索引时代码片段如下: doc.add(new Field("contents", temp, Field.Store.YES, Fie ...

2013年3月11日 11:18
0

1

回答

2503 浏览

基于solr4.1 IK分词 同义词等过滤器的配置[已解决]25

基于solr4.1的配置方面 由于4.1的版本, “在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口。因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类。” 所以 对于IK的配置 <fieldType name="text&q ...

2013年3月07日 16:57
0

0

回答

274 浏览

tika 怎样提取内容的前几个汉字[已解决]0

现在要用tika提取word的内容里前30个汉字 我的代码是: File f=new File("i:\\1.doc"); Document doc=new Document(); Metadata metadata=new Metadata(); doc.add(new Field("content", new Tika().parse(new File ...

2013年2月23日 10:29
0

1

回答

575 浏览

solr 建立索引问题[已解决]5

新手请教问题,对于solr建立索引,比如A:document有id,name,title等字段索引,b:document有id,sex,email等字段索引,能否做到,把这些id相同的字段,索引合并成一个document 上去?

2013年2月22日 16:51
0

0

回答

2232 浏览

通过 lucene 中QueryParser 设置权重的疑问[已解决]5

我想通过query.setBoost 到达某个搜索的条件优先排序。通过 QueryParser 来实现。但是起不了效果。 我的代码如下 //通过“^5.0”设置该字段的权重 String keyWord = "+AREAID:('-1') +TYPE_FLAG:('19001_knowedge'^1.0 '19002_quest'^5.0 'applicationTool'^2.0 )^1 ...

2013年1月23日 09:48
2

0

回答

131 浏览

如何得到每个文档中得分最高的那个field[已解决]20

用户输入关键词后,可以得到击中的那些文档(自然是通过对每个文档中的每个field的分值相加后排列所得到的),但我想得到的是每一个文档(指被击中的这些文档)中得分最高的那个field,谢谢!

2012年12月16日 21:10
0

4

回答

2280 浏览

solr运行一段时间后出现too many open files[已解决]20

solr运行一段时间后出现too many open files,停止服务。查看java进程打开的文件,出现很多的: java 6944 root 250u IPv6 614668508 0t0 TCP localhost:45597->localhost:tproxy (CLOSE_WAIT)java 6944 root 251u IPv6 614666678 0t0 TCP localho ...

2012年12月05日 11:34
0

0

回答

244 浏览

网站后台cms和前台front分别部署在不同的服务器上,后台cms执行定时任务创建索引index, 网站前台搜索如何搜索到?[已解决]0

网站后台cms和前台front分别部署在不同的服务器上,后台cms执行定时任务创建索引index, 网站前台搜索如何搜索到?请不吝赐教,急死小弟了。

2012年11月20日 14:55
0

2

回答

339 浏览

关于网站后台统计模块的问题,大家讨论讨论![已解决]5

网站(比如一个购物网站)的后台需要统计进入网站的人搜索的关键字或者是点击网站上某个商品的名称,我们需要对这些信息进行统计,比如统计今天每个或者这个月那个关键词或者商品名称被点击了几次这些信息。 我们应该怎么去实现呢? 我能想到的最初级的方法是:客户在搜索栏输入关键词点击搜索时在数据库的统计表插入一条数据,点击商品名称同理,点击时将商品名称插入到数据库表。 这样的问题就是如果每搜索一次都会插入一条 ...

0

0

回答

119 浏览

Lucene 查询一个Field包含某个字符[已解决]5

Lucene 查询一个Field包含某个字符 比如字符a,可以是开头类似于SQL的like的用法。

2012年10月29日 13:35
0

3

回答

1113 浏览

我看见程序类名后面加$是不是系统自己生成的呀[已解决]0

我看见程序类名后面加$是不是系统自己生成的呀

2012年10月28日 18:03
0

0

回答

1233 浏览

lucene 中怎样查询不包含某个字段的document?[已解决]5

最近有在用lucene 做查询,遇到一个问题,请教各位大侠: 需求如下: 查询出不包含某个字段或某个字段为空的文档,然后把这些数据删掉。 那位大侠有过类似的需求呀?

2012年10月19日 09:31
0

2

回答

196 浏览

lucene和嵌入式数据库哪个查询更效率[已解决]5

如题………………

2012年10月11日 13:12
0

1

回答

840 浏览

lucence 千万级数据 总数 很慢[已解决]30

最近在用lucence的时候发现了一个问题 首先我要查询的是满足条件的数据的总数 当我开始查询的时候 条件越宽松 返回的数据越多 也就是说返回的结果越大 查询的速度就越慢 反之 条件越多 返回的数据越少 也就是说返回的结果越小 查询的速度就越快 现在的问题是我希望再任何的条件下都保持1秒内返回结果 我的数据来源是千万条数据的数据库的表。约束条件的类型有时间、字符串等

2012年10月10日 20:15
0

0

回答

809 浏览

如何物理上彻底的删除lucene生成的索引文件中的部分document呢[已解决]5

如何物理上彻底的删除lucene生成的索引文件中的部分document呢?我现在使用的Lucene3.5版本。我现在业务上有这样需求: 由于服务器磁盘空间有限,现只需用lucene保存最近90天数据(索引文件),大概占用40G的硬盘空间。每天增量追加新一天的数据,同时也删除最早一天的数据。这样一增一删,始终保持90天的数据量。但现在我该如何物理上彻底的删除一些过期的Document呢?之所以需要物 ...

2012年9月25日 19:19
0

1

回答

1515 浏览

lucene索引文件过大,如何实现分割索引库[已解决]10

我的索引库文件index超过2g,且有继续增长的可能,如何实现索引库文件的分割,或有什么方式可以确保程序的正常动作

2012年8月28日 13:10
0

1

回答

568 浏览

关于Lucene的布尔查询?[已解决]5

关系是这样的 : (北京|暴雨) (死人|淹死) ^(奥运) 其中,每个括号里的词和词之间是 '或' 的关系, 比如 '北京' 和 '暴雨' 可以用一个布尔查询组织起来, 但是 每个括号 之间 是 '和' 的关系 最后 带有 异或^ 符号的 的括号中的词 是必须不能包含的 索引库中查询的字段有两个 分别是 title和content 我试着用N多 的booleanQuery 按着这个逻辑组合 ...

2012年8月22日 10:56

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics