票
回答
求教,关于Lucene的一些解决方案[已解决]30
最近公司要做全文检索,选择了Lucene,研究了下,能够实现基本的创建索引及检索功能。不过在学习的过程中运到些问题,求大神指教。主要是求解一些解决思路。 1.是不是要将文章内容存储起来?如果将文章内容存储了,是不是影响效率 2.如果要做高亮显示,是不是必须将文章内容存储 3.有好的分页查询思路吗,看到网上提供的方案都是先把符合条件的数据都查询出来,然后只返回查询出的部分数据,以此来实现分页功能 4. ...
票
回答
有搜索引擎和非结构化数据挖掘的同行吗?[已解决]5
我有个朋友,现在国外的石油行业工作,他想做一个基于文件的企业搜索引擎,同时还想对大量有关钻井的非结构化数据进行数据挖掘。不知有没有高手愿意合作?他想找的是技术合伙人,全职兼职均可。如果您有兴趣和时间,请和我联系。我将我将提供更多的技术细节。多谢!
票
回答
solr3.5整合mmseg4j报错,等求大神帮忙![已解决]5
java.lang.ClassNotFundException:org.apache.solr.util.plugin.solr ResourceLoaderAware solr-core.jar是在solr.war里面的。整合mmseg4j中文分词报错。 配置是按照网上的文章配的,没整前solr可以启动,整后却一直报这个错误,但是mmseg4j的jar和配置应该都没问题。搞不明白,大家指指路!谢 ...
票
回答
lucene 实例创建及实时索引[已解决]0
public class LuceneFactory { // song索引 private static IndexReader songReader = null; private static IndexSearcher songSearcher = null; private static Directory songDirectory = null; private static ...
票
回答
请教一下lucene4.x下精确与模糊组合查询怎么写?[已解决]5
刚刚接触lucene,用的是最新版的4.10.我现在有个这样的需求。 人员总共有两组,A、B组。 在设计索引时将A、B组的ID也保存了。 我现在想A组的人只能搜A组的内容。 实现思路是: 通过组ID精确定位到某个组,然后使用关键字模糊搜素这个组内的所有内容。 lucene小白一个,还请大家多多指教。
票
回答
solr分页查询很慢,不知道什么原因[已解决]5
项目中使用solr做列表页分页搜索 数据量大概在二十几万数据,应该不算大 但不知道什么原因 前面页码的时候还挺快,但越往后速度越慢,翻到二十万数据的时候非常慢,大概二十多秒才能出结果,甚至更慢,不带条件查询也是这样 现在没有头绪,请问这可能是什么原因导致的呢? INFO - 2014-08-22 17:59:41.747; org.apache.solr.core.SolrCore; [prop ...
票
回答
solr中schema.xml中定义fieldType 中的docValuesFormat和postingsFormat属性怎么用[已解决]3
最近刚接触solr,看到在solr中schema.xml中定义fieldType 中的docValuesFormat和postingsFormat属性,通过查看也不知道具体怎么用,该用在什么场景下,有了解的给解释一下这两个属性,最好给举一个例子或代码示例。
票
回答
Lucene2.4.1 + compass2.2.0 + spring3mvc + jpa compassGps索引不同步[已解决]10
1.persistence.xml <persistence-unit name="test" transaction-type="RESOURCE_LOCAL"> <provider>org.hibernate.ejb.HibernatePersistence</provider> <properties> ...
票
回答
票
回答
Lucene4.0索引的效率问题[已解决]10
最近用Lucene4.0做全文检索:公司大约有700GB左右的文件,格式有PDF、word、ppt、图片及其它等等,文件数量大约在70万个左右。我用多线程调用Tika来解析文件,解析后的文本文件写入本地磁盘,耗时大概1-2天的样子;然后用Lucene4.0对做索引,索引代码如下: Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_40) ...
票
回答
如何向solr服务器提交大日志文件[已解决]5
现在公司有个项目对日志文件进行全文检索,准备用solr完成。现在遇到一个问题,由于日志的文件比较大,一般10几兆,大的已经达到几百兆了。我们将日志的内容设置为content字段,类型为string,但是当我们将documnet提交到server的时候,就报OOM的错误,请问如何解决该问题?
票
回答
hadoop中hdfs-site.xml配置的问题[已解决]0
我在hdfs-site.xml中是这样配置的: <configuration> <property> <name>dfs.name.dir</name> <value>/home/hadoop/tamp</value> </property> <property> <name>df ...
票
回答
hadoop配置了NodeData,但是管理界面却显示0个NodeData[已解决]5
安装了一台Master和一台salve 启动后的两台机器的JPS都是可看到进程的,但是在管理页面上却是0个Nodedata 基本配置如下: 1.core-site.xml <configuration> <property> <name>hadoop.tmp.dir</name> <value>/usr/hadoop/tmp< ...
票
回答
Solr配置Blob字段报错[已解决]5
SOLR通过dataimport导入oracle数据库数据建立索引,表中含有blob类型的字段,在solrconfig.xml中配置了dataimport请求,data-config.xml文件配置见“data-config.zip”附件,启动solr运行,报“java.lang.RuntimeException: unsupported type : class java.lang.String” ...
票
回答
solr4.7数据导入问题[已解决]30
本人刚解除solr,测试从oracle导入数据,总得到如下信息: Indexing completed. Added/Updated: 0 documents. Deleted 0 documents. Requests: 1, Fetched: 4, Skipped: 0, Processed: 0 Started: 6 minutes ago 添加的索引条数总为0,但实际获取到数据为4条,不 ...
票
回答
elasticsearch[已解决]0
ES里面的将数据分为工作数据和持久化数据两种,工作数据可以都放在内存中,这样可以保证非常好的性能,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘,ES节点间的数据会定时刷新和同步,那这个时间点在何时回执行?可以更改这个时间点吗?
票
回答
Lucene如何索引巨大的PDF文件?[已解决]5
我想用Lucene对一个529G大小的PDF文件进行索引,开始使用Tika1.5,异常为: TIKA-198: Illegal IOException from org.apache.tika.parser.pdf.PDFParser@1455935 org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:248) org ...
票
回答
学习lucene建立检索和搜索过程中遇到的错误[已解决]30
使用lucene4.6.0版本建立的索引和搜索,在创建索引后会产生如下索引文件 [img] [/img] 但是在搜索时 ScoreDoc[] sds = tds.scoreDocs; 中的sds总为空。求大神帮忙解决!!!!!!! 代码如下: package nhky.bs.lucene.test.hellolucene; import java.io.File; import java. ...
票
回答
关于先在Lucene搜索电影对象,然后用in在数据库中查找喜欢电影的人,分页该怎么办?[已解决]5
查询是这样的 首先先在Lucene中查找相关电影的信息,得到电影的记录id, 然后再到数据库中用in(1,2,3,...n),查找喜欢这些电影的用户,得到用户的记录 现在我要做分页,该以什么标准来分呢?由于2个查询的总记录数不一样,我是把pageNum传给lucene还是数据库呢,有没有高手遇到了这类问题,谢谢
票
回答
oznyang 评论了 关于oznyang发布的i18nTool工具的使用
huayang912 评论了 easyui datagrid 弹出窗口空白的解决方法
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
26762685 评论了 SOS!session串号现象
elbert 评论了 Java怎么实现打印机监控
sandy8508 评论了 Java String.format性能如何
feng_tai_jun 评论了 JSP里加return就会无法编译说Unreachable code
xiaojunjava 评论了 JAVA 连接打印机 打印作业属性设置无效果问题
xiaominzi 评论了 java.security.InvalidAlgorithmParameterException: Prime size must be multiple