`
iluoxuan
  • 浏览: 580367 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
1:solr4.0加入中文分词:   在IK的自带文档中有: 这里特别的罗嗦几句,在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口。因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类。   2:首先在tomcat不是的solr目录下lib中加入: IKAnalyzer2012FF_u1.jar包   3:然后再solr目录C:\solr\collection1\conf下的schema.xml文件中加入:     ...
安装方法:http://wiki.apache.org/solr/SolrTomcat   Solr是一个基于Lucene java库的企业级搜索服务器,本文记录了solr的安装过程,版本为最新的4.0。 1) 下载     从solr的官网http://lucene.apache.org/solr/找到最新的版本4.0.     解开下载的apache-solr-4.0.0.zip或apache-solr-4.0.0.tgz文件到apache-solr-4.0.0目录. 2) 简易安装     solr的发布包中包含一些example,为了方便的运行这 ...
1:lucene中打开一个IndexWriter后就会把索引改lock住,如果强行在打开一个IndexWriter那么就会抛出: Lock obtain timed out: NativeFSLock@D:\lucene\index\write.lock异常。 2:所以在Lucene中要记得及时关闭IndexWriter。   package com.searchtxt.lucene; i ...
package com.searchtxt.lucene; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.Reader; import java.io.StringReade ...

lucene4.0入门实例

1:以前用3.5的时候,到现在也差不多忘了,重新看了下文档,写个简单的例子   lucene4.0中有很多新的东西,其中Field类主要不能new Field()要通过其子类去实现比如new StringField()等,对分词等参数也有部分变化。   创建索引的代码如下:     package com.search.lucene; import java.io.File; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAn ...

lucene原理

    博客分类:
  • java
    Lucene原理     1 反向索引 _       字符串到文件的映射   左边的称为“字典”,用户要搜索的词语,而右边就是所有包含该次的文档的list,称为“倒排表posting List”.查找lucene和solr就3步 1.     查找包含lucene关键字的文档链表 2.     查找包含solr关键字文档链表
转载:http://hxraid.iteye.com/blog/618962   Trie 树, 又称字典树,单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。   Trie 有三种结 ...
转载原文:http://hxraid.iteye.com/blog/667134    中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩 ...

python乱码

我在python中使用的碰到的中文相关的问题有:1.执行是出现“SyntaxError: Non-ASCII character ‘\xe6′ in file 2.py on line 2, but no encoding declared; “类似的错误 。2.打印时或是将输出重定向时结果是乱码。搜集了一些相关资料: 1.可在文件首行加上: # -*- coding: UTF-8 -*- 2.可设置pythonq解析引擎的默认编码:

python多线程

# -- coding:utf-8 -- import threading import time, random class Counter: def __init__(self): self.lock = threading.Lock() self.value = 0 def increment(self): self.lock.acquire() # critical section self.value = value = self.value + 1 self.l ...
  import os import string print os.path.abspath("test.txt") dir = os.path.dirname(os.path.abspath("test.txt")) print dir print os.path.exists("test.txt") print os.path.basename(os.path.abspath("test.txt")) print os.path.join(dir,"test.txt") ...

python 图形处理pil

1:为了识别验证码,首先必须学习下python的图形处理     import Image im = Image.open("F:\\captcha.jpg") print im.mode, im.size, im.format  结果:   RGB (250, 40) JPEG rgb是颜色的 第二个是像素 第三个是格式   im.show是看不到图片的,不知道为什么?看网上的解决是:   Here is a quick workaround: Edit C:\Python26\lib\site-packages\PIL\ImageShow ...

django的模型总结

1:用过django就知道django的model有多方便:   首先介绍下django的模型有哪些属性:先看例子:   Django 模型类的Meta是一个内部类,它用于定义一些Django模型类的行为特性。以下对此作一总结: abstract      这个属性是定义当前的模型类是不是一个抽象类。所谓抽象类是不会对应数据库表的。一般我们用它来归纳一些公共属性字段,然后继承它的子类可以继承这些字段。比如下面的代码中Human是一个抽象类,Employee是一个继承了Human的子类,那么在运行syncdb命令时,不会生成Human表,但是会生成一个Employee表,它包含了H ...
 1:django处理静态文件:   比如 : 我的工程是xiaoshuo-----》进入 小说 ---》 manage.py  xiaoshuo  在进入: 在下面建立一个 static 和templates文件夹   打开  settings.py :   import os   STATICFILES_DIRS = ( # Put strings here, like "/home/html/static" or "C:/www/django/static". # Always use forward slash ...
http://developer.51cto.com/art/201008/222367.htm,解决办法   1: 本来 div父容器会随着子div的高度变化而自适应的,   2:如果子div使用了float属性,此时已经脱离标准流,父div不会随内容的高度变化而变化,解决的办法是在浮动的div下面,加一个空div,设置clear属性both。   <div style="clear:both"></div>     看来对css的理解还是要多多处理啊
Global site tag (gtag.js) - Google Analytics