阅读更多

11顶
2踩

编程语言

原创新闻 发布IKAnnlyzer3.2.0稳定版 for Lucene3.0

2009-12-08 12:35 by 见习记者 linliangyi2007 评论(18) 有4953人浏览
前言
由于Lucene3.0 API的全面升级,且不再与Lucene2.X兼容, IK Analyzer为此推出了3.2.0版本。该版本仅支持Lucene2.9 / 3.0和solr1.4的接口实现。
PS:使用Solr1.3和lucene2.9之前版本的用户请下载IK Analyzer3.1.6GA使用,谢谢!

IK Analyzer 3.2.0版本修订
  • 1.支持Lucene3.0 Analyzer实现
  • 2.移除solr1.3接口,修改solr1.4接口
  • 3.默认开放停止词功能,发布IK自带的ext_stopword.dic停止词典
  • 4.优化了IKQueryParser的性能


IK分词器对Lucene及solr的版本支持明细表


下载地址

IKAnalyzer3.2.0稳定版发布包

IKAnalyzer3.2.0稳定版使用手册
来自: javaeye
11
2
评论 共 18 条 请登录后发表评论
18 楼 linliangyi2007 2010-08-12 16:15
guava 写道
我想问一下 '7仔' '神9' '12月' 这些应该归入中文分词里面吧
在ik上什么可以实现中英文混合的分词啊?


不支持混合输出,加词典也没有用的。IK面向搜索的,如果你做语义分析的,肯定不行了
17 楼 guava 2010-08-12 11:20
我想问一下 '7仔' '神9' '12月' 这些应该归入中文分词里面吧
在ik上什么可以实现中英文混合的分词啊?
16 楼 linliangyi2007 2010-02-10 14:22
qinzy 写道
您好,请问停止词,专有词典如何理解.


停止词是指那些需要被过滤掉,不用输出的词如中文中的“的”“了”,之所以称之停止词,是直接翻译自英文的stopword一词。

专有词典是指用户自定义的词典
15 楼 qinzy 2010-02-09 16:39
您好,请问停止词,专有词典如何理解.
14 楼 linliangyi2007 2009-12-10 09:26
whaosoft 写道
linliangyi2007 写道
caoyangx 写道
我换上了最新版本,有一个不重要的小bug说一下,IKQueryParser.parse调用了一个_parse方法,里面System.out.println(System.currentTimeMillis());这句话建议注释一下,每次查询都打印当前时间信息,搞得控制台好不爽。


汗死,这个是个大纰漏,不好意思,非常感谢

不算吗~~ 估计是你忘啦 原谅你啦 哈哈 不过用log得啦~


不用log是因为不想有很多依赖的jar,那些东西挺烦人的,呵呵。
13 楼 whaosoft 2009-12-10 08:54
linliangyi2007 写道
caoyangx 写道
我换上了最新版本,有一个不重要的小bug说一下,IKQueryParser.parse调用了一个_parse方法,里面System.out.println(System.currentTimeMillis());这句话建议注释一下,每次查询都打印当前时间信息,搞得控制台好不爽。


汗死,这个是个大纰漏,不好意思,非常感谢

不算吗~~ 估计是你忘啦 原谅你啦 哈哈 不过用log得啦~
12 楼 linliangyi2007 2009-12-09 17:44
wanghui0421 写道
据说2.9的那个中文分词就是中科院的那个分词器

那个分词器不错,不过可惜只提供了1.0版本的算法,2.0和3.0的就没有开源了,要收费
11 楼 wanghui0421 2009-12-09 17:37
据说2.9的那个中文分词就是中科院的那个分词器
10 楼 gqf2008 2009-12-09 17:13
Lucene2.9开始不是有个智能中文分词吗?
9 楼 Snow_Young 2009-12-09 11:19
哇!!!好快!!!我要试吃了!!!
8 楼 linliangyi2007 2009-12-09 09:59
rox 写道
顺便贴一个自己在Solr DataImportHandler中schema.xml分词配置。
    ......
	<fieldtype name="ignored" stored="false" indexed="false" class="solr.StrField" /> 
    
    <fieldtype name="text_cjk" class="solr.TextField"> 
      <analyzer>
		<tokenizer class="org.apache.solr.analysis.ChineseTokenizerFactory"/>
        <filter class="solr.WordDelimiterFilterFactory"
                generateWordParts="1"
                generateNumberParts="1"
                catenateWords="0"
                catenateNumbers="0"
                catenateAll="0"
                preserveOriginal="1"
				splitOnNumerics="1"
                />
		<filter class="solr.StandardFilterFactory"/>
		<filter class="solr.LowerCaseFilterFactory"/>
		<filter class="solr.StopFilterFactory"/>
		<filter class="solr.PorterStemFilterFactory"/>
	  </analyzer>

    </fieldtype>

 </types>
 
 
 <fields>
	<field name="memo" type="text_cjk" indexed="true" stored="true"/>
	......


欢迎高手一起参与啊,大家一起玩,才有意思的,呵呵
7 楼 rox 2009-12-09 09:41
顺便贴一个自己在Solr DataImportHandler中schema.xml分词配置。
    ......
	<fieldtype name="ignored" stored="false" indexed="false" class="solr.StrField" /> 
    
    <fieldtype name="text_cjk" class="solr.TextField"> 
      <analyzer>
		<tokenizer class="org.apache.solr.analysis.ChineseTokenizerFactory"/>
        <filter class="solr.WordDelimiterFilterFactory"
                generateWordParts="1"
                generateNumberParts="1"
                catenateWords="0"
                catenateNumbers="0"
                catenateAll="0"
                preserveOriginal="1"
				splitOnNumerics="1"
                />
		<filter class="solr.StandardFilterFactory"/>
		<filter class="solr.LowerCaseFilterFactory"/>
		<filter class="solr.StopFilterFactory"/>
		<filter class="solr.PorterStemFilterFactory"/>
	  </analyzer>

    </fieldtype>

 </types>
 
 
 <fields>
	<field name="memo" type="text_cjk" indexed="true" stored="true"/>
	......
6 楼 caoyangx 2009-12-09 09:32
linliangyi2007 写道
caoyangx 写道
我换上了最新版本,有一个不重要的小bug说一下,IKQueryParser.parse调用了一个_parse方法,里面System.out.println(System.currentTimeMillis());这句话建议注释一下,每次查询都打印当前时间信息,搞得控制台好不爽。


问题已经修订,谢谢

别客气,这么优秀的开源中文分词,对我的项目帮助非常大,使用它是我的荣幸。以后我还会继续关注的,很多使用经验向您请教。
5 楼 rox 2009-12-09 08:42
支持Solr,我喜欢!
4 楼 linliangyi2007 2009-12-08 18:32
caoyangx 写道
我换上了最新版本,有一个不重要的小bug说一下,IKQueryParser.parse调用了一个_parse方法,里面System.out.println(System.currentTimeMillis());这句话建议注释一下,每次查询都打印当前时间信息,搞得控制台好不爽。


问题已经修订,谢谢
3 楼 linliangyi2007 2009-12-08 15:33
caoyangx 写道
我换上了最新版本,有一个不重要的小bug说一下,IKQueryParser.parse调用了一个_parse方法,里面System.out.println(System.currentTimeMillis());这句话建议注释一下,每次查询都打印当前时间信息,搞得控制台好不爽。


汗死,这个是个大纰漏,不好意思,非常感谢
2 楼 caoyangx 2009-12-08 15:10
我换上了最新版本,有一个不重要的小bug说一下,IKQueryParser.parse调用了一个_parse方法,里面System.out.println(System.currentTimeMillis());这句话建议注释一下,每次查询都打印当前时间信息,搞得控制台好不爽。
1 楼 caoyangx 2009-12-08 14:43
更新速度够快。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Java 实现swing中嵌入html 实例 适合新手

    Java Html DJNativeSwing.jar DJNativeSwing-SWT.jar

  • java swing html_在Java Swing中显示HTML网页,并能响应链接 | 学步园

    如果做过Java Swing开发的人应该知道,可以应用HTML标签来给控件增色,如//必须用和包起来JLabel label = new JLable("RED");如果是完整一个HTML格式文件在JavaSwing中应该如何显示出来呢?那就要用到强劲的编辑器控件JEditPane了。JEditorPane是Swing中一款非常强大的文本编辑控件,在JEditorPane中,我们完全可以将HTML...

  • java swing xml_使用Java Swing 创建一个XML编辑器(一)

    www.dukejava.com 网络娇娃工作站我想您一定对XML有所了解,说不定您现在还跃跃欲试想写一段XML文本呢,可是现在能找到的跨平台的、免费的XML编辑器太少了。所以在本文中,我想介绍一下或者说带您一步一步的开发一个简单的XML编辑器,当然我们要用到一些最常见的Java 2 Swing组件,不过这些都是免费的,有些是JDK中的,有些是可以从网上下载的。我想通过本文,你就可以创建一个属于你...

  • Java客户端工具选择:HTML?Swing?XML?

    整理下面的文章是因为个人觉得写的很好,关于java的客户端了解也并不是太多。看了下面的文章觉得很有必要贴出来,方便自己以后了解java客户端编程。 Java软件设计师和管理人员经常会面临这样的难题:在开发应用软件的客户端时,应该在Swing、HTML、XML三种技术中选择谁。在这篇文章中,我将把自己在这三种技术方面的经验与广大读者共享,并对在Java应用软件开发中选择哪一种技术提出一些标...

  • java html 显示_java – 在Swing中显示HTML

    我正在开发一个类似的项目来从服务器加载HTML文件并以摆动方式显示它们.import java.io.*;import java.net.*;import java.util.regex.*;import javax.swing.*;public class webloader {public static void loadcode(){URL url = null;try {url = new...

  • javafx和java swing_Java写GUI用swing还是JavaFX呢?

    Java写GUI用swing还是JavaFX呢?作者:夏诗皓链接:https://www.zhihu.com/question/37236236/answer/75909071来源:知乎著作权归作者所有,转载请联系作者获得授权。果断JavaFX,因为Swing这个框架已经很久没有更新过了。那些按钮控件都是几年前的样子(其实就是丑,当然也有好处,速度会比JavaFX快呢么点,毕竟是写好的控件)。而且...

  • java Swing JList的操作,增删改查都全了,JList与XML转换

    看图: 这里处理同步到文件按钮没做外,其余都有了,代码如下 有问题就留言吧,欢迎扔砖!!嘻嘻 package com.xmltomodelandmodeltoxml;import java.awt.Container; import java.awt.FlowLayout; import java.awt.GridLayout; import java.awt.Point; import java

  • 使用swing自带的html解析器来解析html

    使用java自带的swing解析html,用起来简单,速度也很快。首先要导入javax.swing.text.*和javax.swing.text.html.*两个包。然后定义一个parser的类,继承了javax.swing.text.html.HTMLEditorKit.ParserCallback这个类,在javax.swing.text.html.HTMLEditorKit.ParserC

  • javaweb html

    什么是html 超文本:使用html可以轻松实现超出文本的范畴的形式 标记:html所有操作都是通过标记实现的,标记就是标签 &lt;标签名称&gt; 是一种网页语言: 第一个html程序。 创建java文件.java –先编译,然后运行 jvm html后缀是.html .htm 直接通过浏览器就可以运行 代码 这是我的&lt;font size =“5”,color= “red”&gt;第一个html程序!&lt; /font&gt; 规范 一个html文件开始标签和结束的标签&lt; ht

  • java swing xml,Java Swing:从XML生成动态GUI表单

    I am writing this application in Java, where I have a JTree on the left of the JFrame, and the item selected in the JTree determines what appears on the right. This is similar to Edit --&gt; Preferenc...

  • java swing xml,从swing导入xml文件

    I am using this code for import shutdownscheduler.xml file from my package but I am getting error:public static Document handler() throws ParserConfigurationException, SAXException, IOException{String...

  • 利用Swing修改xml类型的配置文件的

    package com.config.update; import java.awt.Dimension; import java.awt.Panel; import java.awt.ScrollPane; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.

  • java swing 客户端反调试

    使用java swing 写的客户端程序,防止调试程序运行漏洞 也可以调用windows api zip包里面包含 jinvoke.jar 工具类,里面可以对32和64位的jdk使用,有两个dll,自行替换就可以 程序都是通过测试的,并且是上生产了

  • 谈论android java布局和xml布局的优缺点

    今天遇到一个问题,讲讲java布局和xml布局的优缺点。 我想...

  • 客户端登陆实现(swing)

    首先是结构框架 dao层 package com.java1234.dao; import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.SQLException; import com.java1234.model.User; import com.my

Global site tag (gtag.js) - Google Analytics