阅读更多

34顶
0踩

编程语言
IK Analyzer 3.1.1Stable版本是基于3.1.1GA2的变更:

1.修订了IK Analyzer 与 solr项目集成时,出现指针越界的不兼容的问题。
感谢北京何健网友的测试帮助。


下载 :IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》

或访问本人Blog:http://linliangyi2007.iteye.com/blog/429960

IKAnalyzer3.0介绍

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer 已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。

IKAnalyzer3.0特性

    * 采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理能力。
    * 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
    * 优化的词典存储,更小的内存占用。支持用户词典扩展定义
    * 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。


34
0
评论 共 14 条 请登录后发表评论
14 楼 linliangyi2007 2011-05-01 01:17
qzxfl008 写道
支不支持lucene3.1.0啊


兄弟,你真的out了!!看看这个帖子的日期吧!!

IK已经发布到3.2.8了,从3.2开始支持lucene 3.0的,已经出了8个版本了
13 楼 qzxfl008 2011-04-30 15:46
支不支持lucene3.1.0啊
12 楼 lpssflxs 2010-08-17 18:06
要有C#就好了
11 楼 squall140 2010-02-21 10:07
我用的不是很深入,不过还是学习一下,支持稳定版本!
10 楼 linliangyi2007 2009-10-13 18:06
fxsjy 写道
smallseg -- 开源的,基于python语言开发的轻量级的中文分词工具包
http://code.google.com/p/smallseg/


看到中国开源的规模在一点点变大中,呵呵!!

BTW:python的语法总是那么的精炼漂亮啊
9 楼 fxsjy 2009-10-13 17:19
smallseg -- 开源的,基于python语言开发的轻量级的中文分词工具包
http://code.google.com/p/smallseg/

8 楼 linliangyi2007 2009-08-26 16:16
zhujianwu 写道
能提供最新版本的源码吗?谢谢,或者发一份给我,非常感谢
willen_zhu@126.com




项目地址:http://code.google.com/p/ik-analyzer/ 使用SVN下载源码吧
7 楼 zhujianwu 2009-08-26 16:13
能提供最新版本的源码吗?谢谢,或者发一份给我,非常感谢
willen_zhu@126.com
6 楼 gigivszhao 2009-08-26 14:09
IKAnalyzer 的分词 应该是我用过最好的。超过其他的分词,想用的可以试一下。
5 楼 whaosoft 2009-08-26 12:05
有谁用过,好用不
4 楼 linliangyi2007 2009-08-25 23:10
huncent 写道
http://linliangyi2007.javaeye.com/blog/42996
汗,跳到http://hideto.javaeye.com/blog/42996去了,javaeye没根据用户验证博客文章?

汗死,少考了一个0,火箭射到火星去鸟
3 楼 huncent 2009-08-25 21:16
http://linliangyi2007.javaeye.com/blog/42996
汗,跳到http://hideto.javaeye.com/blog/42996去了,javaeye没根据用户验证博客文章?
2 楼 Jekey 2009-08-25 18:15
1 楼 fys124974704 2009-08-25 17:36
有空试试,一直在寻找一个完美的中文分词器

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • socket 请求与接收事例

    客户端 error_reporting(E_ALL); set_time_limit(0); echo "TCP/IP Connection\n"; $port = 1935; $ip = "127.0.0.1"; /*  +-------------------------------  *    @socket连接整个过程  +----------------

  • 关于winsock中网络编程事件模型和窗口消息模型中FD_WRITE的理解与数据的发送需要注意的关键点

    Winsock异步模式I/O模型WSAEventSelect的使用及FD_WRITE事件的触发机制 http://oliver258.blog.51cto.com/750330/423813 1.Winsock同步阻塞方式的问题 在异步非阻塞模式下,像accept(WSAAccept),recv(recv,WSARecv,WSARecvFrom)等这样的winsock函数调用后马上返回,

  • Socket编程 (异步通讯) (Tcp,Udp) - Part2

    基于异步模式的通讯无须采用多线程来服务多个客户端以及多个请求,这样的通讯模式效率更高。同步上面Tcp效果展示图,我们发现客户端分几次连续发送的消息被服务器端一次接收了,读成了一条数据,而这就是Socket通讯基于Tcp协议下发生的粘包问题,下面一种我们将着重对Tcp协议的通讯信息封包,拆包以解决上面问题。同样Udp协议通讯下属于无连接模式通讯,客户端只管将消息发送出去,或者由于网络原因,而造成的丢包问题,下一章也将采用一定的方式解决。

  • 【boost网络库从青铜到王者】第六篇:asio网络编程中的socket异步读(接收)写(发送)

    【boost网络库从青铜到王者】第六篇:asio网络编程中的socket异步读(接收)写(发送)

  • FD_WRITE

    为什么80%的码农都做不了架构师?>>> ...

  • [MySQL]窗口函数

    MySQL窗口函数(原地址) 1.窗口函数的基本语法如下: <窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名>) <窗口函数>的位置,可以放以下两种函数: 1) 专用窗口函数,包括后面要讲到的rank, dense_rank, row_number等专用窗口函数。 2) 聚合函数,如sum. avg, count, max, min等 因为窗口函数是对where或者gr

  • 在C中使用Socket实现多线程异步TCP消息发送

    详细介绍了在C中使用Socket实现多线程异步TCP消息发送。欢迎点赞收藏。谢谢

  • 进程间通信

    目录一、管道1.无名管道1、特点:2、原型:3、应用(父子进程通信) 思路:2.FIFO 1、特点2、原型3、应用二、消息队列1、特点2、原型3、应用三、共享内存1、特点2、原型3、例子四、信号(signal)1.信号概念2.信号注册函数——入门版 signal原型进程间通信(IPC,InterProcess Communication)是指在不同进程之间传播或交换信息。IPC的方式通常有管道(包括无名管道和命名管道)、消息队列、信号量、共享存储、Socket、Streams等。其中 Socket

  • Linux Socket编程 -- 同步 与 异步 请求

    协程引入

  • 利用TCP协议实现服务端与客户端的通信03_服务端与客户端的(异步收发、接收多个客户端消息(类似多人聊天室))

    1、服务器端: using System; using System.Collections.Generic; using System.Linq; using System.Net;//引入的命名空间 using System.Net.Sockets;//引入的命名空间 using System.Text; using System.Threading.Tasks; namespace TCP...

  • 文件I/O操作open(),close(),read()和write()函数详解

    1. open()函数 功能描述:用于打开或创建文件,在打开或创建文件时可以指定文件的属性及用户的权限等各种参数。 所需头文件:#include ,#include ,#include 函数原型:int open(const char *pathname,int flag

  • select函数的阻塞和非阻塞态理解(实践总结)

    int select(int maxfdp,fd_set *readfds,fd_set *writefds,fd_set *errorfds,struct timeval *timeout); 返回值: <0:select错误 >0:有可读写或出错文件,个数为返回值个数 0:等待超时,没有可读写或错误的文件 select函数的阻塞和非阻塞主要看最后一个参数 timeout超时时间的值,timeout的取值决定了select的三种状态: 1、timeout传........

  • Linux篇——文件操作与文件fd

    File是C语言封装的一个结构体,里面包含了文件的一些属性,其中就有我们之前提到的fd,还有哪些属性,这里不做描述。

  • WSAAsyncSelect注意的地方

    SOCKET模型

  • fd读写文件

    int read_fd; int write_fd; //1打开文件,读取utf-8文件 read_fd=open("utf8.txt",O_RDONLY|O_CREAT); write_fd=open("gbk.txt", O_WRONLY|O_CREAT); char utfBuffer[256] = {0}; size_t inLen...

  • socket 异步 发送 接收 数据

    socket 异步 发送 接收 数据 Socket socketClints = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp); //侦听socket //socket...

  • c++ socket 异步编程

    在网络通讯中,由于网络拥挤或一次发送的数据量过大等原因,经常会发生交换的数据在短时间内不能传送完,收发数据的函数因此不能返回,这种现象叫做阻塞。 Winsock对有可能阻塞的函数提供了两种处理方式:阻塞和非阻塞方式。 阻塞模式      在阻塞方式下,收发数据的函数在被调用后一直要到传送完毕或者出错才能返回。在阻塞期间,被阻的函数不会断调用系统函数GetMessage()来保持消息循环

Global site tag (gtag.js) - Google Analytics