阅读更多

12顶
0踩

编程语言

原创新闻 中文分词 mmseg4j-1.8 版发布

2009-10-19 09:43 by 见习记者 chenlb 评论(14) 有7273人浏览

想发布新版的 mmseg4j 到现在已经有二个多月了。主要是因为这段时间忙其它事情了。现 Lucene 2.9 发布了,solr 1.4 也应该会比较快就要发布了。对 mmseg4j 兼容新版的 lucene/solr 也是个任务。

 

现 mmseg4j 发布新版 1.8,可以下载:mmseg4j-1.8.zip 包括了源码与词库,还有创建文件。下面说下此版的主要变更:

 

new:

 

1、有检测词典变更的接口,外部程序可以使用 wordsFileIsChange() 和 reload() 来完成检测与加载的工作. (内部不实现自动检测与加载,留给外部程序去做。)

 

2、添加 MMseg4jHandler 类,可以在solr中用url的方式来控制加载检测词库。

 

3、增加 CutLetterDigitFilter过虑器,切分“字母和数”混在一起的过虑器。比如:mb991ch 切为 "mb 991 ch"。

 

changes:

 

1、默认在 classpath 中加载 data 目录(词库目录),找不到再找 user.dir/data 目录。但是优先 mmseg.dic.path 系统属性指定的。

 

2、新词库,去除 sogou 高频无词性的词,合并 rmmseg 提供的词(是 mmseg4j 1.0 使用的词库),共计(14W 多词)。

 

3、数字或英文开头的数字或英文不独立分出。如 MB991CH/A 分为 mb991ch a,cq40-519tx 分为 CQ40 519TX

 

4、内置支持小写,不需要 LowerCaseFilter 了。MMSegAnalyzer 去除了小写过虑。

 

5、支持 solr 1.3/1.4、lucene 2.3/2.4/2.9

 

6、尝试加载 jar 里的 words.dic,并构建含有 words.dic 的 jar(mmseg4j-*-with-dic.jar)。

 

bugs:

 

1、Dictionary 添加 finalize 方法。修正 tomcat reload 时 OOM 的 bug: http://code.google.com/p/mmseg4j/issues/detail?id=4

 

2、MMSegTokenizer 在 lucene 2.4 编译的 在 lucene 2.9 中会报 java.lang.NoSuchFieldError: input。bug: http://code.google.com/p/mmseg4j/issues/detail?id=5

 

 

详情:http://blog.chenlb.com/2009/10/chinese-segment-mmseg4j-1_8-release.html

 

12
0
评论 共 14 条 请登录后发表评论
14 楼 chenlb 2009-10-21 16:28
发现一个 Bug: http://code.google.com/p/mmseg4j/issues/detail?id=8

使用 lucene highlighter 异常。token 的 Offset 没有处理好。
13 楼 whaosoft 2009-10-20 20:36
感谢啊,现在公益事业很少人做啊
12 楼 keer2345 2009-10-20 20:35
      
11 楼 maku 2009-10-20 08:57
结果是
引用

耗时:0毫秒
一次 性交 多少钱

我觉得这个结果是没问题的,如果分成了
引用

耗时:0毫秒
一次性 交多少钱

这就不是分词了,该叫“分句”了。
10 楼 01404421 2009-10-20 08:54
支持LZ继续努力!
9 楼 lenky0401 2009-10-19 19:02
qizhan 写道
fxsjy 写道
分词在线演示,Google App Engine:

http://smallseg.appspot.com/smallseg




“一次性交多少钱”

测试下来不理想!


测试得到结果:这个分词程序比较邪恶?
8 楼 chenlb 2009-10-19 15:11
fxsjy 写道
这个。。。。人理解起来也有歧义


的确。


7 楼 fxsjy 2009-10-19 15:08
这个。。。。人理解起来也有歧义

qizhan 写道
fxsjy 写道
分词在线演示,Google App Engine:

http://smallseg.appspot.com/smallseg




“一次性交多少钱”

测试下来不理想!

6 楼 qizhan 2009-10-19 14:50
fxsjy 写道
分词在线演示,Google App Engine:

http://smallseg.appspot.com/smallseg




“一次性交多少钱”

测试下来不理想!
5 楼 chenlb 2009-10-19 13:35
zxzheaven 写道
支持哈!
这个效率和paoding比起来怎么样?


1.7 的时候,速度:complex > paoding > maxword
4 楼 zxzheaven 2009-10-19 13:08
支持哈!
这个效率和paoding比起来怎么样?
3 楼 fxsjy 2009-10-19 13:01
分词在线演示,Google App Engine:

http://smallseg.appspot.com/smallseg
2 楼 linliangyi2007 2009-10-19 11:21
国内做开源的都要支持,现在是人太少了!
1 楼 visualcatsharp 2009-10-19 10:33
这玩意分词准确率很一般。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 安卓手机显示连接不上服务器,安卓手机无法连接服务器

    安卓手机无法连接服务器 内容精选换一换网站的访问与云服务器的网络配置、端口通信、防火墙配置、安全组配置等多个环节相关联。任意一个环节出现问题,都会导致网站无法访问。本节操作介绍网站无法访问时的排查思路...

  • 小米机顶盒显示网络无法连接服务器,小米盒子无线网络连接不上怎么回事 - 卡饭网...

    无线网络连接不上怎么回事,如何解决无线网络连接不上怎么回事,如何解决 无线网络连接不上怎么回事,如何解决,很多电脑用户可能会遇到这个问题。 一:先检查下你的无线网络开关是否打开,没打开请打开 二:检查你的...

  • 计算机怎么连接河南移动网络,由于您的计算机尚未建立以太网,wifi或移动数据连接,因此我们无法设置移动热点-...

    在热点界面上,选择“设置移动热点”进入设置界面,输入“密码”,然后单击“保存”以修改移动热点的密码.如果您无法通过简单的设置... 然后重新启动计算机,如果可以连接到移动热点,请重试. 基本上可以解决.必须将...

  • 向日葵显示无法连接到服务器,请修复电信卡使用向日葵远程无法连接服务问题!!!...

    请官方务必修复并回复处理进程,我已经等的十分不耐烦了BUG描述:电信卡无法连接向日葵远程服务手机型号:一加五系统版本:H2OS第十版重现条件:1.使用电信4G网(移动数据,俗称“手机流量”)2.打开向日葵APP 等待...

  • radmin显示不能连接到服务器,关于Radmin安装失败或无法显示远程桌面的处理方法...

    关于Radmin安装失败或无法显示远程桌面的处理方法2年安装过程中,如果提示您“Radmin安装失败”或者无法以“全屏”或“仅查看”模式连接,需要进行'清除缓存'处理。A.对于Windows XP用户卸载Radmin 3.x重启开始 – ...

  • HTTP长连接与短链接以及推送技术原理

    HTTP长连接和短连接以及推送服务原理 HTTP长连接和短连接1 ...IP协议主要解决网络路由和寻址问题,TCP协议主要解决如何在IP层之上可靠的传递数据包,使在网络上的另一端收到发端发出的所有包,并且顺序与发

  • 光猫显示连接isp服务器超时,光猫链接isp服务器超时

    光猫链接isp服务器超时 内容精选换一换若已有连接后端服务器超过请求超时时间没有请求传输后,ELB会将其断开。根据负载均衡器与后端服务器链接的协议不同,系统默认超时时间也不同,系统默认的超时时间如下。TCP协议...

  • 手机显示服务器被重置连接断开,手机服务器链接被重置

    手机服务器链接被重置 内容精选换一换只有运行中的云服务器才允许用户登录。Windows操作系统用户名“Administrator”。忘记密码,请先通过“重置密码”功能设置登录密码。重置密码:选中待重置密码的云耀云服务器,...

  • app 链接不上服务器无响应,手机app链接不了服务器

    手机app链接不了服务器 内容精选换一换访问CloudTable的HBase连接不上,出现如下所示的错误信息:出现该问题的可能原因为:网络访问不通。由于CloudTable的链接地址是内网地址,不是公网地址,不能在公网环境直接...

  • 微型计算机usb只能连接u盘,USB接口连接的外部设备(如移动硬盘、U盘等)必须另外供应电源...

    正确答案: DUSB接口连接的外部设备(如移动硬盘、U盘等)必须另外供应电源题目:下面关于USB的叙述中,错误的是______。解析:解析:USB是一个外部总线标准,用于规范计算机与外部设备的连接和通信。USB接口支持没备的...

  • ATK ESP8266连接blinker连接不上的问题

    本人在初次使用本模块连接blinker遇到了大部分人没遇到的问题(可能太笨了),time out watting for pocket header。。 连接超时,没有反应,一直报错。 解决办法: 首先,在正点原子的ESP8266的引脚功能描述表中 ...

  • HTML 链接

    html 链接

  • 一分钟轻松学会Linux中的软链接,硬链接,文件的复制,移动,重命名以及重定向

    一分钟轻松学会Linux中的软链接,硬链接,文件的复制,移动,重命名以及重定向

  • Linux链接的复制、目录创建和文件移动

    Linux链接的复制、目录创建和文件移动 实验要求: 实现: 第一步:首先在根下递归创建目录ceshi/user 第二步:将/etc/passwd和/etc/shadow文件复制到/ceshi/user目录中,查看无误; 第三步:给/ceshi/user/...

  • Charles连接移动设备

    1.连到代理后,手机浏览器中输入 chls.pro/ssl ,在提示窗内选择”允许“ 2.后面一路点击安装到完成 3.进入手机设置,通用-关于本机-证书信任设置,对刚刚安装的证书开启信任,在弹窗中选择”继续“ ...

  • 移动网上大学itch连接mysql_中国移动网上大学登录(移动网上大学客户端)

    移动的校园集团,其实就是中国移动(cmcc)的wlan业务。 一,开通方法:编写短信“ktwlan”发送至10086。短信方式开通后,10086系统会下发上网密码到手机。账号.移动的网上学院地址:...

  • ftp连接显示被服务器被拒绝,ftp连接服务器被拒绝原因

    ftp连接服务器被拒绝原因 内容精选换一换Windows ...远程桌面连接启用了redirected drive功能,同时加载对应rdpdr.sys驱动,该驱动可能会导致云服务器操作系统崩溃,无法正常运作(例如错误码:0x18, 0x5用户在Fusion...

  • 从输入一个网址到浏览器显示页面经历的全过程(网络开篇)

    作为网络专栏的开篇导文,本文概况介绍下经典案例:从输入一个网址到浏览器显示页面的全过程。 步骤概要介绍如下: 1、输入网址 2、DNS解析获取域名对应的IP地址 3、建立TCP连接 4、web浏览器向web服务器发送...

  • 计算机无法识别佳能5d2,佳能相机连接后电脑显示无法识别

    【XP解决方案】【问题描述】:USB外设异常、无法正常识别【原因分析】:静电,主板电压和系统设置等原因导致【简易步骤】:1. 拔出所有USB设备―关机―拔掉电源(笔记本需拔出电池)--按开机键5-6下―开机重新插入USB...

  • 星之语明星周边产品销售网站的设计与实现-springboot毕业项目,适合计算机毕-设、实训项目、大作业学习.zip

    Spring Boot是Spring框架的一个模块,它简化了基于Spring应用程序的创建和部署过程。Spring Boot提供了快速启动Spring应用程序的能力,通过自动配置、微服务支持和独立运行的特性,使得开发者能够专注于业务逻辑,而不是配置细节。Spring Boot的核心思想是约定优于配置,它通过自动配置机制,根据项目中添加的依赖自动配置Spring应用。这大大减少了配置文件的编写,提高了开发效率。Spring Boot还支持嵌入式服务器,如Tomcat、Jetty和Undertow,使得开发者无需部署WAR文件到外部服务器即可运行Spring应用。 Java是一种广泛使用的高级编程语言,由Sun Microsystems公司(现为Oracle公司的一部分)在1995年首次发布。Java以其“编写一次,到处运行”(WORA)的特性而闻名,这一特性得益于Java虚拟机(JVM)的使用,它允许Java程序在任何安装了相应JVM的平台上运行,而无需重新编译。Java语言设计之初就是为了跨平台,同时具备面向对象、并发、安全和健壮性等特点。 Java语言广泛应用于企业级应用、移动应用、桌面应用、游戏开发、云计算和物联网等领域。它的语法结构清晰,易于学习和使用,同时提供了丰富的API库,支持多种编程范式,包括面向对象、命令式、函数式和并发编程。Java的强类型系统和自动内存管理减少了程序错误和内存泄漏的风险。随着Java的不断更新和发展,它已经成为一个成熟的生态系统,拥有庞大的开发者社区和持续的技术创新。Java 8引入了Lambda表达式,进一步简化了并发编程和函数式编程的实现。Java 9及以后的版本继续在模块化、性能和安全性方面进行改进,确保Java语言能够适应不断变化的技术需求和市场趋势。 MySQL是一个关系型数据库管理系统(RDBMS),它基于结构化查询语言(SQL)来管理和存储数据。MySQL由瑞典MySQL AB公司开发,并于2008年被Sun Microsystems收购,随后在2010年,Oracle公司收购了Sun Microsystems,从而获得了MySQL的所有权。MySQL以其高性能、可靠性和易用性而闻名,它提供了多种特性来满足不同规模应用程序的需求。作为一个开源解决方案,MySQL拥有一个活跃的社区,不断为其发展和改进做出贡献。它的多线程功能允许同时处理多个查询,而其优化器则可以高效地执行复杂的查询操作。 随着互联网和Web应用的快速发展,MySQL已成为许多开发者和公司的首选数据库之一。它的可扩展性和灵活性使其能够处理从小规模应用到大规模企业级应用的各种需求。通过各种存储引擎,MySQL能够适应不同的数据存储和检索需求,从而为用户提供了高度的定制性和性能优化的可能性。

Global site tag (gtag.js) - Google Analytics