中文分词 mmseg4j-1.8 版发布

博客分类：

mmseg4j

想发布新版的 mmseg4j 到现在已经有二个多月了。主要是因为这段时间忙其它事情了。现 Lucene 2.9 发布了，solr 1.4 也应该会比较快就要发布了。对 mmseg4j 兼容新版的 lucene/solr 也是个任务。现 mmseg4j 发布新版 1.8，可以下载：mmseg4j-1.8.zip 包括了源码与词库，还有创建文件。下面说下此版的主要变更： new: 1、有检测词典变更的接口，外部程序可以使用 wordsFileIsChange() 和 reload() 来完成检测与加载的工作. (内部不实现自动检测与加载，留给外部程序去做。) ...

2009-10-19 09:39
浏览 4537
评论(4)

讨论 mmseg4j 的现状，与改进。

博客分类：

mmseg4j

lucene 算法 Solr Google J#

发布最新一个 mmseg4 （1.7.2 与 1.6.2）版，距今也有几个月了。max-word 方式还不完善，有很多需要改进的地方。由于没有个好的想法，以至几个月都没更新。mmseg4j 项目也受到一些的关注，十分有必要改进。这贴说明下 mmseg4 的现状和 todo 功能，同时希望 javaeyer 们给予些建议或想法。字符的处理：先断开不同类型的字符，断开的成为一个“句子”（类：Sentence）。英文、俄文、希腊、数字、其它数字（如：①⑩㈠㈩⒈⒑⒒⒛⑴⑽⑾⒇），分出连续同类型字符。如：mmseg4j 会分出 mmseg，4，j 三个词。改进：英文开头的英文与数据混的应该 ...

2009-08-04 13:58
浏览 6568
评论(3)
论坛回复 / 浏览 (3 / 3238)
分类:企业架构

中文分词 mmseg4j 1.7.2 版发布

博客分类：

mmseg4j

lucene Solr Ant Gmail Google

中文分词 mmseg4j 1.7.2 版发布，其实两天前就发布了，只是没有写博客而已。与引版本发布的还有 1.6.2，两者基本一样，只是词库的数据结构不同，1.7的是键树，1.6的是数组与二分查找。 mmseg4j 1.7.2 版的主要更新：修复由 1.7-beta 升级到 1.7 版的 bug：添加 lowerCaseFilter 后的一个 bug: NullPointerException。核发程序与 lucene 和 solr 扩展分开打包, 同时给出低版本的 lucene 扩展(lucene 1.9 到 2.2; lucene 2.3) 如何从源码编译：下载源码：m ...

2009-04-27 10:12
浏览 1470
评论(0)
论坛回复 / 浏览 (0 / 1794)
分类:企业架构

mmseg4j 1.7 beta 版发布

博客分类：

mmseg4j

算法 XP SVN 数据结构

mmseg4j 1.7 beta 版，主要改进分词速度。最大的变动是词库的数据结构改变了，改为key tree(键树)。有几点的性能改进：要比较的词不从 char[] sen（代分词的句子）里复制,直接与词库结构比较, 性能提升10% 用 key tree 的词库数据结构, 性能提升不少用 key tree 里实现的 maxmatch, 同时返回所有相关词的长度(就不用从所有不同的词长去试匹配了), 性能提高很大目前是用 HashMap 去实现 key tree的，固然内存开销增加，1.7 beta 版一个词库要 50M左右（15W词，有点多），之前的几个版都是10M左右。速度 ...

2009-04-14 11:04
浏览 1340
评论(3)
论坛回复 / 浏览 (2 / 1833)
分类:企业架构

mmseg4j 多分词模式与 paoding 分词效果对比

博客分类：

mmseg4j

音乐算法

mmseg4j 1.6支持最多分词，应网友的要求：分词效果与 paoding 对比下。观察了 paoding 部分分词结果，现总结下。 paoding 分词效果： -------------------------- 清华大学清华 | 大 | 华大 | 大学 | -------------------------- 华南理工大学华南 | 理工 | 大 | 大学 | -------------------------- 广东工业大学广东 | 工业 | 大 | 业大 | 大学 | -------------------------- 西伯利亚西伯 | 伯利 | ...

2009-04-13 09:52
浏览 3417
评论(1)
分类:企业架构

mmseg4j 中文分词 1.6 版发布

博客分类：

mmseg4j

Solr Google XML Blog

经过几天的开发与调试，mmseg4j 1.6 版可以发布了。1.6 版主要实现与下功能：实现多分词，在complex基础上，把长的词（大于2）拆出多个词。按二元分词，且把不存在的词去了，如：“西伯利亚” -> "西|伯利|利亚"，"西伯" 不存在词库中；“中国人民银行”-> "中国|国人|人民|银行" 支持多个词库文件，在词库目录中放"words"前缀且".dic"后缀的文件。如：data/words-my.dic 单字的单位独立一个文件(data/units.dic, 已经 ...

2009-04-07 09:46
浏览 1497
评论(2)
论坛回复 / 浏览 (2 / 2504)
分类:企业架构

mmseg4j 中文分词 1.5 版发布

博客分类：

mmseg4j

Solr 算法 XP Google Ant

经过几天的开发与调试，新版的 mmseg4j 可以发布了。定为1.5版，是因为变动比较大。 mmseg4j 1.5变更：使用 sogou 词库，是从 http://www.sogou.com/labs/dl/w.html ，下载的，然后转换下（一行一词）。把chars.dic文件放到jar里, 我们不需要关心它，当然你在词库目录放这个文件可能覆盖它。最长匹配遍历调整(基本不受长词的影响) 优化了程序,除去没有必要的数组复制等,性能提升40% ant 在jdk 1.5 下也可以编译（上一版本用了Collections二分查找）说明： 1、sogou 词库，不是用官方的 ...

2009-04-01 14:25
浏览 2643
评论(0)

mmseg4j 分词速度

博客分类：

mmseg4j

Eclipse SVN EXT lucene XP

看一下 mmseg4j 的分词速度如何，下载了两篇长篇小说共2.5M左右，可以到 http://mmseg4j.googlecode.com/files/txt.zip。2.5M的数据，用Complex模式是 5.3秒左右，不知是快还是慢（因为没有对比），Simple 模式用了2.9秒。(AMD athlon 64 2800+ 1G内存 xp) 以上数据是在 eclipse 上运行代码有两个版本：用Analyzer方式的和不依赖Lucene Analyzer方式的，前者比较简洁可以到 svn 上看：http://mmseg4j.googlecode.com/svn/trunk/exa ...

2009-03-28 17:03
浏览 2856
评论(0)
分类:企业架构

中文分词 mmseg4j

博客分类：

mmseg4j

Solr Python 算法 rmmseg lucene

使用 paoding 的配置觉得有点复杂，而且管理词库也有点不方便，同时自己也想了解下中文分词算法，然后就想自己写个中文分词器，在lucene和solr中使用。在 javaeye 看到有关 mmseg 的简介，看了下还不错，简单方便，那就用它来写个java版吧，我搜索 mmseg的java版（好像是 solo，官方已经下载不了），弄清分词算法还是自己写写吧。实在想不到其它名字，就称它为 mmseg4j。关于 mmseg的算法我先不在这介绍，可以参考： mmseg libmmseg rmmseg mmseg4j 也实现了两种分词方式：Simple和Complex。 mmseg4j 扩 ...

2009-03-22 23:46
浏览 25390
评论(37)
论坛回复 / 浏览 (36 / 21872)
分类:企业架构

Hadoop 快速入门(二)--Fully-Distributed Mode

博客分类：

Lucene

Hadoop 虚拟机 Apache HTML .net

上一篇记录了本机模式我虚拟分布模式。http://www.blogjava.net/chenlb/archive/2008/08/11/221311.html 现我在虚拟机里开三台机子，分别命名为：master(172.16.249.210)，slave-1(172.16.249.211)，slave-2(172.16.249.212)。 master可以无密码登录到slave机。每台机子都匹配ip对应名。 127.0.0.1 localhost localhost 172.16.249.210 master 172.16.249.211 slave-1 17 ...

2008-08-11 15:45
浏览 2039
评论(0)

Hadoop 快速入门

博客分类：

Lucene

Hadoop SSH CentOS Apache Web

Required Software JavaTM 1.5.x ssh与sshd 如果没有安装请自行安装。我以CentOS 4.6为例。下载hadoop，http://apache.mirror.phpchina.com/hadoop/core/ 我下载的是0.17.1版本。解压hadoop-0.17.1.tar.gz，然后conf/hadoop-env.sh 设置JAVA_HOME ，我是可JAVA_HOME 去注释，值自己的路径。如： export JAVA_HOME=/usr/java/jdk1.6.0_06 如果不设置启动后用不了。先从简单开始。 1 ...

2008-08-11 15:28
浏览 2684
评论(0)

Linux 重启网卡

博客分类：

Linux

Linux

在linux下改了ip地址后，不能立即生效。以前是重启机器，我觉得这样很傻，后来知道网卡可以重启。 /etc/init.d/network restart

2008-08-11 09:34
浏览 3753
评论(0)

solr 的 Distributed Searching 试用

博客分类：

Lucene

Solr lucene Tomcat Apache

一直想了解分布搜索与索引。Lucene有MultiSearcher，solr1.2的只能有单个索引，现在1.3可以有Distributed Searching这玩意。可以从多个索引里搜索出并合并结果返回给你。这些索引不是replication的，是分割的。可以先%num方式索引在num台机器上，然后用solr的shards参数。如： shards=localhost:8080/use-solr1.3,localhost:9080/use-solr1.3&q=chenlb 测试后可以返回结果，但合并的时候发了点时间，我的机子上40-60ms，单个搜索基本是0ms 测试数据是14W结 ...

2008-08-07 18:31
浏览 2090
评论(0)

xml 转义符

博客分类：

HTML

XML HTML

html 与 xml的转义符不同, xml就只有5个: < < > > & & " " ' & ...

2008-08-06 12:40
浏览 2452
评论(0)

使用 mysql 免安装版

博客分类：

MySQL

MySQL

我比较喜欢免安装版(非安装版)的mysql，下载如： mysql-noinstall-5.0.45-win32.zip 把它解压到如： E:/mysql-5.0.45，当然可以任意位置。然后改my-medium.ini文件为my.ini，当然也可以不改名，但要改内容 basedir="E:/mysql-5.0.45/" datadir="E:/mysql-5.0.45/Data/" 如果上面，最好加个字符集，在[mysqld]和[mysql]下面加 default-character-set=utf8 当然可能是其它字符集，如：gbk ...

2008-08-03 16:22
浏览 4967
评论(1)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

中文分词 mmseg4j-1.8 版发布

讨论 mmseg4j 的现状，与改进。

中文分词 mmseg4j 1.7.2 版发布

mmseg4j 1.7 beta 版发布

mmseg4j 多分词模式与 paoding 分词效果对比

mmseg4j 中文分词 1.6 版发布

mmseg4j 中文分词 1.5 版发布

mmseg4j 分词速度

中文分词 mmseg4j

Hadoop 快速入门(二)--Fully-Distributed Mode

Hadoop 快速入门

Linux 重启网卡

solr 的 Distributed Searching 试用

xml 转义符

使用 mysql 免安装版

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>