阅读更多

10顶
1踩

编程语言

原创新闻 smallseg -- 开源的Python/Java中文分词工具包

2009-10-14 09:45 by 见习记者 fxsjy 评论(17) 有10663人浏览
smallseg -- 开源的,基于DFA的轻量级的中文分词工具包

特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

用法: python版:
s3 = file("text.txt").read()
words = [x.rstrip() for x in file("main.dic") ]


from smallseg import SEG
seg = SEG()
print 'Load dict...'
seg.set(words)
print "Dict is OK."


A,B = seg.cut(s3) #A是识别出的登录词列表,B是未登录词列表
for t in A:
    try:
        print t.decode('utf-8')
    except:
        pass
print "============================" 
for t in B:
    try:
        print t.decode('utf-8')
    except:
        pass


Java版:
Seg seg = new Seg();
seg.useDefaultDict();
System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>
r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]
u:[Java, 草泥马, 泥马]
(因为“草泥马”并没有在词库中)


来自: Googe Code
10
1
评论 共 17 条 请登录后发表评论
17 楼 iamsk 2009-11-27 17:18
耗时:2007毫秒
smallseg -- 开源 的 基于 DFA 的 轻量级 的 中 文 分词 工具包 特点 可 自定义 词典 切割 后 返回 登录 词 列表和未 登录 词 列表 有 一定 的 新词 识别 能力

像“未”、“不”这样的限定词,应该和后面的连起来吧~
16 楼 leopku 2009-10-21 15:44
fxsjy 写道
smallseg分词效果在线演示(基于Google App Engine):

http://smallseg.appspot.com/smallseg

改进挺快,支持
15 楼 fxsjy 2009-10-19 13:02
smallseg分词效果在线演示(基于Google App Engine):

http://smallseg.appspot.com/smallseg
14 楼 fxsjy 2009-10-16 13:49
13 楼 fxsjy 2009-10-15 12:38
aChip 写道
“在这,程序”拆分成“这个,程序”会更合理吧

right!最新版已经修正这个问题了。
12 楼 fxsjy 2009-10-15 12:27
你好,这个的确有意思。
我已经改进了一下算法,可以适应你这个用例。
请下载最新版试一试:

http://smallseg.googlecode.com/files/smallseg_0.4.tar.gz

leopku 写道
分词效果有待改进
用例:
工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作

11 楼 leopku 2009-10-15 10:22
分词效果有待改进
用例:
工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作

结果:
********************************
处女
干事
每月
经过
下属
科室
都要
亲口
交代
口交
换机
技术
性器
安装
工作
============================
工信
24
件的

这儿有另外一个分词的结果
http://www.entcloud.com/seg
10 楼 fxsjy 2009-10-15 09:23
wxq594808632 写道
引用
有一定的新词识别能力..

这是根据什么?

对于词库中没有的词,不是作为单字保留。这样:当你有很多语料的时候,根据词频排序会发现很多有意思的新词。
9 楼 wxq594808632 2009-10-15 08:44
引用
有一定的新词识别能力..

这是根据什么?
8 楼 aChip 2009-10-14 21:53
“在这,程序”拆分成“这个,程序”会更合理吧
7 楼 whaosoft 2009-10-14 14:27
国产的吗? 好用吗
6 楼 fxsjy 2009-10-14 14:00
效率不会有问题,就我现在的测试:java版比IKAnalyzer3.1.1Stable略慢,python版比IKAnalyzer3.1.1Stable略快,分词速度在同一数量级。


ostrichmyself 写道
效率会不会很低?

5 楼 ostrichmyself 2009-10-14 12:41
效率会不会很低?
4 楼 fxsjy 2009-10-14 11:40
几个经典测试:
System.out.println(seg.cut("日照香炉生紫烟,遥看瀑布挂前川。飞流直下三千尺,疑是银河落九天。"));
System.out.println(seg.cut("伊藤洋华堂总府店"));
System.out.println(seg.cut("永和服装饰品有限公司"));

r:[日照, 香炉, 瀑布, 飞流, 直下, 疑是, 银河, 落九天]
u:[生紫烟, 紫烟, 遥看, 挂前川, 前川, 三千尺, 千尺]
r:[洋华堂]
u:[伊藤, 总府店, 府店]
r:[永和, 服装, 饰品, 有限, 公司]
u:[]
3 楼 fxsjy 2009-10-14 09:54
seg.cut("日照香炉生紫烟,遥看瀑布挂前川。飞流直下三千尺,疑是银河落九天")

库中有的词:[日照, 香炉, 瀑布, 飞流, 直下, 疑是, 银河, 落九天]

库中没有的词:生紫烟, 紫烟, 遥看, 挂前川, 前川, 三千尺, 千尺]
2 楼 fxsjy 2009-10-14 09:53
晕,项目链接太不明显了


http://code.google.com/p/smallseg/

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • SOAP_1.2规范

    SOAP 1.2为在一个松散的、分布的环境中使用XML对等地交换结构化的和类型化的信息提供了一个简单且轻量级的机制。这是一个基于XML的协议,同时它由四部分组成: 一个作为描述在消息中的内容以及如何处理消息的信息框架的信封(envelope),一组用于表示应用定义的数据类型的编码规则(encoding rules),一个用于表示远程过程调用和返回的约定以及一个使用底层协议进行消息交换的绑定(binding)约定。

  • SOAP Version 1.2中文手冊1 (转)

    SOAP Version 1.2中文手冊1 (转)[@more@] SOAP Version 1.2 w3c Working Draft 9 July 2001 英文版: http://www.w3.org/TR...

  • SOAP Version 1.2中文手冊2

    1. 引言SOAP v1.2为在一个松散的、分布的环境中使用XML对等地交换结构化的和类型化的信息提供了一个简单且轻量级的机制。SOAP本身并不定义任何应用语义,如编程模型或特定语义实现,它只是定义了一种简单的机制,通过一个模块化的包装模型和对模块中特定格式编码的数据的重编码机制来表示应用语义。SOAP的这项能力使得它可被很多类型的系统用于从消息系统到RPC(Remote Procedure

  • SOAP1.2协议规范

    SOAP1.2协议规范在网上的资料及其零碎,我将中文版和英文版的资料整理出来供大家参考

  • SOAP Version 1.2

      SOAP Version 1.2 W3C Working Draft 9 July 2001 英文版:  http://www.w3.org/TR/2001/WD-soap12-20010709/英文版的最后版:  http://www.w3.org/TR/soap12/英文版编辑:  Martin Gudgin (DevelopMentor)  Marc Hadley (Sun M...

  • win10删除/编辑注册表时出错的解决方法

    win10删除/编辑注册表时出错无法编辑的解决方法 win+r,输入regdit,定位到无法删除或者编辑的注册表项 单机右键,选择权限–>高级 所有者–>更改 高级 立即查找 找到自己的登录用户(根据...

  • 删除快照出现提示框:删除时出错 字典问题

    使用虚拟机时,出现磁盘满的情况:315GB的分区H 显示0GB可用,自然而然的想到去删除快照,然而在删除快照时,弹出删除时出错 字典问题 的对话框。 2. 解决办法 搜索到的一些方法,比如使用notepad++打开虚拟机...

  • c++ vector删除多个元素方法

    在vector中由于有多个符合要求的元素需要删除,如果直接删除后,指针直接++就会出现问题,这是因为当erase后,iter就变成了一个野指针,对一个野指针++是一定会出现错误的。 vector<int> veci; veci.push_...

  • QTableWidget删除行出错

    在调用removeRow删除QTableWidget的行时总会遇到一个问题,说tableWidget已经是isEmpty(),不能再删除了,但其实还有一行没删除,可是只要删除那最后的一行就出错.代码大致是这个样子的  1.这里是删除的代码,感觉应该...

  • myeclipse删除jar时出错,无法删除怎么办

    在删除 myeclipse 的lib文件夹中的*.jar文件时,无法直接删除,怎么办呢? 其实很简单,需要删除build path 中的对应文件,然后重新打开myeclipse后,才可以删除对应文件。

  • WSDL样式详解,soap中Rpc和Document的区别

    对wsdl的格式进行分析,主要讲解soap服务中rpc和doucumnet的不同之处。

  • SOAP协议解析

    一、SOAP协议简介 1、SOAP简介  SOAP(Simple Object Accrss Protocol,简单对象访问协议)是一种简单的基于XML的协议,可以使应用程序在分散或分布式的环境中通过HTTP来交换信息。           SOAP基于XML语言和XSD标准,其定义了一套编码规则,编码规则定义如何将数据表示为消息,以及怎样通过HTTP协议来传输SOAP消息,由四部分组成: ...

  • SOAP1.2学习笔记

     SOAP,简单对象访问协议,是一种基于XML的,用于在计算机之间交换信息的协议。 SOAP一般包含一个强制性Envelope元素,一个可选的Header元素,一个强制性的Body元素。   1.Envelope 这是SOAP的根元素,SOAP的版本一般要在这里声明。以下是1.2名称空间的地址 <SOAP-ENV:Envelope xmlns:SOAP-ENV=htt...

  • SOAP version 1.2 中文手冊5

    6. 在HTTP中使用SOAP本节描述了如何在使用或不使用HTTP Extension Framework的前提下将SOAP与HTTP的协同工作机制。将SOAP绑定在HTTP上可以利用HTTP丰富的特性集,提供使用SOAP形式方法和分布适应性的优点。将SOAP在HTTP上传输并不以为着SOAP可以完全超越HTTP的语义,更恰当的描述应当是SOAP的语义通过HTTP的映射而很自然地成为HTT

  • SOAP Version 1.2中文手冊3

    2. SOAP消息交换模型从根本上来看,SOAP消息是从发送方到接受方的一种传输方法,但就象前面例子中阐述的那样,SOAP消息一般会和实现模式结合,例如请求/响应。SOAP的实现可以为特殊网络系统的特有特征来优化。例如,在section 6中描述的HTTP binding将SOAP响应消息通过HTTP响应来传输,使用与相对应请求的同一HTTP连接。2.1 SOAP结点SOAP结

  • 安卓系统目录说明大全,各文件夹是什么,可以删除吗?(以MIUI为例)

    .com.pingan.paces.ccms 平安口袋银行(旧版目录,可删除) 新版本目录已移至Andriod的data目录下,所以可以放心删除。 PASpeechSDK 平安的某个SDK(可删除) 目前没有发现用处,该目录为空,可删除。

  • MySQL中嵌套子查询删除出错解决方案

    MySQL中嵌套子查询删除出错解决方案

  • python 列表删除多个元素

    推荐使用枚举法和双指针方法删除列表多个元素,不推荐使用列表的pop()方法和remove()方法,容易出错。如果只删除列表一个元素,可以使用列表的pop()和remove()方法。

  • svn删除文件出错的经验总结

    http://blog.csdn.net/clever101 今天有个同事在没有将工程从VS解决方案中移除的情况下使用svn对一个工程重命名,结果在提交时出错了,提示:没有匹配的可用锁令牌,具体如下图: 单独删除BandDatatypeOperator.h...

  • Tuxera NTFS for Mac:验证密钥时出错及彻底删除Tuxera ntfs

    通过“应用程序”或“偏好设置”已卸载Tuxera NTFS for Mac后仍在ntfs磁盘插入后仍有提示,finder 搜索Tuxera 可以查找到未完全删除的文件残留,位于Application support 及 TuxeraNTFSUnmountHelper 下的文件可以...

Global site tag (gtag.js) - Google Analytics