论坛首页 Java企业应用论坛

Totoro中文分词第二版上线啦

浏览 11507 次
精华帖 (5) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2012-08-14  
dacoolbaby 写道
[北京/n, 理/n, 工/ag, 大学/n, 办事处/n] 
像这一条就分的有点问题了。。


这不算错..后期应该有个用户自定义词典对这种未合并的词进行合并....比如"学费一次性交100元."这个时候如果分出了"性(和谐)交" 此时就是错了..北京理工大学..算是机构名称识别的问题..正在做..思路也有..精力有点吃不消
0 请登录后投票
   发表时间:2012-08-14  
yscyfy 写道
兄弟能说说你的分词的准确度吗? 
只贴出几条语句有什么说服力,准确度差的话,一切都是惘然!



准确度.这个东西很难说的...除非有大规模预料..几千篇文章也说不出什么...而且"北京大学"和"北京","大学"是哪个准确...但是你的意见我会考虑的...我想办法搞预料去...争取能给一个科学的统计..谢谢关注
0 请登录后投票
   发表时间:2012-08-14  
训练语料很贵,个人很难支付得起,没有训练语料,你根本没法让人信服的!


ansjsun 写道
yscyfy 写道
你是不是做这方面的啊,那几条数据能说明什么问题,你至少要测试几百万条数据,查看准确率吧



说实话..因为缺乏训练预料没法做..准确率测试..只能根据常见的歧义句进行排除...或者人工识别下文本..

0 请登录后投票
   发表时间:2012-08-14  
yscyfy 写道
训练语料很贵,个人很难支付得起,没有训练语料,你根本没法让人信服的!


ansjsun 写道
yscyfy 写道
你是不是做这方面的啊,那几条数据能说明什么问题,你至少要测试几百万条数据,查看准确率吧



说实话..因为缺乏训练预料没法做..准确率测试..只能根据常见的歧义句进行排除...或者人工识别下文本..




的却人工标注的预料很难搞到..而且预料必须质量比较高..否则依靠训练无法得道一个好的效果...回头我整理点吧..有一种技术叫采集
0 请登录后投票
   发表时间:2012-08-14  
等待楼主

ansjsun 写道
yscyfy 写道
训练语料很贵,个人很难支付得起,没有训练语料,你根本没法让人信服的!


ansjsun 写道
yscyfy 写道
你是不是做这方面的啊,那几条数据能说明什么问题,你至少要测试几百万条数据,查看准确率吧



说实话..因为缺乏训练预料没法做..准确率测试..只能根据常见的歧义句进行排除...或者人工识别下文本..




的却人工标注的预料很难搞到..而且预料必须质量比较高..否则依靠训练无法得道一个好的效果...回头我整理点吧..有一种技术叫采集

0 请登录后投票
   发表时间:2012-08-14  
苍天有井独自空能分出苍老湿不?
0 请登录后投票
   发表时间:2012-08-14  
dieslrae 写道
苍天有井独自空能分出苍老湿不?

0 苍天/n
2 有/vn
3 井/nr1
4 独自/d
6 空/ng


木有苍老师
0 请登录后投票
   发表时间:2012-08-14  
ansjsun 写道
dieslrae 写道
苍天有井独自空能分出苍老湿不?

0 苍天/n
2 有/vn
3 井/nr1
4 独自/d
6 空/ng


木有苍老师

应该把苍老湿加入字典
0 请登录后投票
   发表时间:2012-08-14  
没源码吗?说好的开源呢
0 请登录后投票
   发表时间:2012-08-14  
zhc0822 写道
没源码吗?说好的开源呢

不错了..放弃了....
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics