锁定老帖子 主题:Totoro中文分词第二版上线啦
精华帖 (5) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2012-08-14
dacoolbaby 写道 [北京/n, 理/n, 工/ag, 大学/n, 办事处/n]
像这一条就分的有点问题了。。 这不算错..后期应该有个用户自定义词典对这种未合并的词进行合并....比如"学费一次性交100元."这个时候如果分出了"性(和谐)交" 此时就是错了..北京理工大学..算是机构名称识别的问题..正在做..思路也有..精力有点吃不消 |
|
返回顶楼 | |
发表时间:2012-08-14
yscyfy 写道 兄弟能说说你的分词的准确度吗?
只贴出几条语句有什么说服力,准确度差的话,一切都是惘然! 准确度.这个东西很难说的...除非有大规模预料..几千篇文章也说不出什么...而且"北京大学"和"北京","大学"是哪个准确...但是你的意见我会考虑的...我想办法搞预料去...争取能给一个科学的统计..谢谢关注 |
|
返回顶楼 | |
发表时间:2012-08-14
训练语料很贵,个人很难支付得起,没有训练语料,你根本没法让人信服的!
ansjsun 写道 yscyfy 写道 你是不是做这方面的啊,那几条数据能说明什么问题,你至少要测试几百万条数据,查看准确率吧
说实话..因为缺乏训练预料没法做..准确率测试..只能根据常见的歧义句进行排除...或者人工识别下文本.. |
|
返回顶楼 | |
发表时间:2012-08-14
yscyfy 写道 训练语料很贵,个人很难支付得起,没有训练语料,你根本没法让人信服的!
ansjsun 写道 yscyfy 写道 你是不是做这方面的啊,那几条数据能说明什么问题,你至少要测试几百万条数据,查看准确率吧
说实话..因为缺乏训练预料没法做..准确率测试..只能根据常见的歧义句进行排除...或者人工识别下文本.. 的却人工标注的预料很难搞到..而且预料必须质量比较高..否则依靠训练无法得道一个好的效果...回头我整理点吧..有一种技术叫采集 |
|
返回顶楼 | |
发表时间:2012-08-14
等待楼主
ansjsun 写道 yscyfy 写道 训练语料很贵,个人很难支付得起,没有训练语料,你根本没法让人信服的!
ansjsun 写道 yscyfy 写道 你是不是做这方面的啊,那几条数据能说明什么问题,你至少要测试几百万条数据,查看准确率吧
说实话..因为缺乏训练预料没法做..准确率测试..只能根据常见的歧义句进行排除...或者人工识别下文本.. 的却人工标注的预料很难搞到..而且预料必须质量比较高..否则依靠训练无法得道一个好的效果...回头我整理点吧..有一种技术叫采集 |
|
返回顶楼 | |
发表时间:2012-08-14
苍天有井独自空能分出苍老湿不?
|
|
返回顶楼 | |
发表时间:2012-08-14
dieslrae 写道 苍天有井独自空能分出苍老湿不?
0 苍天/n 2 有/vn 3 井/nr1 4 独自/d 6 空/ng 木有苍老师 |
|
返回顶楼 | |
发表时间:2012-08-14
ansjsun 写道 dieslrae 写道 苍天有井独自空能分出苍老湿不?
0 苍天/n 2 有/vn 3 井/nr1 4 独自/d 6 空/ng 木有苍老师 应该把苍老湿加入字典 |
|
返回顶楼 | |
发表时间:2012-08-14
没源码吗?说好的开源呢
|
|
返回顶楼 | |
发表时间:2012-08-14
zhc0822 写道 没源码吗?说好的开源呢
不错了..放弃了.... |
|
返回顶楼 | |