锁定老帖子 主题:关于PinYin4J的原理解析
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
|
|
---|---|
作者 | 正文 |
发表时间:2011-09-23
建议你去看看ICU4J的Transliteration中Han-Pinyin的转换哈哈
|
|
返回顶楼 | |
发表时间:2011-09-23
gougou851129 写道 建议你去看看ICU4J的Transliteration中Han-Pinyin的转换哈哈
我也建议你看看ICU的实现,这类软件的核心是字库,这些没有很大的资源是做不了的。 |
|
返回顶楼 | |
发表时间:2011-09-23
GavinHwa 写道 完美的休止符 写道 i2534 写道 那么对多音字的处理呢?特别是特定词语?
多音字肯定处理不了的 PinYin4J 支持多音字处理的 白糖_ 写道 完美的休止符 写道 i2534 写道 那么对多音字的处理呢?特别是特定词语?
多音字肯定处理不了的 很遗憾,pinyin4j真的可以处理多音字 pinyin4j我去年简单使用过,没发现可以处理多音字啊。pinyin4j带的字库里只有单个字的读音,没有词语的读音(虽然它把多音字的所有读音都列出来了),这样,词语“体重”的读音是分开取得的,所以“重”既可以取得“zhong”,也可以取得“chong”,那么“体重”的读音是有可能取得错误读音“tichong”的。 如果要处理多音字,必须要把包含多音字的词语的正确读音都一一列出来,放到词库里。最后通过分词技术,取得词语,然后获得读音。 我同意weiqiang.yang说的那样, weiqiang.yang 写道 原来是有提供toPinyinString(String input)这个接口的,后来就去掉了,估计就是因为多音字的问题 不考虑多音字的话,可以直接简化成一一映射,更简单一些 toPinyinString(String input)这个函数被废弃掉,就是因为多音字的问题。 |
|
返回顶楼 | |
发表时间:2011-09-23
qianhd 写道 包含多少汉字??
20903个汉字吧,完全够用了 |
|
返回顶楼 | |
发表时间:2011-09-27
fainfy 写道 6211 (wo3)
弱弱的问一下,这里的“3”表示什么意思? 应该是3声?总共有4声 |
|
返回顶楼 | |