`

中文分词效果对比

阅读更多

使用40个句子,在word分词搜狗分词ansj分词之间看看区别有多大。

 

word分词效果:

 

杨尚川 是 apdplat 应用 级 产品 开发 平台 的 作者 
他 说 的 确实 在理 
提高 人民 生活 水平 
他俩 儿 谈恋爱 是从 头年 元月 开始 的 
王府 饭店 的 设施 和 服务 是 一流 的 
和服 务 于 三 日后 裁制 完毕 , 并 呈送 将军 府 中 
研究 生命 的 起源 
他 明天 起身 去 北京 
在 这些 企业 中 国有 企业 有 十个 
他 站 起身 来 
他们 是 来 查 金泰 撞人 那件 事 的 
行 侠 仗义 的 查 金泰 远近 闻名 
长春 市长 春节 致辞 
他 从 马上 摔下 来 了 , 你 马上 下来 一 下 
乒乓球拍 卖完 了 
咬死 猎人 的 狗 
地面 积 了 厚厚 的 雪 
这 几块 地 面积 还 真 不小 
大学生活 象 白纸 
结 合成 分子式 
有 意见 分歧 
发展 中国 家兔 的 计划 
明天 他 将来 北京 
税收制度 将来 会 更 完善 
依靠 群众 才能 做好 工作 
现在 是 施展 才能 的 好 机会 
把手 举 起来 
茶杯 的 把手 断 了 
以 新的 姿态 出 现在 世界 东方 
使 节约粮食 进一步 形成 风气 
反映 了 一 个人 的 精神 面貌 
美国 加州 大学 的 科学 家 发现 
我 好不 挺好 
木 有 
下雨天 留客 天天 留 我 不留 
叔叔 亲 了 我 妈妈 也 亲 了 我 
白马非马 
学生会 写文章 
张掖 市民 陈军 
张掖市 明 乐 县  

 

搜狗分词效果 :

 

杨尚川 是 apdplat 应用 级 产品 开发 平台 的 作者 
他 说 的确 实在 理 
提高 人民 生活 水平 
他 俩 儿 谈恋爱 是 从头 年 元月 开始 的 
王府 饭店 的 设施 和 服务 是 一流 的 
和 服务 于 三 日后 裁 制 完毕 并 呈送 将军府 中 
研究 生命 的 起源 
他 明天 起身 去 北京 
在 这些 企业 中国 有 企业 有 十 个 
他 站 起身 来 
他们 是 来 查 金泰 撞人 那 件 事 的 
行 侠 仗义 的 查 金泰 远近 闻名 
长春 市长 春节 致辞 
他 从 马上 摔下 来了 你 马上 下来 一下 
乒乓球 拍卖 完 了 
咬 死 猎人 的 狗 
地 面积 了 厚厚 的 雪 
这 几块 地 面积 还 真 不 小 
大学生 活象 白纸 
结合 成 分子式 
有 意见 分歧 
发展 中国 家兔 的 计划 
明天 他 将来 北京 
税收 制度 将来 会 更 完善 
依靠 群众 才能 做好 工作 
现在 是 施展 才能 的 好 机会 
把手 举起 来 
茶杯 的 把手 断了 
以 新 的 姿态 出现 在 世界 东方 
使 节约 粮食 进一步 形成 风气
反映 了 一个人 的 精神 面貌 
美国 加州 大学 的 科学家 发现 
我 好 不 挺 好 
木有 
下 雨天 留客 天天 留 我 不留 
叔叔 亲了 我 妈妈 也 亲了 我 
白马 非 马 
学生会 写文章 
张掖 市民 陈军 
张掖市 明 乐 县 

 

ansj分词效果:

 

杨尚川 是 apdplat 应用 级 产品开发 平台 的 作者 
他 说 的 确实 在理 
提高 人民 生活 水平 
他俩 儿 谈恋爱 是从 头年 元月 开始 的 
王府 饭店 的 设施 和 服务 是 一流 的 
和 服务 于 三日 后 裁制 完毕 , 并 呈送 将军 府 中 
研究 生命 的 起源 
他 明天 起身 去 北京 
在 这些 企业 中 国有企业 有 十个 
他 站 起身 来 
他们 是 来 查 金泰 撞 人 那件事 的 
行侠仗义 的 查 金泰 远近闻名 
长春 市长 春节 致辞 
他 从 马上 摔下来 了 , 你 马上 下来 一下 
乒乓球拍 卖完 了 
咬 死 猎人 的 狗 
地面 积 了 厚厚的 雪 
这 几块 地 面积 还 真 不小 
大学 生活 象 白纸 
结合 成 分子式 
有 意见分歧 
发展中国家 兔 的 计划 
明天 他 将来 北京 
税收制度 将来 会 更 完善 
依靠群众 才能 做好 工作 
现在 是 施展才能 的 好 机会 
把手 举 起来 
茶杯 的 把手 断 了 
以 新 的 姿态 出现 在 世界 东方 
使 节约粮食 进一步 形成 风气 
反映 了 一个 人 的 精神面貌 
美国加州大学 的 科学家 发现 
我 好 不 挺 好 
木 有 
下雨天 留客 天天 留 我 不留 
叔叔 亲 了 我 妈妈 也 亲 了 我 
白马非马 
学生会 写文章 
张掖 市民 陈军 
张掖市 明 乐 县 

 

 

 看如下详细对比图(搜狗分词和word分词):

 

 

 

看如下详细对比图(ansj分词和word分词):



 
 

参考资料:

1、word分词

2、搜狗分词

3、ansj分词

  • 大小: 76.1 KB
  • 大小: 69.1 KB
3
0
分享到:
评论

相关推荐

    基于 Java 的中文分词器分词效果评估对比项目

    基于 Java 的中文分词器分词效果评估对比项目。它主要实现了以下功能: 分词效果评估:用户可以通过程序对比不同分词器的分词结果,以及计算分词速度、行数完美率、行数错误率、字数完美率、字数错误率等指标。 ...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    这些分词器的效果评估通常会通过对比它们在不同文本类型上的分词结果,考察召回率、准确率和F值等指标。博主“yangshangchuan”在ITEYE博客上分享的评估程序提供了比较这些工具的平台。评估程序可能包括创建测试数据...

    cws_evaluation, Java开源项目cws_evaluation:中文分词器分词效果评估对比.zip

    总之,cws_evaluation项目为中文分词效果评估提供了一套全面的解决方案,对于研究者和开发者来说,它是一个宝贵的资源。通过理解和利用这个项目,我们可以更好地理解不同分词器的特性,优化我们的自然语言处理系统,...

    Java开源项目cws-evaluation:中文分词器分词效果评估对比.zip

    Java开源项目cws-evaluation:中文分词器分词效果评估对比.zip

    各类分词器合集!!!!!

    6. **Thulac**:由清华大学自然语言处理实验室开发,提供词性标注和命名实体识别,其分词效果优秀,尤其在处理专有名词时有显著优势。 7. **分词器的比较与选择**:不同的分词器有不同的优点和适用场景,例如,...

    中文分词词库整理.7z

    中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词词库整理.7z”压缩包中,包含的可能是一个精心整理的中文词汇集合,用于支持各种中文分词算法...

    中文分词算法程序

    词典的大小和质量直接影响分词效果。 3. **分词策略**:常见的分词策略有正向最大匹配法(BMM)、逆向最大匹配法(RMM)、最短路径法(SPM)和双向最大匹配法(BiMM)等。这些方法各有优缺点,例如,BMM和RMM能较好...

    elasticsearch-ik中文分词器7.6.2.zip

    IK分词器的特点在于它的动态词典加载和自定义扩展词功能,能够根据实际需求进行灵活配置,提高分词效果。 **安装与配置** 在Elasticsearch中使用IK分词器,首先需要将"elasticsearch-analysis-ik-7.6.2.jar"文件放...

    11款开放中文分词引擎测试数据

    例如,HanLP,由百度公司开源,它采用了多种模型的融合,包括HMM、CRF等,实现了较高的分词效果。 4. 深度学习分词方法:随着深度学习技术的发展,基于神经网络的分词模型逐渐流行。LTP(Language Tool Package)...

    python中文分词:基于条件随机场模型的中文分词实现及改进全项目.zip

    标题中的“python中文分词:基于条件随机场模型的中文分词实现及改进全项目”表明,这是一个关于Python...同时,通过对比不同版本的数据,可以研究数据特性对模型性能的影响,这对于优化模型和提升分词效果至关重要。

    中文分词词库

    它不仅适用于“机械分词”,即自动化的分词算法,帮助机器学习模型进行训练和优化,还可以作为“差分词库”,即对比不同分词方法效果的参照。 在“广告精确定投”中,中文分词词库的作用尤为关键。广告投放需要精准...

    C++实现的中文分词

    - **测试样例**:用于验证分词效果的示例文本和预期分词结果。 6. **优化方向**: - **歧义消除**:通过引入更复杂的算法,如基于统计的分词模型(如HMM、CRF)来减少歧义。 - **动态词典**:允许在运行时更新...

    crf++ 中文分词

    **中文分词是自然语言处理中的基础步骤,它将连续的汉字序列切分成具有语义意义的词语单元,为后续的文本分析、信息提取、情感分析等任务提供基础。CRF++是一个开源的条件随机场(Conditional Random Field)库,...

    大数据ES数据存储,查询之IK中文分词器

    对于ES IK分词插件在中文检索中非常常用,本人也使用了挺...本文包括前言、IK分词介绍、分词效果对比、自定义词典使用、索引设置和字段设置(Python 创建索引并导入数据)、查询测试(Python 查询)、结论等七个部分。

    中文分词特殊算法

    为了提升分词效果,可以结合其他方法,如基于规则的分词(如正则表达式)、基于统计的分词(如HMM模型、CRF模型)或者深度学习方法(如Bi-LSTM、BERT等)。这些方法可以协同工作,提高分词的准确性和效率。 总的来...

    中文分词系统

    评估分词效果通常采用F1值、准确率、召回率等指标,通过与标准分词结果进行比较来量化系统性能。 在提供的压缩包文件"wordseg"中,可能包含了以下内容: 1. **词典文件**:存储了大量的中文词汇,用于分词过程中的...

    中文分词系统最完整库

    3. 结合规则与统计的混合方法:为了提高分词效果,许多系统会结合词典和统计模型,利用规则处理未登录词(未出现在词典中的词)。 压缩包内的“中文分词系统最新完整库代码”可能包含了上述各种算法的实现,这为...

    中文分词Demo

    **中文分词技术详解** 中文分词是自然语言处理...通过尝试和对比不同的分词策略,我们可以更好地评估各种方法在特定应用场景下的适用性和效果。对于IT从业者来说,掌握中文分词技术是提升自然语言处理能力的重要一步。

Global site tag (gtag.js) - Google Analytics