`

Java开源项目cws_evaluation:中文分词器分词效果评估

阅读更多

cws_evaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估

 

cws_evaluation 通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。

 

支持的分词器有:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、paoding分词器、jieba分词器、stanford分词器等9大中文分词器。

 

评估采用的测试文本有253 3709行,共2837 4490个字符。

 

cws_evaluation主页

可运行程序下载

 

最好的评估结果是word分词 全切分算法(trigram)

 

word分词 全切分算法(trigram):
分词速度:42.10602 字符/毫秒
行数完美率:65.04%  行数错误率:34.95%  总的行数:2533709  完美行数:1648163  错误行数:885546
字数完美率:56.3% 字数错误率:43.69% 总的字数:28374490 完美字数:15976750 错误字数:12397740

 

 

下面的评估数据中,word分词使用bigram,按行数完美率排序:

 

1:
word分词 全切分算法:
分词速度:40.259953 字符/毫秒
行数完美率:58.79%  行数错误率:41.2%  总的行数:2533709  完美行数:1489713  错误行数:1043996
字数完美率:49.53% 字数错误率:50.46% 总的字数:28374490 完美字数:14054431 错误字数:14320059

2:
Ansj ToAnalysis 精准分词:
分词速度:705.25415 字符/毫秒
行数完美率:58.6%  行数错误率:41.39%  总的行数:2533709  完美行数:1484830  错误行数:1048879
字数完美率:50.96% 字数错误率:49.03% 总的字数:28374490 完美字数:14462190 错误字数:13912300

3:
Stanford Beijing University segmentation:
分词速度:14.4612055 字符/毫秒
行数完美率:58.29%  行数错误率:41.7%  总的行数:2533709  完美行数:1477034  错误行数:1056675
字数完美率:51.36% 字数错误率:48.63% 总的字数:28374490 完美字数:14574120 错误字数:13800370

4:
Ansj NlpAnalysis NLP分词:
分词速度:171.70125 字符/毫秒
行数完美率:58.15%  行数错误率:41.84%  总的行数:2533687  完美行数:1473377  错误行数:1060310
字数完美率:49.8% 字数错误率:50.19% 总的字数:28374398 完美字数:14132290 错误字数:14242108

5:
Stanford Chinese Treebank segmentation:
分词速度:13.723294 字符/毫秒
行数完美率:55.45%  行数错误率:44.54%  总的行数:2533709  完美行数:1404968  错误行数:1128741
字数完美率:47.27% 字数错误率:52.72% 总的字数:28374490 完美字数:13414926 错误字数:14959564

6:
word分词 双向最大最小匹配算法:
分词速度:172.1868 字符/毫秒
行数完美率:55.31%  行数错误率:44.68%  总的行数:2533709  完美行数:1401582  错误行数:1132127
字数完美率:45.83% 字数错误率:54.16% 总的字数:28374490 完美字数:13005696 错误字数:15368794

7:
Ansj BaseAnalysis 基本分词:
分词速度:834.34753 字符/毫秒
行数完美率:55.31%  行数错误率:44.68%  总的行数:2533709  完美行数:1401582  错误行数:1132127
字数完美率:48.17% 字数错误率:51.82% 总的字数:28374490 完美字数:13670258 错误字数:14704232

8:
word分词 双向最大匹配算法:
分词速度:270.38776 字符/毫秒
行数完美率:52.01%  行数错误率:47.98%  总的行数:2533709  完美行数:1317801  错误行数:1215908
字数完美率:42.42% 字数错误率:57.57% 总的字数:28374490 完美字数:12038414 错误字数:16336076

9:
FudanNLP:
分词速度:94.249245 字符/毫秒
行数完美率:51.48%  行数错误率:48.51%  总的行数:2533709  完美行数:1304371  错误行数:1229338
字数完美率:43.22% 字数错误率:56.77% 总的字数:28374490 完美字数:12265742 错误字数:16108748

10:
Jieba SEARCH:
分词速度:662.1663 字符/毫秒
行数完美率:51.42%  行数错误率:48.57%  总的行数:2533709  完美行数:1303081  错误行数:1230628
字数完美率:42.09% 字数错误率:57.9% 总的字数:28374490 完美字数:11944313 错误字数:16430177

11:
Ansj IndexAnalysis 面向索引的分词:
分词速度:750.1914 字符/毫秒
行数完美率:50.89%  行数错误率:49.1%  总的行数:2533709  完美行数:1289517  错误行数:1244192
字数完美率:42.96% 字数错误率:57.03% 总的字数:28374490 完美字数:12191132 错误字数:16183358

12:
Jcseg 复杂模式:
分词速度:412.83997 字符/毫秒
行数完美率:48.64%  行数错误率:51.35%  总的行数:2533709  完美行数:1232550  错误行数:1301159
字数完美率:39.59% 字数错误率:60.4% 总的字数:28374490 完美字数:11236204 错误字数:17138286

13:
word分词 双向最小匹配算法:
分词速度:343.60004 字符/毫秒
行数完美率:46.76%  行数错误率:53.23%  总的行数:2533709  完美行数:1185013  错误行数:1348696
字数完美率:36.52% 字数错误率:63.47% 总的字数:28374490 完美字数:10365168 错误字数:18009322

14:
word分词 逆向最大匹配算法:
分词速度:607.2527 字符/毫秒
行数完美率:46.72%  行数错误率:53.27%  总的行数:2533709  完美行数:1183913  错误行数:1349796
字数完美率:36.67% 字数错误率:63.32% 总的字数:28374490 完美字数:10407342 错误字数:17967148

15:
word分词 正向最大匹配算法:
分词速度:615.3252 字符/毫秒
行数完美率:46.66%  行数错误率:53.33%  总的行数:2533709  完美行数:1182351  错误行数:1351358
字数完美率:36.73% 字数错误率:63.26% 总的字数:28374490 完美字数:10422209 错误字数:17952281

16:
Jcseg 简易模式:
分词速度:750.60815 字符/毫秒
行数完美率:45.24%  行数错误率:54.75%  总的行数:2533709  完美行数:1146355  错误行数:1387354
字数完美率:36.48% 字数错误率:63.51% 总的字数:28374490 完美字数:10352723 错误字数:18021767

17:
word分词 逆向最小匹配算法:
分词速度:970.16754 字符/毫秒
行数完美率:41.78%  行数错误率:58.21%  总的行数:2533709  完美行数:1058606  错误行数:1475103
字数完美率:31.68% 字数错误率:68.31% 总的字数:28374490 完美字数:8989797 错误字数:19384693

18:
MMSeg4j ComplexSeg:
分词速度:1071.8275 字符/毫秒
行数完美率:38.81%  行数错误率:61.18%  总的行数:2533688  完美行数:983517  错误行数:1550171
字数完美率:29.6% 字数错误率:70.39% 总的字数:28374428 完美字数:8400089 错误字数:19974339

19:
MMSeg4j SimpleSeg:
分词速度:1369.4913 字符/毫秒
行数完美率:37.57%  行数错误率:62.42%  总的行数:2533688  完美行数:951909  错误行数:1581779
字数完美率:28.45% 字数错误率:71.54% 总的字数:28374428 完美字数:8074021 错误字数:20300407

20:
IKAnalyzer 智能切分:
分词速度:350.47543 字符/毫秒
行数完美率:37.55%  行数错误率:62.44%  总的行数:2533686  完美行数:951638  错误行数:1582048
字数完美率:27.97% 字数错误率:72.02% 总的字数:28374416 完美字数:7938726 错误字数:20435690

21:
word分词 正向最小匹配算法:
分词速度:1079.0421 字符/毫秒
行数完美率:36.85%  行数错误率:63.14%  总的行数:2533709  完美行数:933769  错误行数:1599940
字数完美率:26.85% 字数错误率:73.14% 总的字数:28374490 完美字数:7621334 错误字数:20753156

22:
Jieba INDEX:
分词速度:622.5616 字符/毫秒
行数完美率:36.44%  行数错误率:63.55%  总的行数:2533709  完美行数:923459  错误行数:1610250
字数完美率:26.25% 字数错误率:73.74% 总的字数:28374490 完美字数:7448925 错误字数:20925565

23:
MMSeg4j MaxWordSeg:
分词速度:1064.9885 字符/毫秒
行数完美率:34.27%  行数错误率:65.72%  总的行数:2533688  完美行数:868440  错误行数:1665248
字数完美率:25.2% 字数错误率:74.79% 总的字数:28374428 完美字数:7152898 错误字数:21221530

24:
IKAnalyzer 细粒度切分:
分词速度:366.91785 字符/毫秒
行数完美率:18.87%  行数错误率:81.12%  总的行数:2533686  完美行数:478176  错误行数:2055510
字数完美率:10.93% 字数错误率:89.06% 总的字数:28374416 完美字数:3103178 错误字数:25271238

25:
Paoding MAX_WORD_LENGTH_MODE:
分词速度:1343.1075 字符/毫秒
行数完美率:14.19%  行数错误率:85.8%  总的行数:2533158  完美行数:359637  错误行数:2173521
字数完美率:7.72% 字数错误率:92.27% 总的字数:28373102 完美字数:2191349 错误字数:26181753

26:
Paoding MOST_WORDS_MODE:
分词速度:1338.9246 字符/毫秒
行数完美率:11.6%  行数错误率:88.39%  总的行数:2533158  完美行数:294011  错误行数:2239147
字数完美率:5.92% 字数错误率:94.07% 总的字数:28373102 完美字数:1680261 错误字数:26692841

 

 

4
2
分享到:
评论
5 楼 yangshangchuan 2014-05-04  
--晴天-- 写道
行数完美率
行数错误率
完美行数
错误行数
字数完美率
字数错误率
完美字数
错误字数
这些“专业名词”不是特别懂啊解释一下啊!


                if(result.equals(standard)){
                    //分词结果和标准一模一样
                    perfectLineCount++;
                    perfectCharCount+=standard.replaceAll("\\s+", "").length();
                }else{
                    //分词结果和标准不一样
                    wrongLineCount++;
                    wrongCharCount+=standard.replaceAll("\\s+", "").length();
                }
4 楼 yangshangchuan 2014-05-04  
--晴天-- 写道
行数完美率
行数错误率
完美行数
错误行数
字数完美率
字数错误率
完美字数
错误字数
这些“专业名词”不是特别懂啊解释一下啊!


public float getLinePerfectRate(){
        return (int)(perfectLineCount/(float)totalLineCount*10000)/(float)100;
    }
    public float getLineWrongRate(){
        return (int)(wrongLineCount/(float)totalLineCount*10000)/(float)100;
    }
    public float getCharPerfectRate(){
        return (int)(perfectCharCount/(float)totalCharCount*10000)/(float)100;
    }
    public float getCharWrongRate(){
        return (int)(wrongCharCount/(float)totalCharCount*10000)/(float)100;
    }
3 楼 --晴天-- 2014-05-04  
行数完美率
行数错误率
完美行数
错误行数
字数完美率
字数错误率
完美字数
错误字数
这些“专业名词”不是特别懂啊解释一下啊!
2 楼 yangshangchuan 2014-05-01  
xinggg22 写道
建议把 jcseg 也放进去评估。


好主意!
1 楼 xinggg22 2014-05-01  
建议把 jcseg 也放进去评估。

相关推荐

    cws_evaluation, Java开源项目cws_evaluation:中文分词器分词效果评估对比.zip

    《cws_evaluation:Java开源项目中的中文分词器效果评估》 在中文自然语言处理领域,分词是至关重要的一步,它对后续的文本分析、信息检索、机器翻译等任务有着直接影响。cws_evaluation是一个Java开源项目,专门...

    Java开源项目cws-evaluation:中文分词器分词效果评估对比.zip

    Java开源项目cws-evaluation:中文分词器分词效果评估对比.zip

    中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

    word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能...5、Java开源项目cws_evaluation:中文分词器分词效果评估

    CWS_Dict:AAAI 2018年论文“带有用于中文分词的词典的神经网络”的源代码-tensorflow source code

    结合字典的神经网络用于中文分词 本文提出了中文分词算法的源代码和语料库。 张琦,刘晓宇,付金兰。 结合字典进行中文分词的神经网络。 AAAI 2018 依存关系 目录结构 CWS_dict same-domain: In-domain ...

    数据集-苹果果目标检测-labelme-4430

    包含4430张苹果目标检测图片和标签数据。 数据集介绍: https://blog.csdn.net/qq_21386397/article/details/147465394

    基于YOLOv5和Django实现了对道路交通标识的实时识别系统+项目说明(毕设作品).zip

    基于YOLOv5和Django实现了对道路交通标识的实时识别系统+项目说明(毕设作品).zip 项目简介 该项目基于YOLOv5和Django实现了对道路交通标识的实时识别并利用Django后端框架部署该项目,用户可以在网页上实时观看检测画面。 项目组成 detect文件夹 Django APP 主要是识别的代码、模型、以及相关的资源 主要功能点 基于YOLOv5的道路交通标识实时识别 利用Django后端框架部署项目,提供网页界面供用户实时观看检测结果 技术栈 计算机视觉: YOLOv5 Web框架: Django

    NetworkWordCount.py

    NetworkWordCount.py

    groovy-2.4.0-beta-3.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    groovy-2.3.0-beta-2.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    Python新手入门学习方法指南.pdf

    内容概要:本文档为Python新手提供了全面的学习指南,涵盖从零基础到独立编程所需的知识和技能。首先介绍了Python的核心优势和应用场景,强调其简洁的语法、丰富的生态以及跨平台支持。接着详细规划了四个学习阶段:基础语法(1-2周),包括变量、数据类型、流程控制等;数据结构与文件操作(2-3周),涉及列表、字典、文件读写;面向对象与模块化编程(3-4周),讲解类与对象、继承、模块化开发;实战项目(持续练习),通过具体项目巩固所学知识。此外,还提供了开发环境搭建指导、高效学习技巧、常见问题避坑指南及学习资源推荐,帮助初学者顺利入门。 适合人群:零基础或有少量编程经验,希望系统学习Python的新手程序员。 使用场景及目标:①为初学者提供系统的Python学习路径,从基础到实战逐步提升编程能力;②帮助学习者掌握Python核心语法和常用工具,能够独立完成小型项目;③通过实战项目积累经验,培养解决实际问题的能力。 其他说明:建议学习者按照规划的学习路径循序渐进,每天坚持练习,并积极参与社区交流。遇到问题时,善用官方文档和在线资源,保持学习动力,逐步成长为自信的开发者。

    flink-table-api-java-1.14.1.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据

    Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据,个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数据Python 实现的爬取汽车之家数据并进行可视化展示项目源代码+全部数

    基于Gensim和Jieba的中文文本聚类LDA模型构建与优化

    内容概要:本文详细介绍了如何利用Gensim库和Jieba分词工具进行中文文本聚类,尤其是LDA(Latent Dirichlet Allocation)主题模型的应用。首先,通过自定义词典和停用词表来提高分词准确性,确保专业术语不会被错误分割。然后,将分词后的文本转换为词袋模型,作为LDA模型的输入。文中还探讨了多个重要参数的选择与调优方法,如主题数量(num_topics)、迭代次数(passes)、以及随机种子(random_state)。此外,作者分享了一些实用的经验,例如如何通过coherence score评估模型质量,以及如何使用pyLDAvis进行可视化展示。 适合人群:有一定编程基础的数据分析师、自然语言处理工程师、文本挖掘研究人员。 使用场景及目标:适用于需要从大量非结构化文本中抽取潜在主题的场景,如舆情分析、市场调研、文献分类等。主要目标是帮助用户掌握LDA模型的基本原理及其在中文环境下的具体实现方法。 其他说明:本文不仅提供了完整的代码示例,还强调了实践中需要注意的问题和技巧,使读者能够更好地理解和应用这一强大的文本分析工具。

    毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型

    毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型,个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolov5路面桥梁裂缝检测识别项目源代码+模型毕业设计基于Python+Yolo

    go2rtc流媒体平台,支持rtsp大华摄像头海康H264 H265 WEBRTC

    go2rtc流媒体平台,支持rtsp大华摄像头海康H264 H265 WEBRTC,有支持http接口

    基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明

    基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明,个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视化项目源代码+数据+文档说明基于Python实现Boss直聘岗位数据采集及分析可视

    STM32CubeIDE 1.18.1自动补全插件

    STM32CubeIDE自动补全代码功能插件,覆盖STM32CubeIDE\plugins对应文件!

    基于springboot+vue前后端分离,科研工作量管理系统(源码+Mysql数据库+视频+教程),高分项目,开箱即用(毕业设计)(课堂设计)

    基于springboot+vue前后端分离,科研工作量管理系统(源码+Mysql数据库+视频+教程),高分项目,开箱即用(毕业设计)(课堂设计) 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本科研工作量管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此科研工作量管理系统利用当下成熟完善的SSM框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的Mysql数据库进行程序开发。实现了用户在线选择试题并完成答题,在线查看考核分数。管理员管理字典管理、工作量管理、科研获奖管理、科研论文管理、秘书管理、科研项目管理、教师管理、管理员管理等功能。科研工作量管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。

    集装箱号码自动识别软件-DEMO演示程序

    如因版本过旧,测试过程中有任何问题可联系作者获取最新版本,可提供私有化部署API。 1、集装箱箱号OCR识别技术实现流程 (1)图像预处理 目标检测:使用启智畅想模型定位集装箱区域,缩小处理范围。 角度矫正:通过透视变换(如霍夫变换检测边缘)校正倾斜或扭曲的箱号。 图像增强:灰度化、二值化、去噪、对比度调整等,提升文本可读性。 (2)字符区域定位 字符检测:基于深度学习的文本检测模型定位箱号区域。 区域筛选:根据集装箱号长度(11字符)和排列规则筛选候选区域。 (3)字符识别 端到端方法:使用网络神经以及深度学习模型直接识别字符序列,避免传统分割步骤。 字符分割:投影法、连通域分析或U-Net分割粘连字符。 字符识别:训练CNN分类模型,支持数字以及大小写字母(0-9,A-Z,排除部分易混字符如I和1/O和0)。 (4)校验码验证 校验码比对:将识别的前10位转换为ISO6346标准数值,按权重计算并与OCR结果比对。 校验机制:若校验失败,触发重新识别或人工复核。 2、集装箱箱号OCR识别技术的多场景应用 复杂环境:应对光照不均、污渍、锈蚀、反光等干扰。 特殊字体:集装箱号的特殊字体(如OCR-B字体)需针对性训练。 3.数据集与训练 数据收集:自建数据集。 数据增强:模拟真实场景的噪声、模糊、旋转、仿射变换等。 算法迭代:基于预训练模型(如ImageNet)微调,提升训练效率,通过在线学习更新集装箱箱号OCR识别模型,适应新字体或环境变化。 4.评估指标 字符级准确率:99.9%以上 校验码通过率:99.9%以上 推理速度(FPS):毫秒级识别 通过结合深度学习的集装箱箱号OCR识别技术与规则校验,集装箱号OCR识别系统可达到高精度与高可靠性,广泛应用于物流追踪、海关通关和智能港口管理等场景

    基于Matlab的自动泊车系统中垂直车位路径规划仿真

    内容概要:本文详细介绍了使用Matlab进行自动泊车系统的垂直车位路径规划仿真。首先解释了Hybrid A*算法的基本原理及其在垂直车位泊车中的应用,重点讨论了路径规划的关键步骤,如外摆车头、转向角调整、碰撞检测以及路径生成。文中提供了具体的Matlab代码示例,展示了从车辆参数定义、路径点生成到最终路径验证的全过程。此外,还探讨了几何分析阶段的车辆运动轨迹建模,包括最小转弯半径的计算和转向圆心的确定。同时,为了确保路径的安全性和可行性,引入了边界圆检测法进行碰撞检测,并对路径进行了优化以满足实际驾驶的需求。 适合人群:对自动驾驶技术感兴趣的科研人员、工程师以及希望深入了解自动泊车系统的学生。 使用场景及目标:适用于研究和开发自动泊车系统的路径规划算法,帮助开发者理解和实现自动泊车过程中遇到的技术挑战,如路径规划、碰撞检测和路径优化。 其他说明:本文不仅提供了理论分析,还有详细的代码实现,便于读者快速上手并进行实验。同时,文中提到的一些技巧和注意事项对于提高仿真的准确性和实用性非常有帮助。

Global site tag (gtag.js) - Google Analytics