<转>庖丁解牛分词之自定义词库[自定义词典] -

yingbin920

浏览: 392796 次
性别:
来自: 上海

最近访客更多访客>>

fan0128

hongbo.wu

qsjiangs

粪海狂蛆

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

<转>庖丁解牛分词之自定义词库[自定义词典]

博客分类：

搜索

原链接：　http://hi.baidu.com/stone_kings/item/fff2efd6db55df2b38f6f766

发现很久很久没更新了，尤其是这个模块，也就好久没进步了！学习如逆水行舟，不进则退！趁着还没到白首之际，应该多学习。
首先，还是先贴出来参考来源，毕竟非原创。
（1）、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
（2）、http://qipei.javaeye.com/blog/365207
现在继续：
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩，找到dic文件夹，复制到你想存放的文件夹下


3、配置环境变量，如果不配置，运行会报错，报错的中文信息也是需要进行配置环境变量


4、删除.compiled文件
5、新建一个文本文件，后缀名问.dic，采用utf-8保存到dic的文件目录中，这里保存在了E:\paodingTest\dic\locale中

6、下面我们写个分词测试程序
7、自定义词库的情况下分词结果，首先看到的是词库的编译信息

8、带自定义词库的分词结果


9、删除自定义词库和.compiled文件，重新分词

10、放在一起比较，效果还是有的


11、假设我们在分词的时候，需要把运、动分开，默认情况下是不分开的

12、在词库中增加两个词运和动


13、当然，如果想把这个分词器用得更好，还需要深入去了解和思考该分词方法，比如，“我是运动员”，虽然我们在自定义词库中填加了词“运动员”，但是依旧没有切分成“我”，“是”，“运动员”，反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”，“动“，”运动“，那也是需要好好思考用法，当然这也和中国汉语的特殊性有关，例如：“乒乓球拍卖完了”，在没有上下文的情况下本身就存在歧义。

分享到：

maven常见问题问答 | 庖丁（Paoding）分词的词典原理解析

2012-07-03 10:21
浏览 946
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

庖丁解牛分词之自定义词库、庖丁解牛配置: 在提供的文件列表中，“庖丁解牛分词之自定义词库[自定义词典].htm”很可能是介绍如何创建和使用自定义词库的教程文档。通过阅读这个文件，开发者可以学习如何创建自己的词典文件，以及如何在庖丁解牛分词工具中进行...

paoding(庖丁解牛): ### Paoding庖丁解牛：中文分词库与Nutch集成详解 #### 一、Paoding庖丁解牛概述 Paoding庖丁解牛是一款基于Java语言开发的中文分词库，它能够作为中文搜索引擎的一个关键组件进行部署，特别是在Lucene这样的搜索...

常用中文分词库: 在NLP领域，“庖丁解牛”常用来表示对中文分词技术的深入理解和应用，暗示这个分词库能够高效、精准地切割中文文本。标签“中文分词”进一步明确了主题，中文分词是针对中文文本特有的处理步骤，因为英文等其他...

Paoding中文分词: 描述中的“庖丁解牛中文分词，速度不错，词库也很全面，非常不错！”是对该工具的评价，意味着它不仅运行速度快，而且具备广泛的词库，能够准确地识别和处理各种词汇，适用于多种场景。 **标签解析** 1. “庖丁”...

基于Django花卉商城系统的设计与实现-2885fb37-.zip: 基于Django花卉商城系统的设计与实现_2885fb37--.zip

102页-智慧农业解决方案.pdf: 智慧农业，作为现代农业的新篇章，正引领着农业生产的革命性变革。本解决方案以物联网、云计算、大数据等先进技术为核心，为农业生产打造了一套全面、智能的管理系统。想象一下，从温室大棚到广袤田野，智能传感器遍布每个角落，它们能实时感知空气温湿度、土壤水分、光照强度等环境参数，仿佛为农作物装上了“眼睛”和“耳朵”。这些数据通过物联网技术传输到云端，经过大数据分析，为农民提供精准的种植建议，如何时灌溉、施肥、防虫，让农业生产变得更加科学、高效。更有趣的是，通过智慧农业平台，农民可以远程监控作物生长情况，甚至用手机就能控制温室大棚的遮阳板、通风设备等，实现“指尖上的农业”。此外，方案还包含了农产品可追溯系统，从田间到餐桌，每一步都可追溯，让消费者吃得放心。而智慧农业电商平台，则让农产品销售更加便捷，农民直接对接市场，收益倍增。总之，这套智慧农业解决方案不仅让农业生产变得更加智能、高效，还提升了农产品的质量和安全，为农民带来了实实在在的收益，开启了农业现代化的新篇章。对于想要投身智慧农业领域的你来说，这不仅仅是一套解决方案，更是一把开启现代农业大门的钥匙，引领你走向更加辉煌的未来。

【人工智能模型部署】DeepSeek本地部署与WebUI可视化：环境搭建、模型启动及界面开发指南文档的主要内容: 内容概要：本文档详细介绍了DeepSeek本地部署与WebUI可视化的一般步骤。本地部署方面，涵盖了环境准备（硬件要求如多核CPU、8GB以上内存或带适当显存的NVIDIA GPU，软件环境涵盖操作系统如Ubuntu 20.04及以上版本、Python环境及依赖库如PyTorch或TensorFlow）、获取DeepSeek模型代码和权重（通过官方仓库克隆代码，从指定渠道下载权重）、模型配置与启动（配置模型参数，运行启动脚本以初始化模型和服务）。WebUI可视化部分则推荐了Streamlit和Gradio两种框架，介绍了它们的安装、使用方法（通过编写脚本调用DeepSeek API构建交互界面），以及集成与部署（确保WebUI与模型服务之间的数据正确传递，在本地运行后可通过浏览器访问）。适合人群：对深度学习模型部署有一定了解的技术人员，尤其是那些希望将DeepSeek模型应用于本地环境并提供用户友好界面的研发人员。使用场景及目标：①为希望在本地环境中运行DeepSeek模型的研究者或开发者提供详细的部署指南；②帮助用户快速搭建一个带有图形化操作界面的DeepSeek应用，降低使用门槛，提高用户体验。阅读建议：在阅读时，应根据自己的操作系统环境和硬件条件调整相应的配置要求，同时注意按照官方文档的具体指引操作，确保各组件版本兼容，以便顺利完成部署和可视化工作。

MISRA C 2014和MISRA CPP 2008版本: MISRA C 2014和MISRA CPP 2008版本

Revit2024二次开发之安装Addin: Revit2024二次开发之安装Addin

ai应用文生视频大模型及AI人应用方案设计.docx### 文生视频大模型及AI人应用方案总结: 内容概要：本文详细介绍了文生视频大模型及AI人应用方案的设计与实现。文章首先阐述了文生视频大模型的技术基础，包括深度生成模型、自然语言处理（NLP）和计算机视觉（CV）的深度融合，以及相关技术的发展趋势。接着，文章深入分析了需求，包括用户需求、市场现状和技术需求，明确了高效性、个性化和成本控制等关键点。系统架构设计部分涵盖了数据层、模型层、服务层和应用层的分层架构，确保系统的可扩展性和高效性。在关键技术实现方面，文章详细描述了文本解析与理解、视频生成技术、AI人交互技术和实时处理与反馈机制。此外，还探讨了数据管理与安全、系统测试与验证、部署与维护等重要环节。最后，文章展示了文生视频大模型在教育、娱乐和商业领域的应用场景，并对其未来的技术改进方向和市场前景进行了展望。适用人群：具备一定技术背景的研发人员、产品经理、数据科学家以及对AI视频生成技术感兴趣的从业者。使用场景及目标：①帮助研发人员理解文生视频大模型的技术实现和应用场景；②指导产品经理在实际项目中应用文生视频大模型；③为数据科学家提供技术优化和模型改进的思路；④让从业者了解AI视频生成技术的市场潜力和发展趋势。阅读建议：本文内容详尽，涉及多个技术细节和应用场景，建议读者结合自身的专业背景和技术需求，重点阅读与自己工作相关的章节，并结合实际项目进行实践和验证。

黑板风格毕业答辩模板25个: 黑板风格毕业答辩模板是一系列富有创意和趣味性的答辩文档模板，专为追求独特表达的大学生设计。这25个模板模拟了传统黑板的效果，结合了手绘风格与现代设计理念，使得内容呈现既生动又具学术感。每个模板都强调清晰的结构和易于理解的布局，适用于各类学科和研究领域，帮助学生有效地展示研究成果和核心观点。黑板风格不仅带来亲切感，还能唤起人们对课堂学习的回忆，为答辩增添了轻松而专业的氛围。这些模板配备了丰富的图标、示意图和配色，既美观又实用，能够帮助学生在答辩中更好地吸引评审的注意力，增强信息的传达效果。无论是科技、艺术还是人文社科，黑板风格毕业答辩模板都能够为你的演示增添一份独特的魅力，提升你的表现，助力你在毕业答辩中取得成功。

delphi-ACCESS宠物医院: delphi_ACCESS宠物医院

社会心理学：MATLAB复杂系统仿真在群体行为预测中的跨学科研究.pdf: 文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位，文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常，无任何异常情况，敬请您放心查阅与使用。文档仅供学习参考，请勿用作商业用途。你是否渴望高效解决复杂的数学计算、数据分析难题？MATLAB 就是你的得力助手！作为一款强大的技术计算软件，MATLAB 集数值分析、矩阵运算、信号处理等多功能于一身，广泛应用于工程、科学研究等众多领域。其简洁直观的编程环境，让代码编写如同行云流水。丰富的函数库和工具箱，为你节省大量时间和精力。无论是新手入门，还是资深专家，都能借助 MATLAB 挖掘数据背后的价值，创新科技成果。别再犹豫，拥抱 MATLAB，开启你的科技探索之旅！

DDS Accepted Assessment Instruments DDS 认可的评估工具.doc: DDS Accepted Assessment Instruments DDS 认可的评估工具.doc

Windows下MySQL安装与配置教程.markdown: mysql安装配置教程本教程将指导您在Windows操作系统上安装和配置MySQL数据库，适用于MySQL 8.0及以上版本。本教程以清晰的步骤说明，确保初学者也能顺利完成安装和基本配置。

体育科学突破：MATLAB生物力学仿真优化短跑运动员起跑姿态.pdf: 文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位，文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常，无任何异常情况，敬请您放心查阅与使用。文档仅供学习参考，请勿用作商业用途。你是否渴望高效解决复杂的数学计算、数据分析难题？MATLAB 就是你的得力助手！作为一款强大的技术计算软件，MATLAB 集数值分析、矩阵运算、信号处理等多功能于一身，广泛应用于工程、科学研究等众多领域。其简洁直观的编程环境，让代码编写如同行云流水。丰富的函数库和工具箱，为你节省大量时间和精力。无论是新手入门，还是资深专家，都能借助 MATLAB 挖掘数据背后的价值，创新科技成果。别再犹豫，拥抱 MATLAB，开启你的科技探索之旅！

### 智慧教育应用发展研究报告（2025年）总结: 内容概要：《智慧教育应用发展研究报告（2025年）》由中国信息通信研究院发布，全面梳理了全球及我国智慧教育的发展现状和趋势。报告指出，智慧教育通过多种数字技术促进教育模式、管理模式和资源生成等方面的变革。国外经济体如欧盟、美国、韩国和日本纷纷通过顶层设计推动智慧教育发展，而我国则通过政策支持、基础设施建设、技术融合等多方面努力，推动智慧教育进入“快车道”。智慧教育应用场景分为智慧校园和校外教育两类，涵盖教学、考试、评价、管理和服务等多个方面。报告还详细分析了支撑智慧教育发展的技术、产业、基础设施和安全能力的发展趋势，并指出了当前面临的挑战及建议。适用人群：教育领域的政策制定者、教育管理者、教育技术从业者、研究人员和关心教育发展的社会各界人士。使用场景及目标：①了解全球及我国智慧教育的最新进展和趋势；②为政策制定者提供决策参考；③为教育管理者和技术从业者提供实施智慧教育的具体指导；④促进教育技术的研发和应用。其他说明：报告强调了智慧教育在促进教育公平、提升教育质量、推动教育模式创新等方面的重要性，并呼吁加强跨领域协同攻关、缩小教育数字化差距、强化网络信息安全和提升教师数字素养，以应对当前面临的挑战。

AC6003V200R008C10SPC300.cc华为AC6003-8固件系统下载: 华为AC6003-8固件系统网上确实不好找啊

教育领域基于Word模板的实习证明文档设计：学生实习信息规范化记录与管理: 内容概要：这是一份实习证明模板，用于证明学生在指定单位完成实习经历。主要内容包括学生的学校、年级、专业以及姓名，明确标注了实习开始日期、实习单位名称、具体岗位、薪资待遇、单位地址及联系方式等信息，还列出了实习期间的指导教师及其联系方式。文件最后设有单位公章、单位负责人签字及联系电话的位置，并标明开具证明的日期。; 适合人群：即将或正在实习的大学生、大专生以及其他需要开具实习证明的学生群体。; 使用场景及目标：①为学生提供规范的实习证明文件，方便学校、企业或其他相关机构核实实习情况；②作为实习经历的正式书面记录，可用于求职、升学等场合。; 其他说明：此模板可根据不同学校和单位的具体要求进行适当调整，确保信息完整性和准确性。在填写时应注意核实各项信息的真实性，确保与实际情况相符。

IMG_20250416_154832.jpg: IMG_20250416_154832.jpg

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

<转>庖丁解牛分词之自定义词库[自定义词典]

评论

发表评论

相关推荐

百度GOOGLE的用户鼠标行为分析<转>

lucene 一些性能调优建议

庖丁（Paoding）分词的词典原理解析

solr 百度相关搜索类似功能的实现

solr 索引库同步数据库

solr 对拼音搜索和拼音首字母搜索的支持

<转>Solr Suggest实现搜索智能提示

IK的整个分词处理过程

Solr的检索运算符

Solr 学习（5） —- Solr查询语法和参数

Apache Solr schema.xml及solrconfig.xml文件中文注解

<转>LUCENE3.0 自学吧 4 TermDocs

<转>Lucene里经常被聊到的几个话题

<转>浅谈文档索引普遍原理<笔记>

Lucene中Field类很重要

Lucene架构简单分析

<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解

<转>用于Lucene的各中文分词比较

Lucene3参考资料

lucene索引word/pdf/html/txt文件及检索(搜索引擎)

最近访客更多访客>>