基于最长词匹配算法变形的分词系统( 文舫工作室贡献 ) - 技术代码资料库 - ITeye博客

`

ihuashao

浏览: 4722034 次
性别:
来自: 济南

最近访客更多访客>>

morelily

cyj1988jyc

u012363178

bcrun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang8： GoEasy 实时推送支持IE6-IE11及大多数主流浏览器的 ...
服务器推送技术
pdztop： inffas32.asm(594) inffas32.asm( ...
zlib 在 Visual Studio 2005 下编译失败的解决办法
myangle89：这个方法有效果，但还是绕了一大圈。另外：如果每次这样使用，会造 ...
利用 Spring 与 Log4J 巧妙地进行动态日志配置切换并立即生效
lsw521314：亲，请把用到的包贴出来好么？这版本问题搞得我头大······· ...
lucene MMAnalyzer 实现中文分词
guji528：多命令执行：cmd /k reg delete "H ...
REG Command in Windows XP - Windows XP REG命令的作用和用法

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )

算法工作 lucene 搜索引擎

阅读更多

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )

这个分词程序是文舫工作室贡献出来的。
强烈推荐看看文舫工作室的开发日志，他们的激情可以鼓励很多人......

自从小叮咚分词程序发布后，很多软件行业的朋友们都来信索取，因为定位的问题，所以小叮咚的分词程序和 ICTCLAS的算法完全不同的。

小叮咚的分词程序的定位是为搜索引擎服务的。可以参考：一种面向搜索引擎的中文切分词方法
ICTCLAS和基于最长词匹配算法变形的分词系统是面向语法，语义的。

不同的应用导致了不同的分词算法，但是正如车东所说的，我们现在应该跳过分词这个点，面向分词应用了。
我很赞同。

如果大家需要基于最长词匹配算法变形的分词系统的代码，可以到这个页面下载申请书，填写后我会给你
发送一份相关代码。

关于分词文德是专家，大家可以下载 Lucene使用者沙龙中的录音，听听他对分词的一些经验。

这些申请书会在以后整理出来共享的。

相关连接：
文舫工作室的网址
Lucene使用者沙龙

分享到：

xmlhttp初体验 | java，javascript，groovy和Rhino 的运行效 ...

2005-07-13 18:24
浏览 468
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

正向最大匹配算法实现中文分词: 目前，分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching，以下简称MM算法) 。MM算法有三种：一种正向最大匹配，一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配...

最新逆向最大匹配分词算法盘古分词分词算法中文分词源码: 通过研究这些源码，开发者可以深入了解分词算法的内部工作原理，学习如何构建高效的分词系统，以及如何根据实际需求调整和优化算法。此外，这些源码也可以作为教学和研究的宝贵资源，帮助人们掌握自然语言处理的关键...

基于逆向最大匹配算法的中文分词的设计与开发: ### 基于逆向最大匹配算法的中文分词的设计与开发 #### 一、中文分词概述中文分词是自然语言处理(NLP)领域中的一个基础且关键的环节，涉及将连续的中文文本切分成有意义的词汇单元。与英文等其他语言不同，中文...

一种基于改进最大匹配快速中文分词算法: ### 基于改进最大匹配快速中文分词算法的知识点 #### 一、中文分词技术概述中文分词作为自然语言处理中的基础步骤，在文本分析、机器翻译、信息检索等多个领域发挥着至关重要的作用。它主要负责将连续的中文字符...

正向最大匹配算法分词算法: 正向最大匹配（Forward ...在实际应用中，正向最大匹配算法常常与其他分词技术结合，如基于统计的分词方法，以提高分词准确性和应对各种复杂情况。同时，对于特定领域或特定任务，还需要根据语料特点进行优化和定制。

基于逆向匹配的中文分词算法: ### 基于逆向匹配的中文分词算法 #### 概述中文分词作为自然语言处理（NLP）的基础任务之一，在信息检索、文本挖掘、机器翻译等领域发挥着至关重要的作用。与英文等西方语言相比，中文没有明确的单词边界标识，...

正向最大匹配中文分词算法: 但不管实现如何，目前而言的分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching，以下简称MM算法) 。MM算法有三种：一种正向最大匹配，一种逆向最大匹配和双向匹配。本...

中文模糊匹配算法: 中文模糊匹配算法是信息检索系统中的一个重要组成部分，特别是在处理大量中文数据时，它能帮助用户在不完全准确的输入条件下找到所需的信息。这种技术主要针对的是用户可能输入的拼写错误、同音词或者简略语等不精确...

反向最大匹配算法实现中文分词: 目前，分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching，以下简称MM算法) 。MM算法有三种：一种正向最大匹配，一种逆向最大匹配和双向匹配。本程序实现了反向最大匹配...

分词匹配算法：正向最大匹配和反向最大匹配: 分词匹配算法：正向最大匹配和反向最大匹配分词匹配算法是自然语言处理领域中的一种重要技术，它的主要目的是将汉字串切分为单个词语，以便于进一步的语言处理。分词匹配算法有多种类型，其中机械分词方法是最基本...

中文地址分词及匹配项目: 标题中的“中文地址分词及匹配项目”是一个专注于处理中文地址的系统，它涉及到两个主要技术：中文地址的分词和地址匹配。分词是将连续的文本序列切分成具有独立意义的词语，而在中文环境下，由于没有明显的空格作为...

matlab中文分词——最大正向匹配法.rar: 2. **最大匹配原则**：在实际分词过程中，算法会从句子开头开始，查找词典中最长的词，如果找到，则将其从句子中移除并继续寻找下一个最长词，直到句子处理完毕。如果遇到未在词典中出现的词，可能需要采用动态规划...

基于深度学习地址模糊匹配算法: 该算法首先利用结巴(jieba)中文分词库对语料库中的地址进行分词，然后利用词向量(Word2vec)模型进行地址词向量训练，最后利用增强序列推理模型(Enhanced Sequential Inference Model,ESIM)进行地址文本语义相似度...

中文文本相似度匹配算法: 中文文本相似度匹配在信息技术领域是一项重要的任务，特别是在搜索引擎、推荐系统、文本分类...在实际项目中，IKAnalyzer_all_jar这样的库文件可以简化你的工作，提供现成的分词功能，让你更加专注于算法的设计和优化。

三种中文分词算法优劣比较.docx: 在实际应用中，许多分词系统会结合这三种方法，利用基于字符串匹配的算法进行初步分词，然后用基于统计的方法识别新词和消除歧义，以兼顾速度和准确性。这种方法称为混合分词，能够更好地适应不断变化的语言环境。

中文分词-C语言编写正向和反向最大匹配算法: 本程序是北京师范大学学生根据一个中文字库对所给的文章进行分词。...采用的算法是正向最大匹配算法和反向最大匹配算法。主要实现屏幕分词和文件分词两项功能。因为对毕业设计有所帮助，所以我要分高一点哈~勿怪偶~

Global site tag (gtag.js) - Google Analytics