基于最长词匹配算法变形的分词系统( 文舫工作室贡献 ) - 技术代码资料库 - ITeye博客

`

ihuashao

浏览: 4881381 次
性别:
来自: 济南

最近访客更多访客>>

morelily

cyj1988jyc

u012363178

bcrun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang8： GoEasy 实时推送支持IE6-IE11及大多数主流浏览器的 ...
服务器推送技术
pdztop： inffas32.asm(594) inffas32.asm( ...
zlib 在 Visual Studio 2005 下编译失败的解决办法
myangle89：这个方法有效果，但还是绕了一大圈。另外：如果每次这样使用，会造 ...
利用 Spring 与 Log4J 巧妙地进行动态日志配置切换并立即生效
lsw521314：亲，请把用到的包贴出来好么？这版本问题搞得我头大······· ...
lucene MMAnalyzer 实现中文分词
guji528：多命令执行：cmd /k reg delete "H ...
REG Command in Windows XP - Windows XP REG命令的作用和用法

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )

算法工作 lucene 搜索引擎

阅读更多

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )

这个分词程序是文舫工作室贡献出来的。
强烈推荐看看文舫工作室的开发日志，他们的激情可以鼓励很多人......

自从小叮咚分词程序发布后，很多软件行业的朋友们都来信索取，因为定位的问题，所以小叮咚的分词程序和 ICTCLAS的算法完全不同的。

小叮咚的分词程序的定位是为搜索引擎服务的。可以参考：一种面向搜索引擎的中文切分词方法
ICTCLAS和基于最长词匹配算法变形的分词系统是面向语法，语义的。

不同的应用导致了不同的分词算法，但是正如车东所说的，我们现在应该跳过分词这个点，面向分词应用了。
我很赞同。

如果大家需要基于最长词匹配算法变形的分词系统的代码，可以到这个页面下载申请书，填写后我会给你
发送一份相关代码。

关于分词文德是专家，大家可以下载 Lucene使用者沙龙中的录音，听听他对分词的一些经验。

这些申请书会在以后整理出来共享的。

相关连接：
文舫工作室的网址
Lucene使用者沙龙

分享到：

xmlhttp初体验 | java，javascript，groovy和Rhino 的运行效 ...

2005-07-13 18:24
浏览 489
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于逆向最大匹配算法的中文分词的设计与开发: ### 基于逆向最大匹配算法的中文分词的设计与开发 #### 一、中文分词概述中文分词是自然语言处理(NLP)领域中的一个基础且关键的环节，涉及将连续的中文文本切分成有意义的词汇单元。与英文等其他语言不同，中文...

基于逆向匹配的中文分词算法: ### 基于逆向匹配的中文分词算法 #### 概述中文分词作为自然语言处理（NLP）的基础任务之一，在信息检索、文本挖掘、机器翻译等领域发挥着至关重要的作用。与英文等西方语言相比，中文没有明确的单词边界标识，...

基于正向、逆向的最大分词算法实现: 本文将深入探讨“基于正向、逆向的最大分词算法实现”的相关知识。首先，我们要理解什么是分词。分词，也称为词汇化或切词，是指将连续的汉字序列切分成具有独立含义的词语。在中文处理中，由于没有明显的空格分隔...

中文模糊匹配算法: 中文模糊匹配算法是信息检索系统中的一个重要组成部分，特别是在处理大量中文数据时，它能帮助用户在不完全准确的输入条件下找到所需的信息。这种技术主要针对的是用户可能输入的拼写错误、同音词或者简略语等不精确...

中文分词程序-正向最大匹配算法及逆向最大匹配算法: 在这个“中文分词程序”中，包含了两种常见的分词算法：正向最大匹配算法（Forward Maximum Matching, FMM）和逆向最大匹配算法（Backward Maximum Matching, BMM）。正向最大匹配算法是一种自左向右的分词策略。...

基于逆向匹配的中文分词: 基于逆向匹配的中文分词算法实现，产生词典和测试数据，分词后具有结果分析功能，计算精确度，召回率，F值

中文自动分词算法: 在本文中，我们讨论了分词的基本知识、分词的困难、基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法、最大匹配算法、最少切分算法和基于统计语言模型的分词算法等。通过对这些方法的分析，我们...

最新中文地址分词及匹配: 常用的中文分词算法有基于词典的分词方法（如最大匹配法、最小匹配法）、统计模型（如隐马尔科夫模型HMM、条件随机场CRF）以及近年来的深度学习方法（如双向LSTM-CRF）。在这个项目中，采用了“混合分词算法”，这种...

中文文本相似度匹配算法 simHash 海明距离 IK分词: 本主题将深入探讨中文文本相似度匹配算法中的simHash、海明距离以及IK分词技术。首先，simHash是一种高效的近似哈希算法，主要用于大数据量文本的相似性检测。它的核心思想是将长文本转化为短的哈希值，使得相似的...

中文地址分词及匹配项目: 标题中的“中文地址分词及匹配项目”是一个专注于处理中文地址的系统，它涉及到两个主要技术：中文地址的分词和地址匹配。分词是将连续的文本序列切分成具有独立意义的词语，而在中文环境下，由于没有明显的空格作为...

基于深度学习地址模糊匹配算法: 该算法首先利用结巴(jieba)中文分词库对语料库中的地址进行分词，然后利用词向量(Word2vec)模型进行地址词向量训练，最后利用增强序列推理模型(Enhanced Sequential Inference Model,ESIM)进行地址文本语义相似度...

matlab中文分词——最大正向匹配法.rar: 2. **最大匹配原则**：在实际分词过程中，算法会从句子开头开始，查找词典中最长的词，如果找到，则将其从句子中移除并继续寻找下一个最长词，直到句子处理完毕。如果遇到未在词典中出现的词，可能需要采用动态规划...

RMM.rar_rmm逆向最大_分词_最大匹配算法_逆向最大匹配算法实现分词: 逆向最大匹配（RMM，Reverse Maximum Matching）算法是一种在自然语言处理中广泛使用的中文分词方法。在中文文本处理中，由于汉字不带有明显的边界标识，因此需要借助特定的算法来确定词语的边界，而分词就是这个...

基于词典的最大匹配的Lucene中文分词程序: - 分词匹配：根据最大匹配算法从文本两端开始匹配词典中的词汇。 - 特殊情况处理：处理歧义、未登录词（未出现在词典中的新词）等问题。 - 结果输出：输出分词结果，形成词语序列。在实际应用中，分词性能和准确性...

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法: word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene...

几种基于词典的中文分词算法评价: 根据余战秋在《中文分词技术及其应用初探》中的研究，主要介绍了三种基本的中文分词算法：基于字典和词库匹配的分词方法、基于词频统计的分词方法以及基于知识理解的分词方法。下面将详细介绍这三种方法的特点。 ##...

基于java的中文分词系统: 在Java的中文分词系统中，常见的技术包括基于词典的匹配方法（如正向最大匹配法、逆向最大匹配法）、统计模型（如隐马尔可夫模型HMM、条件随机场CRF）等。这些算法会结合词频统计、上下文信息等，以达到更准确的分词...

Global site tag (gtag.js) - Google Analytics