Lucene关于几种中文分词的总结

nything

浏览: 146985 次
性别:
来自: 北京

最近访客更多访客>>

yonghong

sdx0312

VincentBoy

lyzh1688

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Lucene

lucene Apache .net Blog

前提：文章基于lucene2.2。
目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能，但是不一定能够满足大多数应用的需要。
另外网友谈的比较多的中文分词器还有：
CJKAnalyzer
ChineseAnalyzer
IK_CAnalyzer（MIK_CAnalyzer）
还有一些热心网友自己写的比较不错的分词器在此就不说了，有兴趣的可以自己研究研究。
以上三个中文分词器并不是lucene2.2.jar里提供的。
CJKAnalyzer和ChineseAnalyzer分别是lucene-2.2.0目录下contrib目录下analyzers的lucene-analyzers-2.2.0.jar提供的。分别位于cn和cjk目录。
IK_CAnalyzer（MIK_CAnalyzer）是基于分词词典，目前最新的1.4版本是基于lucene2.0开发的。以上分词器各有优劣，比较如下：

import java.io.Reader;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.mira.lucene.analysis.IK_CAnalyzer;
import org.mira.lucene.analysis.MIK_CAnalyzer;

public class All_Test {
     private static String string = "中华人民共和国在1949年建立，从此开始了新中国的伟大篇章。";
     public static void Standard_Analyzer(String str) throws Exception{
            Analyzer analyzer = new StandardAnalyzer();         
            Reader r = new StringReader(str);         
            StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
            System.out.println("=====StandardAnalyzer====");
            System.out.println("分析方法：默认没有词只有字（一元分词）");
            Token t;         
           while ((t = sf.next()) != null) {         
                  System.out.println(t.termText());         
            }       
      }
     public static void CJK_Analyzer(String str) throws Exception{
            Analyzer analyzer = new CJKAnalyzer();         
            Reader r = new StringReader(str);         
            StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
            System.out.println("=====CJKAnalyzer====");
            System.out.println("分析方法:交叉双字分割（二元分词）");
            Token t;         
           while ((t = sf.next()) != null) {         
                  System.out.println(t.termText());         
            }       
      }
     public static void Chiniese_Analyzer(String str) throws Exception{
            Analyzer analyzer = new ChineseAnalyzer();         
            Reader r = new StringReader(str);         
            TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
            System.out.println("=====chinese analyzer====");
            System.out.println("分析方法:基本等同StandardAnalyzer（一元分词）");
            Token t;         
           while ((t = tf.next()) != null) {         
                  System.out.println(t.termText());         
            }       
      }
     public static void ik_CAnalyzer(String str) throws Exception{
//          Analyzer analyzer = new MIK_CAnalyzer();
            Analyzer analyzer = new IK_CAnalyzer();
            Reader r = new StringReader(str); 
            TokenStream ts = (TokenStream)analyzer.tokenStream("", r);
            System.out.println("=====IK_CAnalyzer====");
            System.out.println("分析方法:字典分词,正反双向搜索");
            Token t;    
           while ((t = ts.next()) != null) {    
                 System.out.println(t.termText());    
            }    
      }
     public static void main(String[] args) throws Exception{
            String str = string;
            System.out.println("我们测试的字符串是："+str);
           
            Standard_Analyzer(str);
            CJK_Analyzer(str);
            Chiniese_Analyzer(str);
            ik_CAnalyzer(str);
      }

}

分词结果如下：
我们测试的字符串是：中华人民共和国在1949年建立，从此开始了新中国的伟大篇章。
=====StandardAnalyzer====
分析方法：默认没有词只有字（一元分词）
中
华
人
民
共
和
国
在
1949
年
建
立
从
此
开
始
了
新
中
国
的
伟
大
篇
章
=====CJKAnalyzer====
分析方法:交叉双字分割（二元分词）
中华
华人
人民
民共
共和
和国
国在
1949
年建
建立
从此
此开
开始
始了
了新
新中
中国
国的
的伟
伟大
大篇
篇章
=====chinese analyzer====
分析方法:基本等同StandardAnalyzer（一元分词）
中
华
人
民
共
和
国
在
年
建
立
从
此
开
始
了
新
中
国
的
伟
大
篇
章
=====IK_CAnalyzer====
分析方法:字典分词,正反双向搜索
中华人民共和国
中华人民
中华
华人
人民共和国
人民
人
共和国
共和
1949年
建立
从此
开始
新中国
中国
伟大
大篇
篇章
如果 ik_CAnalyzer(String str) 里采用
Analyzer analyzer = new MIK_CAnalyzer();
那么该方法的分词结果是：

中华人民共和国
1949年
建立
从此
开始
新中国
伟大
大篇
篇章

可以看到各种分词结果各不相同，根据应用的需要可以选择合适的分词器。
关于IKAnalyzer的介绍可以参考：
http://blog.csdn.net/dbigbear/archive/2007/01/24/1492380.aspx

分享到：

lucene的多种搜索 | lucene中的组合查询

2009-06-25 17:22
浏览 1207
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java初学小作业，文件操作: Java初学小作业，文件操作

一键创建WiFi无线热点工具: 本工具用于在支持无线网络的电脑上输入SSID和密码后一键创建WIFI热点

4.3 信息检索与问题解决 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv openmv+STM32串口通信 op.md: 4.3 信息检索与问题解决 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv openmv+STM32串口通信 op

机器人轨迹定位中EKF算法与里程计算法的精度对比及应用: 内容概要：本文详细探讨了EKF（扩展卡尔曼滤波）算法与传统里程计算法在机器人轨迹定位和跟踪中的性能差异。文中通过具体代码实例展示了两种方法的工作原理，并通过实验数据对比了两者的定位精度。里程计算法由于误差累积问题，定位精度较低，平均误差达到1.0283米；而EKF算法通过融合多种传感器数据并不断修正，显著提高了定位精度，平均误差仅为0.0716米。此外，文章还讨论了EKF算法的局限性和应用场景。适合人群：从事机器人研究、开发的技术人员，尤其是关注机器人定位和导航系统的工程师。使用场景及目标：适用于需要高精度机器人定位和跟踪的应用场景，如自动驾驶、仓储物流自动化等。目标是帮助技术人员选择合适的定位算法，优化机器人系统的性能。其他说明：尽管EKF算法在大多数情况下表现出色，但在某些极端条件下（如急转弯）仍可能存在误差，此时可以考虑使用更高级的滤波算法，如UKF（无迹卡尔曼滤波）。

基于微信小程序的一款模拟面试软件源码（使用微信Web开发者工具来实现用在线答题，支持在线面试，观看面试视频，投简历，刷新招聘信息、发布招聘信息等功能）.zip: 1、该资源内项目代码经过严格调试，下载即用确保可以运行！ 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大作业和毕设项目的学生、或者相关技术学习者作为学习资料参考使用。 3、该资源包括全部源码，需要具备一定基础才能看懂并调试代码。大学生创新创业项目-基于微信小程序的一款模拟面试软件源码（使用微信Web开发者工具来实现用在线答题，支持在线面试（视频面试），可以观看面试视频，可以投简历，随时刷新招聘的信息、发布招聘信息、收藏文章等功能）.zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码（使用微信Web开发者工具来实现用在线答题，支持在线面试（视频面试），可以观看面试视频，可以投简历，随时刷新招聘的信息、发布招聘信息、收藏文章等功能）.zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码（使用微信Web开发者工具来实现用在线答题，支持在线面试（视频面试），可以观看面试视频，可以投简历，随时刷新招聘的信息、发布招聘信息、收藏文章等功能）.zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码（使用微信Web开发者工具来实现用在线答题，支持在线面试（视频面试），可以观看面试视频，可以投简历，随时刷新招聘的信息、发布招聘信息、收藏文章等功能）.zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码（使用微信Web开发者工具来实现用在线答题，支持在线面试（视频面试），可以观看面试视频，可以投简历，随时刷新招聘的信息、发布招聘信息、收藏文章等功能）.zip

(源码)基于Go语言的数据库智能迁移工具.zip: # 基于Go语言的数据库智能迁移工具 ## 项目简介本项目是一个基于Go语言的数据库智能迁移工具，旨在帮助开发者方便、高效地进行数据库版本管理和迁移。通过简单的配置和SQL脚本，用户可以轻松地进行数据库结构的更新和数据的迁移。 ## 项目的主要特性和功能 1. 支持多种数据库涵盖MySQL、PostgreSQL，可按需选择。 2. 配置文件解析解析YAML格式配置文件，获取数据库连接、迁移目录、日志路径等参数。 3. 迁移文件过滤忽略以"ignore"开头的SQL文件，避免误执行。 4. 版本管理按文件名判断版本，依版本号顺序执行迁移脚本，保证迁移连续性。 5. 自动执行SQL脚本自动执行迁移目录下SQL文件，完成数据库结构更新和数据迁移。 6. 通知功能可通过企业微信等方式发送通知，告知迁移结果或提醒异常。 7. 日志记录详细记录迁移过程日志，便于追踪排查问题。 ## 安装使用步骤 1. 已下载项目的源码文件。

数据迁移工具.exe: 本工具用于将一台电脑上的个人数据快速备份到移动介质上，然后再将备份的数据从移动介质上还原到另一台电脑中，实现用户数据的快速迁移。

【操作系统安装】Ubuntu 20.04详细安装与配置教程：从下载到系统优化全流程指导: 内容概要：本文档详细介绍了 Ubuntu 20.04 的安装步骤，包括从下载镜像到安装后的配置。首先，用户需要访问 Ubuntu 官网下载 ISO 文件，并通过工具如 Rufus 或命令行工具 `dd` 制作启动 U 盘。接着，设置 BIOS 使 U 盘成为第一启动项，进入 Ubuntu 安装界面。在安装过程中，用户可以选择安装语言、连接网络、选择安装类型（普通或最小安装）、进行磁盘分区（可选），以及设置用户信息

由Landsat 08卫星拍摄的7176张地形识别图像数据集: 数据说明：由Landsat 08卫星拍摄的山区、森林覆盖和沙漠图像组成的数据集，为遥感分析的各种应用提供了宝贵的资源。每幅图像的分辨率为256x256像素，比例尺范围为2公里至50公里每厘米，该数据集提供了高细节水平和覆盖范围，可用于分类和分割任务。对于这个数据集，一个潜在的开发想法是实施机器学习模型，用于自动分类图像中的土地覆盖类型。通过在这个数据集上训练深度学习网络，可以创建一个能够准确识别和分类不同土地覆盖类别的模型，例如山脉、森林和沙漠。这将对环境监测、土地利用规划和保护工作产生重大影响。该数据集的另一个可能应用是在变化检测分析领域。通过比较在不同时间点拍摄的图像，可以识别和分析土地覆盖模式的变化，如森林砍伐、城市化或自然灾害。这些信息可用干评估人类活动对环境的影响，监测植被健康状况的变化或预测土地覆盖动态的未来趋势。此外，该数据集可用于开发图像分割算法，这涉及将图像划分为多个区域或感兴趣的对象。通过对这一数据集应用先进的图像处理技术，将有可能在图像中准确划定不同土地覆被类型的界限，从而能够对数据进行更详细的分析和解释。

增材制造中选区激光熔化与电子束选区熔化的ANSYS Fluent高斯热源模拟及应用: 内容概要：本文详细介绍了选区激光熔化（SLM）和电子束选区熔化（EBM）这两种增材制造技术的热源模拟方法。文中首先解释了这两种技术的基本原理及其面临的挑战，即如何精确控制热源分布和热影响区。随后，文章重点讨论了高斯热源模型的应用，包括其数学表达式以及在ANSYS Fluent中的具体实现方式。此外，还探讨了模拟过程中需要注意的关键点，如网格划分、边界条件和材料属性的设定。最后，通过一个具体的SLM模拟案例展示了整个模拟流程，并给出了实用的操作建议和技术细节。适合人群：从事增材制造领域的研究人员、工程师以及相关专业的学生。使用场景及目标：适用于希望通过数值模拟优化SLM和EBM工艺参数的研究人员和工程师，旨在提高成形件质量并降低成本。同时，也为初学者提供了一套完整的模拟指南。其他说明：文章不仅提供了理论知识，还包括了大量的实践经验和代码示例，有助于读者更好地理解和掌握热源模拟的技术要点。

永磁同步电机(PMSM)负载转矩估计与预测的MATLAB/Simulink仿真及卡尔曼滤波、Luenberger观测器的应用: 内容概要：本文详细介绍了永磁同步电机（PMSM）负载转矩估计的研究背景及其重要性，重点讨论了几种经典负载估计方法，包括卡尔曼滤波、离散卡尔曼滤波和Luenberger龙博格观测器。文中不仅提供了理论解释，还展示了具体的MATLAB/Simulink仿真模型，涵盖负载转矩测量、预测及转矩预测等功能。此外，文章深入探讨了负载自适应、转矩估计、电机转速闭环控制等关键技术的融合，强调了这些技术在实现PMSM高性能控制中的协同作用。通过实际案例和实验数据，验证了不同方法的有效性和优劣。适合人群：从事电机控制、自动化工程及相关领域的研究人员和技术人员，尤其是对永磁同步电机负载转矩估计感兴趣的读者。使用场景及目标：适用于希望深入了解PMSM负载转矩估计方法及其仿真的科研工作者和工程师。目标是掌握卡尔曼滤波、Luenberger观测器等技术的具体实现，提升电机控制系统的性能和稳定性。其他说明：文章提供了详细的仿真模型和代码片段，便于读者理解和复现实验结果。同时，针对实际应用中的常见问题给出了优化建议，帮助读者避免常见的错误和陷阱。

(源码)基于TensorFlow.js和Angular的表情分类应用.zip: # 基于TensorFlow.js和Angular的表情分类应用 ## 项目简介本项目是一个使用TensorFlow.js和Angular构建的表情分类应用。它通过机器学习和图像识别技术，帮助用户理解和预测他人的情绪表达。这是一个有趣且实用的工具，特别是在人际交往过程中，可以帮助你更好地理解他人的情绪和意图。 ## 项目的主要特性和功能 1. 表情识别: 通过摄像头实时捕捉图像，应用机器学习模型进行表情识别。 2. 简单的用户界面: 用户界面设计简洁明了，易于操作。 3. 训练模型: 用户可以通过点击不同的类别来录入图像，训练模型以识别不同的表情。 4. 实时反馈: 训练完毕后，应用会实时分析摄像头的图像，并给出最可能的表情类别。 ## 安装使用步骤

QxEntityEditor-1.2.8-macosx: QxEntityEditor 1.2.8 64位 MacOS程序安装包，QxOrm图形化编辑工具。官网无法访问，加速下载。

前后端分离的图书管理系统新版源码+说明+数据库.zip: 《前后端分离的图书管理系统源码资源简介》本资源包含前后端分离的图书管理系统新版源码、详细说明以及数据库文件，是一份极具学习价值的优质资源。在前端方面，采用现代化的前端技术框架构建用户界面，具备简洁美观、交互友好的特点，能为用户提供流畅的操作体验，如便捷的图书查询、借阅操作等。后端则运用成熟的技术栈，实现系统的核心业务逻辑，包括对图书信息、用户信息的管理，以及借阅流程的处理等，确保系统的高效稳定运行。详细说明文档对系统的各个功能模块、代码结构、关键技术点进行了详细解读，有助于学习者快速理解系统的设计思路和实现原理。数据库文件则为系统提供了数据存储支持，其设计合理，能满足图书管理系统的数据需求。本资源为学习者提供了一个实际的项目案例，通过学习和研究该资源，可深入了解前后端分离的开发模式、相关技术的应用，提升编程能力和项目实践水平，但请注意，本资源仅用于学习交流，严禁用于商业用途。

3.4.6-识别形状+颜色+增加最小变化阈值+增加最大变化阈值 STM32串口通信: 3.4.6-识别形状+颜色+增加最小变化阈值+增加最大变化阈值 STM32串口通信 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv数

MATLAB 神经网络30个案例分析程序和数据.zip: matlab

汇川H5U转盘机程序框架详解：适用于自动化初学者的高效编程模板: 内容概要：本文详细介绍了一款基于汇川H5U的转盘机程序框架，该框架集成了多个实用功能，如上下料、CCD模拟、伺服运动控制等。框架采用模块化设计，分为HMI交互层、工位调度引擎、运动控制集群和仿真沙盒四大模块。每个工位作为一个独立的状态机，便于扩展和维护。文中提供了具体的代码示例，帮助读者理解各功能的具体实现方法。此外，框架支持仿真模式，可以在没有真实硬件的情况下进行测试。适合人群：主要针对自动化领域的初学者和希望优化编程习惯的开发者。对于新手而言，这是一个非常好的学习模板，能够帮助他们快速掌握汇川PLC编程的基本技巧和最佳实践。使用场景及目标：①学习汇川PLC编程的基础知识和最佳实践；②通过具体案例理解状态机的概念及其在工业自动化中的应用；③利用仿真功能进行无硬件测试，提高开发效率；④掌握工位管理和伺服控制的技术细节，为复杂项目打好基础。其他说明：该框架不仅适用于小型项目，还可以扩展到更大规模的应用，如多工位生产线。通过深入研究该框架，开发者可以提升编程技能，避免常见的编程陷阱。

飞轮储能系统建模与MATLAB仿真：永磁同步电机驱动详解及其应用场景: 内容概要：本文详细介绍了飞轮储能系统的建模方法及其在MATLAB中的仿真实现，主要针对永磁同步电机驱动的飞轮系统。文章首先解释了飞轮储能的基本概念，随后深入探讨了两种不同的运行模式：机侧网侧分家运作的结构（模型一）和机网侧协同运行（模型二）。模型一侧重于双闭环控制，强调了PI控制器的参数设置和坐标变换的正确实现；模型二则关注协同控制，特别是在能量双向流动控制和锁相环的应用方面。文中提供了多个具体的MATLAB代码片段，帮助读者理解和实现各个控制环节的关键技术。此外，文章还分享了许多实用的经验和注意事项，如求解器的选择、参数整定以及常见的调试陷阱。适合人群：电气工程专业学生、从事电力系统研究的技术人员、对飞轮储能系统感兴趣的科研工作者。使用场景及目标：适用于飞轮储能系统的教学、科研和工程项目预研。通过学习本文，读者可以掌握飞轮储能系统的建模方法，理解永磁同步电机驱动的具体实现方式，并能够在MATLAB/Simulink环境中进行有效的仿真。其他说明：文章不仅提供了详细的理论讲解和技术指导，还附带了大量的代码实例和实践经验，有助于读者更好地理解和应用相关知识。

电子洁净厂房温湿度精准控制：基于200SMART PLC的串级PID与露点焓值计算: 内容概要：本文详细介绍了针对电子洁净厂房温湿度控制难题而开发的一套基于西门子200SMART PLC的串级PID控制系统。该系统采用主副环结构，主环通过焓差控制，副环进行温湿度PID调节，实现了温度±1℃、湿度±5%的精确控制。文中展示了具体的控制架构、核心算法（如双向PID调节、露点计算）、以及调试过程中遇到的问题及其解决方案。此外，还提供了实测数据验证系统的有效性。适合人群：从事工业自动化控制领域的工程师和技术人员，尤其是有电子厂房环境控制需求的专业人士。使用场景及目标：适用于需要高精度温湿度控制的电子洁净厂房，旨在提高生产环境稳定性和产品质量。具体目标包括但不限于：确保温度波动范围在±1℃以内，湿度控制精度达到±5%，并减少能源消耗。其他说明：文中提到的技术细节对于理解和优化现有控制系统非常有价值，同时也强调了硬件选型（如选用200SMART PLC）和软件编程技巧的重要性。

(源码)基于CC++的传感器管理项目.zip: # 基于CC++的传感器管理项目 ## 项目简介本项目是一个基于CC++的传感器管理项目，主要目标是管理并处理与传感器相关的操作。项目涵盖了多种传感器类型，包括加速度计、磁力计、陀螺仪、光传感器、接近传感器等，支持虚拟传感器和依赖传感器，并提供获取传感器列表、激活传感器、设置传感器延迟、轮询传感器事件、校准传感器等功能。 ## 项目的主要特性和功能 1. 传感器管理提供一套完整的传感器管理框架，支持多种传感器类型的操作，包括开启、关闭、设置延迟、读取事件等。 2. 校准功能支持传感器的校准操作，包括读取和写入传感器的校准参数，确保传感器数据的准确性和可靠性。 3. 虚拟传感器支持通过虚拟传感器类，可以处理或注入虚拟传感器数据，为无法直接访问实际传感器的情况提供解决方案。 4. 事件处理和数据读取实现读取传感器数据事件和处理相关事件的功能，确保数据的实时性和准确性。 5. XML配置文件处理支持读取和写入传感器的XML配置文件，便于用户自定义传感器的配置参数。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论