`
longgangbai
  • 浏览: 7343506 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

搜索引擎的中文分析器的比較和结果

阅读更多

  在所有的搜索引擎中的中文分析器均实现Analyzer抽象类.

常用的中文分析器:  

MMAnalyzer:je-analysis.jar

IK_Analyzer.jar中文解析工具组件

MIK_CAnalyzer和 IK_CAnalyzer

CJKAnalyzer:解析中日韩语言的类库

PaodingAnalyzer:解析器尚未分析.

 

 

 

package cn.com.vnvtrip.apache.luence.utils;

import java.io.IOException;
import java.io.StringReader;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.analysis.KeywordAnalyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.mira.lucene.analysis.IK_CAnalyzer;
import org.mira.lucene.analysis.MIK_CAnalyzer;

import cn.com.vnvtrip.apache.luence.CJKAnalyzer;
import cn.com.vnvtrip.apache.luence.ChineseAnalyzer;

public class AnalyzerTest {
 public static void main(String[] args) {
  String str = "中国人民共和国成立了";
  ChineseAnalyzer cn = new ChineseAnalyzer();
  KeywordAnalyzer kw = new KeywordAnalyzer();
  CJKAnalyzer cjk = new CJKAnalyzer();
  MMAnalyzer mm = new MMAnalyzer();

  MIK_CAnalyzer ikk = new MIK_CAnalyzer();

  IK_CAnalyzer ik = new IK_CAnalyzer();

  StringReader sr = new StringReader(str);
  try {
   TokenStream tokenstream = mm.reusableTokenStream("testField", sr);
   Token token = null;
   while ((token = tokenstream.next()) != null) {
    System.out.println("token start " + token.startOffset()
      + " end =" + token.endOffset() + " text="
      + token.termText());
   }
  } catch (IOException e) {
   e.printStackTrace();
  }

 }
}

 

各种解析器解析结果如下:

 

MMAnalyzer :

 

token start 0 end =4 text=中国人民
token start 4 end =7 text=共和国

 

CJKAnalyzer:解析中日韩语言的类库

token start 0 end =2 text=中国
token start 1 end =3 text=国人
token start 2 end =4 text=人民
token start 3 end =5 text=民共
token start 4 end =6 text=共和
token start 5 end =7 text=和国
token start 6 end =8 text=国成
token start 7 end =9 text=成立
token start 8 end =10 text=立了

 

 

MIK_CAnalyzer:解析结果

token start 0 end =4 text=中国人民
token start 4 end =7 text=共和国
token start 7 end =9 text=成立
token start 8 end =10 text=立了

 

 

IK_CAnalyzer:解析结果

token start 0 end =4 text=中国人民
token start 0 end =3 text=中国人
token start 0 end =2 text=中国
token start 1 end =3 text=国人
token start 2 end =4 text=人民
token start 2 end =3 text=人
token start 4 end =7 text=共和国
token start 4 end =6 text=共和
token start 7 end =9 text=成立
token start 8 end =10 text=立了
token start 7 end =10 text=成立了

 

貌似IK_Canalyzer具有比較强大的中文分词功能.

分享到:
评论

相关推荐

    中文搜索引擎-Ollydbg插件

    总的来说,“中文搜索引擎-Ollydbg插件”是逆向工程领域的一大创新,它解决了语言障碍,让更多的中文用户得以无障碍地探索和理解复杂的程序行为。无论是初学者还是经验丰富的专业人士,都可以从中受益,提高他们的...

    百度google综合搜索引擎源码

    搜索引擎的源码分析与学习能够帮助开发者理解搜索引擎的工作原理,提高网页抓取、数据处理和结果展示的技术水平。 【标签】:“百度”是中国最大的搜索引擎,以其强大的中文处理能力和丰富的网页数据库著称;...

    搜索引擎连接数据库

    搜索引擎主要包括以下几个核心部分:爬虫、索引、查询解析、排序和结果展示。爬虫负责抓取互联网上的网页,索引则是对抓取到的网页进行预处理,如分词、去重、建立倒排索引等,以便于快速匹配用户的查询。查询解析是...

    迅龙中文Web搜索引擎0.7( C# .NET)核心代码

    总的来说,迅龙中文Web搜索引擎0.7(C# .NET)的核心代码为学习和开发自定义搜索引擎提供了一个宝贵的资源。通过深入研究其代码,开发者可以掌握搜索引擎的关键技术,同时利用.NET的便利性和高性能,为各种应用场景...

    搜索引擎蜘蛛访问记录器

    搜索引擎蜘蛛访问记录器是一款专门用于监测和记录搜索引擎爬虫活动的工具。在互联网世界中,搜索引擎如百度,通过他们的“蜘蛛”或“爬虫”程序,自动遍历网页以更新索引,提供用户搜索结果。这款工具可以帮助网站...

    迅龙中文Web搜索引擎0.7( C#源码)

    中文分词是搜索引擎的关键步骤,它将连续的汉字序列切分成有意义的词语,常用的方法有最大匹配法、双向最大匹配法等。 4. **数据库集成** 搜索引擎通常会用到数据库来存储索引数据,如SQL Server、MySQL或NoSQL...

    简单搜索引擎源码

    7. **排序与展示(Ranking & Presentation)**:最后,搜索引擎会根据相关性对搜索结果进行排序,并呈现给用户。简单搜索引擎可能采用TF-IDF或BM25等基础算法进行排序。 在这个“简单搜索引擎源码”项目中,开发者...

    asp.net搜索引擎源码完整版

    2. **搜索引擎架构**:一个典型的搜索引擎包括爬虫、索引器、查询解析器和排序算法等组件。这个源码可能包含这些部分,用于抓取网页、建立索引、解析用户查询并返回相关结果。 3. **索引构建**:索引是搜索引擎的...

    人工智能-项目实践-搜索引擎-基于solr的中文搜索引擎框架

    标题中的“人工智能-项目实践-搜索引擎-基于solr的中文搜索引擎框架”揭示了这个压缩包文件包含的内容主要是关于人工智能领域的一个具体项目实践,这个实践聚焦于搜索引擎的构建,且是针对中文文本的。Solr,作为...

    lucene_heritrix 搜索引擎

    Lucene和Heritrix是两个在信息技术领域中用于搜索引擎构建的重要工具。Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,它提供了一个简单的API来索引和搜索大量文本数据。Heritrix,另一方面,是一个...

    搜索引擎基础 pdf格式

    根据《搜索引擎基础》PDF文档,搜索引擎的构成包括搜索器、分析器、索引器、检索器和用户接口五个主要组成部分。这些组件协同工作,实现对海量网络数据的抓取、处理、存储和检索。 #### 二、搜索引擎检索原理与技巧...

    Ik中文分析器

    "Ik中文分析器"是一种专为处理中文文本的分析工具,广泛应用于信息检索、搜索引擎构建以及数据挖掘等领域。它的主要任务是对输入的中文文本进行分词、去除停用词、词性标注等一系列预处理,以便更好地支持后续的索引...

    Lucene搜索引擎开发

    以上便是Lucene搜索引擎开发的基本流程和关键知识点,通过这个Demo,开发者可以深入了解如何将Lucene与其他工具结合,构建出具备汉字分词、拼音检索和纠错提示功能的搜索引擎。在实际项目中,还可以根据需求进行更...

    搜索引擎的主要技术

    根据给定的文件信息,我们可以深入探讨搜索引擎的四大核心组成部分:搜索器、索引器、检索器和用户接口。 ### 搜索器 搜索器是搜索引擎的眼睛和耳朵,负责在网络世界中探索和收集信息。它通过两种策略进行信息搜集...

    lucene中文分词源码,做搜索引擎需要用到的好东西哦

    《深入理解Lucene中文分词源码:打造高效搜索引擎》 在信息爆炸的时代,搜索引擎已经成为了我们获取知识的重要工具。而构建一个强大的搜索引擎,离不开核心的文本处理技术——中文分词。Lucene作为一款高性能、全文...

    中文垂直搜索引擎技术研究初稿

    与通用搜索引擎相比,垂直搜索引擎在实时性、个性化和社会化方面具有优势,尤其对于中文内容的处理,分词和网页分块技术显得尤为重要。 1. **中文分词** 中文分词是中文信息处理的关键步骤,它涉及到将连续的汉字...

    基于全文检索的外贸网站搜索引擎的设计与实现

    盘古中文分词是一种常见的中文分词工具,它能够处理复杂的分词情况,提高搜索引擎的准确性和召回率。 排序技术是决定搜索结果质量的关键因素,搜索引擎通常会根据相关性对搜索结果进行排序。在Lucene中,排序机制...

    国内首例开源搜索引擎分词

    云寻觅搜索引擎分词项目是中国在开源搜索引擎分词领域的一项重要突破,它为开发者和研究者提供了强大的分词工具,支持中文、英文等多种语言,并且具备高效率和准确性。这一项目的开源特性使得广大用户可以自由地使用...

Global site tag (gtag.js) - Google Analytics