`
billgmh
  • 浏览: 65504 次
  • 性别: Icon_minigender_1
  • 来自: 广东广州
社区版块
存档分类
最新评论
文章列表
现在来看一下基于词典的分词接口(最大匹配法)。先来看一下分词处理的接口SegmentProcessorImpl: java 代码 /*   * @作者:Hades , 创建日期:2006-11-17   *   * 汕头大学03计算机本科   *    */   package edu.stu.cn.segment.matching.processor;      import java.util.LinkedList;      import edu.stu.cn.segment.matching.di ...
最后说一下双Hash结构的实现类DoubleHashDictionary类: java 代码   /*   * @作者:Hades , 创建日期:2006-11-17   *   * 汕头大学03计算机本科   *    */   package edu.stu.cn.segment.matching.dictionary;      import java.io.BufferedReader;   import java.io.FileReader;   import java.io.IOExcepti ...
目前为止,已实现了1、一维线性表 2、首字Hash 3、双Hash 三种词典的存储结构与表现形式。 首先来看一下词典结构的接口Interface: java 代码 /*   * @作者:Hades , 创建日期:2006-11-17   *   * 汕头大学03计算机本科  ...
        一眨眼大学四年的生活就要过去了,摆在自己面前的也差不多只剩下毕业设计这个“难关”了。很高兴能在大学中找到跟自己志同道合的好朋友,好拍档一起来为我们的毕业设计——基于语义网的信息检索而奋斗。正如主题那样,我所负责的正是中文分词这一部分……         经过一个月来找工与断断续续的编码相交织的努力,也实现了基于MM(正向最大匹配)与RMM(反向最大匹配)两种方式的分词接口,而在词典表示形式上也尝试了一维线性表,首字Hash结构,双Hash结构3种存储形式。为了更好地提高自己的编码水平,终于鼓足勇气把自己的代码在这里展示给大家,希望大家能对我的编码的不足以及需要改善的地方提出你们宝 ...
Global site tag (gtag.js) - Google Analytics