十五、实现简单同义词分词器 -

youyang_java

浏览: 321738 次
性别:
来自: 重庆

最近访客更多访客>>

morelily

txlong_onz

LonelyMJ

tianxizhong

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

十五、实现简单同义词分词器

博客分类：

lucene3.5

public interface SamewordContext {
public String[] getSamewords(String name);
}

public class MySameTokenFilter extends TokenFilter {
    private CharTermAttribute            cta        = null;
    private PositionIncrementAttribute    pia        = null;
    private AttributeSource.State        current;
    private Stack<String>                sames    = null;
    private final SamewordContext        samewordContext;

    protected MySameTokenFilter(TokenStream input, SamewordContext samewordContext) {
        super(input);
        cta = this.addAttribute(CharTermAttribute.class);
        pia = this.addAttribute(PositionIncrementAttribute.class);
        sames = new Stack<String>();
        this.samewordContext = samewordContext;
    }

    //找到同义词，在相同的位置上叠加
    @Override
    public boolean incrementToken() throws IOException {
        if (sames.size() > 0) {
            //将元素出栈，并且获取这个同义词
            String str = sames.pop();
            //还原状态
            restoreState(current);
            cta.setEmpty();
            cta.append(str);
            //设置位置0
            pia.setPositionIncrement(0);
            return true;
        }

        if (!this.input.incrementToken())
            return false;

        if (addSames(cta.toString())) {
            //如果有同义词将当前状态先保存
            current = captureState();
        }
        return true;
    }

    private boolean addSames(String name) {
        String[] sws = samewordContext.getSamewords(name);
        if (sws != null) {
            for (String str : sws) {
                sames.push(str);
            }
            return true;
        }
        return false;
    }

}

public class MySameAnalyzer extends Analyzer {
    private final SamewordContext    samewordContext;

    public MySameAnalyzer(SamewordContext swc) {
        samewordContext = swc;
    }

    @Override
    public TokenStream tokenStream(String fieldName, Reader reader) {
        //Dictionary dic = Dictionary.getInstance("D:\\tools\\javaTools\\lucene\\mmseg4j-1.8.5\\data");
        Dictionary dic = Dictionary.getInstance();
        return new MySameTokenFilter(new MMSegTokenizer(new MaxWordSeg(dic), reader),
            samewordContext);
    }

}

分享到：

十六、搜索排序 | Oracle同义词创建及其作用

2012-12-19 11:41
浏览 1278
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

十五、实现简单同义词分词器

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

十五、实现简单同义词分词器

评论

发表评论

相关推荐

二十七、Luence在项目中运用

二十六、solr的基本使用

二十五、solr与tomcat的整合

二十四、通过NRTManager和SearchManager实现近实时搜索

二十三、高亮显示

二十二、Tika

二十一、Luke

二十、自定义过滤器

十七、搜索过滤

十九、自定义QueryParser

十八、自定义评分

十六、搜索排序

十四、中文分词器

十三、自定义Stop分词器

十二、Attribute

十一、分词器的核心类

十、分页搜索

九、Queryparser

八、其他搜索Query

七、搜索的简单实现（TermQuery）

最近访客更多访客>>