`
qpshenggui
  • 浏览: 14521 次
  • 性别: Icon_minigender_1
  • 来自: 襄阳
最近访客 更多访客>>
社区版块
存档分类
最新评论

lucene Analyzer 庖丁解牛 中文分词

阅读更多

    /*
     *param   分词
     */
    public List getname(String param) throws IOException{
        //分词(庖丁解牛分词法)
        Analyzer ika = new PaodingAnalyzer();
        List<String> keys = new ArrayList<String>();
            TokenStream ts = null;
           
            try{
                Reader r = new StringReader(param);
                ts = ika.tokenStream("TestField", r);
                TermAttribute termAtt = (TermAttribute) ts.getAttribute(TermAttribute.class);
                TypeAttribute typeAtt = (TypeAttribute) ts.getAttribute(TypeAttribute.class);
                String key = null;
                while (ts.incrementToken()) {
                    if ("word".equals(typeAtt.type())) {
                        key = termAtt.term();
                        if (key.length() >= 2) {
                            keys.add(key);
                        }
                    }
                }
            }catch(IOException e){
                e.printStackTrace();
            } finally {
                if (ts != null) {
                    ts.close();
                }
            }
           
            Map<String, Integer> keyMap = new HashMap<String, Integer>();
            Integer $ = null;
            //计算每个词出现的次数
            for (String key : keys) {
                keyMap.put(key, ($ = keyMap.get(key)) == null ? 1 : $ + 1);
            }
            List<Map.Entry<String, Integer>> keyList = new ArrayList<Map.Entry<String, Integer>>(keyMap.entrySet());
            //进行排序
            Collections.sort(keyList, new Comparator<Map.Entry<String, Integer>>() {
                public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
                    return (o2.getValue() - o1.getValue());
                }
            });
            //取出关键词
            String id = null;
            String str = "";
            List list = new ArrayList();
            if(keyList.size() >0){
                for (int i = 0;i < keyList.size(); i++) {
                     id = keyList.get(i).toString();
                     String[] strs = id.split("\\=");
                     str = strs[0];
                     list.add(strs[0]);
                     System.out.println("id:"+id);
                }
            }
            return list;
    }

分享到:
评论

相关推荐

    lucene3庖丁解牛中文分词器

    1. **引入库**:首先,我们需要将`paoding_lucene3_0530.jar`文件添加到项目的类路径中,这个库包含了庖丁解牛分词器的实现。 2. **配置字典**:利用`dic`目录下的字典文件,可以定制化分词器的词典,以适应特定...

    lucene 中文分词 庖丁解牛

    《Lucene中文分词:庖丁解牛》 在信息技术高速发展的今天,全文搜索引擎已经成为网站内容检索不可或缺的一部分。其中,Apache Lucene作为一个开源的全文检索库,被广泛应用于各种项目中,尤其对于处理中文文本,...

    Lucene 庖丁解牛分词法2.4版本jar包

    总的来说,"庖丁解牛分词法"为Lucene提供了一种高效的中文分词解决方案,显著提升了中文信息检索的准确性和用户体验。通过不断优化和更新,如"paoding-analysis-2.0.4-alpha2"这样的分词工具,使得开发者能够更好地...

    Lucene加庖丁解牛测试类

    本文将深入探讨“Lucene加庖丁解牛测试类”,旨在帮助读者理解Lucene的核心概念,并通过实际的测试类解析,提升对Lucene的运用能力。 首先,我们需要理解“庖丁解牛”的含义。这源自古代典故,意指做事技艺娴熟,能...

    lucene最新版本加庖丁解牛实现搜索引擎

    《使用Lucene最新版与庖丁解牛方法构建搜索引擎》 在信息技术日新月异的今天,搜索引擎已经成为了我们获取信息的重要工具。Apache Lucene是一个高性能、全文本搜索库,被广泛应用于各种搜索引擎的开发中。本文将...

    lucene3.0庖丁+索引搜索程序

    《深入剖析Lucene3.0:庖丁解牛与索引搜索实践》 在IT行业中,搜索引擎技术扮演着至关重要的角色,而Lucene作为一个开源全文检索库,为开发者提供了强大的文本搜索功能。本文将深入探讨Lucene3.0版本,结合“庖丁解...

    Paoding中文分词

    标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...

    lucence3.6.1 示例完整包

    总结,Lucene 3.6.1是一个强大的全文搜索引擎,结合庖丁解牛分词器,能够高效地处理中文文本。通过为数据库表和文件创建索引,我们可以实现快速检索。而分页搜索则进一步优化了用户体验。通过深入学习和实践...

    lucene 例子以及所需jar包

    压缩文件中的 "jar 包" 可能包含了 Lucene 库本身以及其他必要的依赖,如庖丁解牛分词器和 Tika。程序及安装说明文件则提供了如何配置和运行示例的指导,包括如何设置类路径、启动示例程序的步骤等。 通过学习这个...

Global site tag (gtag.js) - Google Analytics