`
yahaitt
  • 浏览: 763455 次
  • 性别: Icon_minigender_2
  • 来自: 杭州
社区版块
存档分类
最新评论

猎兔分词

阅读更多
  1、猎兔分词的特性:

l         可以作为lucene的一个模块调用,作为二元分词方法的替代。该组件直接扩展org.apache.lucene.analysis.Tokenizerorg.apache.lucene.analysis.Analyzer 类。

l         分词准确率98%以上。

l         同时支持分词和词性标注。

l         提供参数调节分词准确性和切分速度。

l         100%采用java实现的分词组件,无内存泄漏问题。可长期不间断运行。

l         采用多种分词方法结合,包括基于概率的n元切分方法,隐马尔科夫模型,未登录词识别算法,歧义识别算法和基于规则的方法等。

l         未登录词的识别包括:人名,地名,译名,企业机构名的完整识别。

l         采用多个大规模语料库训练概率词库。

l         针对多线程使用优化,占用内存少。

支持组合分词的方式。是针对合成词的特殊优化。例如,中华人民共和国是一个词,共和国也是一个词。

2、应用

CnAnalyzer.java
  1. package com.feedsky;   
  2.   
  3. import java.io.Reader;   
  4.   
  5. import org.apache.lucene.analysis.Analyzer;   
  6. import org.apache.lucene.analysis.LowerCaseFilter;   
  7. import org.apache.lucene.analysis.PorterStemFilter;   
  8. import org.apache.lucene.analysis.TokenStream;   
  9.   
  10. import com.lietu.seg.result.CnTokenizer;   
  11. import com.lietu.seg.result.PlaceFilter;   
  12.   
  13. public class CnAnalyzer extends Analyzer {   
  14.     //~ Static fields/initializers ---------------------------------------------   
  15.   
  16.     /**  
  17.      * An array containing some common English words that are not usually  
  18.      * useful for searching. and some double-byte interpunctions.....  
  19.      */  
  20.     /*private static String[] stopWords = {  
  21.         "www","的","和","与","时","在",  
  22.         "是","被","所","那","这","有",  
  23.         "将","会","为","对","了","过",  
  24.         "去"};*/  
  25.   
  26.     //~ Instance fields --------------------------------------------------------   
  27.   
  28.     /** stop word list */  
  29.     //private Set stopSet;   
  30.   
  31.     //~ Constructors -----------------------------------------------------------   
  32.   
  33.     /**  
  34.      * Builds an analyzer which removes words in STOP_WORDS.  
  35.      */  
  36.     public CnAnalyzer() {   
  37.         //stopSet = StopFilter.makeStopSet(stopWords);   
  38.     }   
  39.   
  40.     /**  
  41.      * Builds an analyzer which removes words in the provided array.  
  42.      *  
  43.      * @param stopWords stop word array  
  44.      */  
  45.     public CnAnalyzer(String[] stopWords) {   
  46.         //stopSet = StopFilter.makeStopSet(stopWords);   
  47.     }   
  48.   
  49.     //~ Methods ----------------------------------------------------------------   
  50.   
  51.     /**  
  52.      * get token stream from input  
  53.      *  
  54.      * @param fieldName lucene field name  
  55.      * @param reader input reader  
  56.      *  
  57.      * @return TokenStream  
  58.      */  
  59.     public final TokenStream tokenStream(String fieldName, Reader reader) {   
  60.         TokenStream result =  new CnTokenizer(reader);   
  61.         result = new LowerCaseFilter(result);   
  62.         result = new PorterStemFilter(result);   
  63.         result = new PlaceFilter(result);   
  64.         return result;   
  65.     }   
  66.        
  67. }   

 

testCnAnalyzer.java
  1. package com.feedsky;   
  2.   
  3. import java.io.StringReader;   
  4.   
  5. import org.apache.lucene.analysis.Token;   
  6. import org.apache.lucene.analysis.TokenStream;   
  7.   
  8. import com.lietu.seg.result.CnTokenizer;   
  9.   
  10. public class testCnAnalyzer {   
  11.        
  12.     public static void main(String[] args) {   
  13.         try {   
  14.             testCnAnalyzer();   
  15.         } catch (Exception e) {   
  16.             // TODO Auto-generated catch block   
  17.             e.printStackTrace();   
  18.         }   
  19.     }   
  20.   
  21.     public static void testCnAnalyzer() throws Exception {   
  22.   
  23.         long startTime;   
  24.   
  25.         long endTime;   
  26.   
  27.         StringReader input;   
  28.   
  29.         CnTokenizer.makeTag = false;   
  30.   
  31.         String sentence ="其中包括兴安至全州、桂林至兴安、全州至黄沙河、阳朔至平乐、桂林至阳朔、桂林市国道过境线灵川至三塘段、平乐至钟山、桂林至三江高速公路。";   
  32.   
  33.         input = new java.io.StringReader(sentence);   
  34.   
  35.         startTime = System.currentTimeMillis();   
  36.   
  37.         TokenStream tokenizer = new com.lietu.seg.result.CnTokenizer(input);   
  38.   
  39.         endTime = System.currentTimeMillis();   
  40.   
  41.         System.out.println("first seg time cost:" + (endTime - startTime));   
  42.   
  43.         for (Token t = tokenizer.next(); t != null; t = tokenizer.next())   
  44.   
  45.         {   
  46.   
  47.             System.out.println(t.termText() + " " + t.startOffset() + " "  
  48.   
  49.             + t.endOffset() + " " + t.type());   
  50.   
  51.         }   
  52.   
  53.     }   
  54.   
  55. }   

 

TestArray.java
  1. package com.feedsky;   
  2.   
  3. import java.util.ArrayList;   
  4.   
  5. import com.lietu.seg.result.CnToken;   
  6. import com.lietu.seg.result.Tagger;   
  7. /**  
  8.  * 以数组形式返回结果,ArrayList中保存的对象类型是seg.result.CnToken.  
  9.  * TestArray.java  
  10.  *java -Ddic.dir=/home/spider/luceneindex/dict -classpath .:/usr/java/jdk1.5.0_11/lib/tools.jar:/usr/java/jdk1.5.0_11/lib/dt.jar:/usr/java/jdk1.5.0_11/jre/lib/:/home/spider/luceneindex/classes:/home/spider/luceneindex/lib/seg.jar com.feedsky.TestArray  
  11.  
  12.  * @author  
  13.  */  
  14. public class TestArray {   
  15.   
  16.      public static void testFormatSegResult() throws Exception {   
  17.             long startTime;   
  18.             long endTime;   
  19.                
  20.             Tagger.makeTag= true;   
  21.                
  22.             String sentence ="上海雷天软件科技有限... 公司 上海雷天软件科技有限公司是一家从事通信软件制作的公司,为适应市场的高速发展,组织有更具潜力的团队,现诚聘请有资深经验,渴望成就与新挑战并能承受快速发展压力的年轻才俊加盟。户籍不限,唯才是用。 联系方式: 电 话:021-36030126 E-mail:zhujc@linghui.com 职位1: 软件开发工程师 职位描述: JAVA软件工程师(3-4人)责任:负责java软件程序编码工作,";   
  23.   
  24.             ArrayList result = Tagger.getFormatSegResult(sentence);   
  25.                
  26.             startTime = System.currentTimeMillis();   
  27.             for (int i=0; i
  28.             {   
  29.                 CnToken t = (CnToken)result.get(i);   
  30.                 System.out.println(t.termText + " " + t.startOffset() + " "  
  31.                                    + t.endOffset() + " "+t.type);   
  32.             }   
  33.             endTime = System.currentTimeMillis();   
  34.             System.out.println("first seg time cost:" + ( endTime - startTime));   
  35.         }   
  36.     public static void main(String[] args){   
  37.         try{   
  38.             testFormatSegResult();   
  39.         }catch(Exception e){   
  40.             e.printStackTrace();   
  41.         }   
  42.     }   
  43. }   

 

TestSentence1.java
  1. package com.feedsky;   
  2.   
  3. import com.lietu.seg.result.Tagger;   
  4. /**  
  5.  * 返回是个分割好的句子  
  6.  * TestSentence1.java  
  7.  *  
  8.  * @author  
  9.  */  
  10. public class TestSentence1 {   
  11.   
  12.     public static void  testSentence()   
  13.     {   
  14.         String sSentence="二桥工程指挥部指挥长王燮培告诉记者,";   
  15.         String sSentenceResult;   
  16.            
  17.         long startTime = System.currentTimeMillis();   
  18.         sSentenceResult= Tagger.getNormalSegResult(sSentence);   
  19.         System.out.println("seg time cost:" + (System.currentTimeMillis() - startTime));    
  20.            
  21.         System.out.println(sSentenceResult);   
  22.            
  23.         sSentence="我看见一座座山。";   
  24.         sSentenceResult= Tagger.getNormalSegResult(sSentence);   
  25.         System.out.println(sSentenceResult);   
  26.   
  27.         sSentence="1969年,一个偶然的机会,他们受法国文化部艺术司司长安东尼奥先生之邀,";   
  28.         sSentenceResult= Tagger.getNormalSegResult(sSentence);   
  29.         System.out.println(sSentenceResult);   
  30.     }   
  31.   
  32.     public static void main(String[] args){   
  33.         testSentence();   
  34.     }   
  35. }   

 

TokenTest.java
  1. package com.feedsky;   
  2.   
  3. import java.util.ArrayList;   
  4.   
  5. import com.lietu.seg.result.CnToken;   
  6. import com.lietu.seg.result.Tagger;   
  7.   
  8. public class TokenTest {   
  9.   
  10.     /**  
  11.      * @param args  
  12.      */  
  13.     public static void main(String[] args) {   
  14.         try {   
  15.             testFormatSegResult();   
  16.         } catch (Exception e) {   
  17.             // TODO Auto-generated catch block   
  18.             e.printStackTrace();   
  19.         }   
  20.   
  21.     }   
  22.   
  23.     public static void testFormatSegResult() throws Exception {   
  24.   
  25.         long startTime;   
  26.   
  27.         long endTime;   
  28.   
  29.         Tagger.makeTag = false;   
  30.   
  31.         String sentence ="其中包括兴安至全州、桂林至兴安、全州至黄沙河、阳朔至平乐、桂林至阳朔、桂林市国道过境线灵川至三塘段、平乐至钟山、桂林至三江高速公路。";   
  32.   
  33.         ArrayList result = Tagger.getFormatSegResult(sentence);   
  34.   
  35.         startTime = System.currentTimeMillis();   
  36.   
  37.         for (int i = 0; i < result.size(); i++) {   
  38.             CnToken t = (CnToken) result.get(i);   
  39.             System.out.println(t.termText() + " " + t.startOffset() + " "  
  40.                     + t.endOffset() + " " + t.type());   
  41.         }   
  42.         endTime = System.currentTimeMillis();   
  43.         System.out.println("first seg time cost:" + (endTime - startTime));   
  44.     }   
  45.   
  46. }   

 

Item.java
  1. package com.feedsky;   
  2.   
  3. public class Item {   
  4.     private String url;   
  5.   
  6.     private String docid;   
  7.   
  8.     private String content;   
  9.   
  10.     public String getContent() {   
  11.         return content;   
  12.     }   
  13.   
  14.     public void setContent(String content) {   
  15.         this.content = content;   
  16.     }   
  17.   
  18.     public String getDocid() {   
  19.         return docid;   
  20.     }   
  21.   
  22.     public void setDocid(String docid) {   
  23.         this.docid = docid;   
  24.     }   
  25.   
  26.     public String getUrl() {   
  27.         return url;   
  28.     }   
  29.   
  30.     public void setUrl(String url) {   
  31.         this.url = url;   
  32.     }   
  33.   
  34. }   

 

在运行这些程序前,需要设置环境,用以指定猎兔分词中需要用到的词库所在目录   -Ddic.dir=D:/wjlproject/lietuTest/dict

或者通过在eclipse中的Arguments标签中的VM arguments输入框中输入 -Ddic.dir=D:/wjlproject/lietuTest/dict

如果发现运行时内存溢出问题,可以设置内存的最小和最大值来避免这个情况的发生

-Ddic.dir=D:/wjlproject/httpclient/dict -Xms30m -Xmx512m

分享到:
评论

相关推荐

    猎兔Lucene.NET中文分词源码seg_src.rar

    《猎兔Lucene.NET中文分词源码seg_src.rar》是一个包含了Lucene.NET中文分词模块的源代码压缩包,其重要性和价值在于为开发者提供了深入理解与自定义中文分词算法的宝贵资源。Lucene.NET是Apache Lucene搜索引擎库的...

    搜索引擎指南

    20. **Paperball, 猎兔**:前者可能是一个多用途的网站,后者专注于中文分词技术,对中文文本处理有用。 21. **扩展名辞典 Online**:文件扩展名信息查询网站,帮助用户识别和管理不同类型的文件。 22. **CNBLOG ...

    外加热强制循环蒸发器装配图(CAD).rar

    外加热强制循环蒸发器装配图(CAD).rar

    数控车床纵向进给系统设计.zip

    数控车床纵向进给系统设计.zip

    vault_side_off_ominous.png

    j

    爬虫 bangumi名称和评论数

    爬虫 bangumi名称和评论数

    基于SpringBoot的垃圾分类回收系统(源码+数据库+万字文档)526

    基于SpringBoot的垃圾分类回收系统,系统包含两种角色:管理员、用户主要功能如下。 【用户功能】 首页:浏览垃圾分类回收系统信息。 个人中心:管理个人信息,查看历史记录和订单状态。 运输管理:查看运输信息,垃圾回收的时间和地点。 公告管理:阅读系统发布的相关通知和公告。 垃圾回收管理:查看垃圾回收的信息,回收类型和进度。 垃圾出库申请管理:提交和查看垃圾出库申请的状态。 【管理员功能】 首页:查看垃圾分类回收系统。 个人中心:管理个人信息。 管理员管理:审核和管理注册管理员用户的信息。 用户管理:审核和管理注册用户的信息。 运输管理:监管和管理系统中的运输信息。 公告管理:发布、编辑和删除系统的通知和公告。 垃圾回收管理:监管和管理垃圾回收的信息。 垃圾出库申请管理:审批和管理用户提交的垃圾出库申请。 基础数据管理:管理系统的基础数据,运输类型、公告类型和垃圾回收类型。 二、项目技术 编程语言:Java 数据库:MySQL 项目管理工具:Maven 前端技术:Vue 后端技术:SpringBoot 三、运行环境 操作系统:Windows、macOS都可以 JDK版本:JDK1.8以上都可以 开发工具:IDEA、Ecplise、Myecplise都可以 数据库: MySQL5.7以上都可以 Maven:任意版本都可以

    这篇文章是台湾大学(NTU)计算机科学与信息工程系(CSIE)2021年秋季学期算法设计与分析课程的第一份作业(Homework#1)的具体要求和题目描述 以下是主要内容的总结:

    内容概要:本文档是台湾大学计算机科学与信息工程系2021年秋季学期《算法设计与分析》课程的第一次作业(Homework#1)。作业包含四道编程题和三道手写题,旨在考察学生对算法设计和分析的理解与应用能力。编程题涉及汉诺塔、数组计算、矩形点对、糖果分配等问题;手写题涵盖渐近符号证明、递归方程求解、幽灵腿游戏优化、不公平的卢卡斯问题等。文档详细描述了每个问题的具体要求、输入输出格式、测试用例以及评分标准。此外,还提供了编程技巧和注意事项,如避免延迟提交、正确引用资料、处理大输入文件等。 适合人群:具备一定编程基础的本科生或研究生,特别是修读过或正在修读算法设计与分析相关课程的学生。 使用场景及目标:①帮助学生巩固课堂所学的算法理论知识;②通过实际编程练习提高解决复杂问题的能力;③为后续更深入的学习和研究打下坚实的基础。 其他说明:此作业强调团队合作和个人独立思考相结合的重要性,鼓励学生在讨论后用自己的语言表达解决方案,并注明参考资料。对于编程题,特别提醒学生注意输入文件可能较大,建议采取适当的优化措施以确保程序运行效率。

    基于SpringBoot的铁路订票管理系统(源码+数据库+万字文档+ppt)528

    基于SpringBoot的铁路订票管理系统,系统包含两种角色:管理员、用户主要功能如下。 【用户功能】 首页:浏览铁路订票管理系统的主要信息。 火车信息:查看火车的相关信息,包括车次、出发地、目的地和票价等。 公告资讯:阅读系统发布的相关通知和资讯。 后台管理:进行系统首页、个人中心、车票预订管理、车票退票管理等操作。 个人中心:管理个人信息,查看订单历史记录等。 【管理员功能】 首页:查看铁路订票管理系统。 个人中心:修改密码、管理个人信息。 用户管理:审核和管理注册用户的信息。 火车类型管理:管理系统中的火车类型信息。 火车信息管理:监管和管理系统中的火车信息,添加、编辑、删除等。 车票预订管理:处理用户的车票预订请求。 车票退票管理:处理用户的车票退票请求。 系统管理:管理系统的基本设置,公告资讯、关于我们、系统简介和轮播图管理。 二、项目技术 编程语言:Java 数据库:MySQL 项目管理工具:Maven 前端技术:Vue 后端技术:SpringBoot 三、运行环境 操作系统:Windows、macOS都可以 JDK版本:JDK1.8以上都可以 开发工具:IDEA、Ecplise、Myecplise都可以 数据库: MySQL5.7以上都可以 Maven:任意版本都可以

    塑料架注射模具设计.rar

    塑料架注射模具设计.rar

    基于json文件数据驱动的的接口测试框架.zip

    基于json文件数据驱动的的接口测试框架

    铁丝缠绕包装机设计-缠绕盘设计.rar

    铁丝缠绕包装机设计-缠绕盘设计.rar

    Linux操作系统及常用命令详解.zip

    linux

    圆柱体相贯线焊接专机工作台设计.rar

    圆柱体相贯线焊接专机工作台设计.rar

    硬币分拣机设计.rar

    硬币分拣机设计.rar

    【机器学习与数据挖掘】行业级机器学习软件开发经验与教训:从LIBSVM和LIBLINEAR看算法部署及软件设计挑战

    内容概要:本文探讨了开发行业级机器学习和数据挖掘软件的经验与教训,指出当前研究界与工业界之间的脱节问题。作者分享了开发LIBSVM和LIBLINEAR的经验,强调了用户需求的重要性。大多数用户并非机器学习专家,期望简单易用的工具来获得良好结果。文章还详细介绍了支持向量机(SVM)的实际应用案例,包括数据预处理(如特征缩放)、参数选择等步骤,并提出了为初学者设计的简易流程。此外,作者讨论了在设计机器学习软件时应考虑的功能选择、选项数量、性能优化与数值稳定性等问题,强调了软件开发与实验代码的区别以及鼓励研究人员参与高质量软件开发的重要性。 适合人群:对机器学习软件开发感兴趣的科研人员、工程师及从业者,尤其是那些希望了解如何将学术研究成果转化为实际可用工具的人士。 使用场景及目标:①帮助非机器学习专家的用户更好地理解和使用机器学习方法;②指导开发者在设计机器学习软件时考虑用户需求、功能选择、性能优化等方面的问题;③促进学术界与工业界之间的合作,推动高质量机器学习软件的发展。 其他说明:本文不仅提供了具体的开发经验和技巧,还呼吁建立激励机制,鼓励更多研究人员投入到机器学习软件的开发中,以解决当前存在的研究与应用脱节的问题。

    pandas学习代码,jypyter格式

    一天入门pandas代码

    joblib-0.12.0-py2.py3-none-any.whl

    该资源为joblib-0.12.0-py2.py3-none-any.whl,欢迎下载使用哦!

    深度学习基于PyTorch==2.6.0和Transformers==4.48.0的XTuner环境配置:AI模型开发与优化依赖库列表

    内容概要:本文档《xtuner_requirements.txt》列出了用于支持特定项目(可能是机器学习或深度学习项目)运行所需的所有Python包及其版本。其中不仅包括常见的数据处理和科学计算库如numpy、pandas,还包括了与深度学习密切相关的库如torch、transformers等。值得注意的是,文档中还特别指定了NVIDIA CUDA相关组件的具体版本,确保了GPU加速环境的一致性和兼容性。此外,文档中也包含了从GitHub直接安装的xtuner库,明确了具体的提交哈希值,保证了代码来源的精确性。 适合人群:对机器学习、深度学习领域有一定了解并需要搭建相应开发环境的研发人员,尤其是那些希望复现特定实验结果或基于已有模型进行二次开发的研究者和技术爱好者。 使用场景及目标:①帮助开发者快速搭建完整的开发环境,确保所有依赖项正确无误;②为研究人员提供一个稳定的实验平台,以便于重复实验和验证结果;③作为项目协作的基础,确保团队成员之间的环境一致性,减少因环境差异带来的问题。 阅读建议:由于该文档主要为技术性依赖列表,在阅读时应重点关注所需安装的库及其版本号,特别是CUDA相关组件和自定义库(如xtuner)的安装方式。对于非技术人员而言,可能需要额外查阅相关资料来理解各库的作用。同时,在实际操作过程中,建议按照文档中的顺序逐一安装依赖,避免版本冲突等问题的发生。

    vault_side_on_ominous.png

    j

Global site tag (gtag.js) - Google Analytics