`
itace
  • 浏览: 188763 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

NLPIR分词器javademo2016改编---非开源

 
阅读更多

 该项目并非开源项目:fail!E:\data\NLPIR\Data\NLPIR.user Not valid license or your license expired! Please feel free to contact pipy_zhang@msn.com! 

官网下载压缩包,http://ictclas.nlpir.org/downloads 

java版运行需要jna-4.0.0.jar,Data文件夹下的数据,NLPIR.dll动态链接库文件(linux是NLPIR.so,另外有32位和64位之分)

 

 

NLPIRLibrary类详细

package com.chipmunk.analyzer;

import java.util.Map;

import com.sun.jna.Library;
import com.sun.jna.Native;

public interface NLPIRLibrary extends Library {

	// 定义并初始化接口的静态变量 这一个语句是来加载 dll 的, 注意 dll 文件的路径
	// 可以是绝对路径也可以是相对路径,只需要填写 dll 的文件名,不能加后缀
	NLPIRLibrary Instance = (NLPIRLibrary) Native.loadLibrary(
			NLPIRPath.PATH_LIB, NLPIRLibrary.class);

	/**
	 *  初始化函数声明
	 * @param sDataPath:Initial Directory Path, where file Configure.xml and Data directory
			stored. the default value is 0, it indicates the initial directory is current
			working directory path
	 * @param encoding:encoding of input string, default is GBK_CODE (GBK encoding), and it
			can be set with UTF8_CODE (UTF8 encoding) and BIG5_CODE (BIG5 encoding).
	 * @param sLicenceCode:license code, special use for some commercial users. Other users
			ignore the argument
	 * @return 1-success,0-fail
	 */
	public int NLPIR_Init(String sDataPath, int encoding, String sLicenceCode);

	/**
	 * 执行分词函数声明
	 * The NLPIR_ParagraphProcess function works properly only if NLPIR_Init succeeds.
	 * @param sParagraph: The source paragraph
	 * @param bPOStagged: Judge whether need POS tagging, 0 for no tag; 1 for tagging; default:1.
	 * @return
	 */
	public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);

	/**
	 *  提取关键词函数声明
	 * @param sLine, the input text.
	 * @param nMaxKeyLimit, the maximum number of key words.
	 * @param bWeightOut: whether the keyword weight output or not
	 * @return the keywords list if excute succeed. otherwise return NULL.
	 */
	public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit,
			boolean bWeightOut);

	/**
	 * Extract keyword from a text file.
	 * @param sTextFile, the input text filename. 
	 * @param nMaxKeyLimit, the maximum number of key words. 
	 * @param bWeightOut: whether the keyword weight output or not 
	 * @return Return the keywords list if excute succeed. otherwise return NULL.
	 */
	public String NLPIR_GetFileKeyWords(String sLine, int nMaxKeyLimit,
			boolean bWeightOut);

	/**
	 *  添加用户词典声明Add a word to the user dictionary.
	 * @param sWord
	 * @return Return 1 if add succeed. Otherwise return 0.
	 */
	public int NLPIR_AddUserWord(String sWord);// add by qp 2008.11.10
	/**
	 *  删除用户词典声明
	 * @param sWord
	 * @return Return -1, the word not exist in the user dictionary; else, the handle of the word deleted
	 */
	public int NLPIR_DelUsrWord(String sWord);// add by qp 2008.11.10

	//错误信息
	public String NLPIR_GetLastErrorMsg();

	/**
	 *  退出函数声明
	 *  Exit the program and free all resources and destroy all working buffer used in NLPIR.
	 */
	public void NLPIR_Exit();

	/**
	 *  文件分词声明 The NLPIR_FileProcess function works properly only if NLPIR_Init succeeds.
	 * @param sSourceFilename: The source file name to be analysized; 
	 * @param sResultFilename: The result file name to store the results. 
	 * @param bPOStagged: Judge whether need POS tagging, 0 for no tag; 1 for tagging; default:1. 
	 * Return the processing speed if processing succeed. Otherwise return false.
	 */
	public boolean NLPIR_FileProcess(String utf8File, String utf8FileResult, int i);
	
	//--------------------------------plus----------------------------------------//
	/**
	 * 引入用户词典 Import user-defined dictionary from a text file.
	 * @param sFilename: Text filename for user dictionary 
	 * @param bOverwrite: true(default), overwrite the existing dictionary ,false, add to the existing dictionary
	 * @return 
	 */
	public int NLPIR_ImportUserDict(String sFilename,boolean bOverwrite);
	
	/**
	 * 
	 * @param sParagraph: The source paragraph 
	 * @param pResultCount: pointer to result vector size 
	 * @param bUserDict:whether use UserDict 
	 * @return
	 *  the pointer of result vector, it is managed by system, user cannot alloc and free it
		struct result_t{
			int start; //start position,词语在输入句子中的开始位置
			int length; //length,词语的长度
			char sPOS[POS_SIZE];//word type,词性ID值,可以快速的获取词性表
			int iPOS;//词性
			int word_ID; //如果是未登录词,设成或者-1
			int word_type; //区分用户词典;1,是用户词典中的词;,非用户词典中的词
			int weight;// word weight
		};
	 */
//	public result_t NLPIR_ParagraphProcessA(String sParagraph,int pResultCount,boolean bUserDict);
	public Map<String, Object> NLPIR_ParagraphProcessA(String sParagraph,int pResultCount,boolean bUserDict);
	
	/**
	 * The output format is customized in NLPIR configure.
	 * @param sParagraph
	 * @return
	 */
	public int NLPIR_GetParagraphProcessAWordCount(String sParagraph);
	
	/**
	 * 
	 * @param nCount: the paragraph word count. 
	 * @param result: Pointer to structure to store results. 
	 */
//	public void NLPIR_ParagraphProcessAW(int nCount,result_t result);
	public void NLPIR_ParagraphProcessAW(int nCount,Map<String, Object> result);
	
	/**
	 * Save the user dictionary to disk.
	 * @return Return 1 if save succeed. Otherwise return 0.
	 */
	public int NLPIR_SaveTheUsrDic();
	
	/**
	 * 关键词黑名单(永远不作为关键词输出)
	 * Import blacklist keyword dictionary from a text file.
	 * @param sFilename: Text filename for user dictionary
	 * @return The number of lexical entry imported successfully
	 */
	public int NLPIR_ImportKeyBlackList(String sFilename);
	
	/**
	 * Extract new words from paragraph.
	 * @param sLine, the input text.
	 * @param nMaxKeyLimit, the maximum number of key words. 
	 * @param bWeightOut: whether the keyword weight output or not 
	 * @return
	 */
	public String NLPIR_GetNewWords(String sLine,int nMaxKeyLimit,boolean bWeightOut);
	/**
	 * Extract new words from a text file.
	 * @param sTextFile, the input text filename. 
	 * @param nMaxKeyLimit, the maximum number of key words. 
	 * @param bWeightOut: whether the keyword weight output or not 
	 * @return Return the keywords list if excute succeed. otherwise return NULL.
	 */
	public String NLPIR_GetFileNewWords(String sTextFile,int nMaxKeyLimit,boolean bWeightOut);
	/**
	 * Extract a finger print from the paragraph .
	 * @param sLine
	 * @return  0, failed; else, the finger print of the content
	 */
	public long NLPIR_FingerPrint(String sLine);
	/**
	 * select which pos map will use
	 * @param nPOSmap
	 * @return
	 */
	public int NLPIR_SetPOSmap(int nPOSmap);
	/**
	 * 
	 * @return true:success, false:fail
	 */
	public boolean NLPIR_NWI_Start();
	/**
	 * 需要在运行NLPIR_NWI_Start()之后,才有效
	 * @param sFilename
	 * @return
	 */
	public int NLPIR_NWI_AddFile(String sFilename);
	/**
	 * 往新词识别系统中添加一段待识别新词的内存
	 * 需要在运行NLPIR_NWI_Start()之后,才有效
	 * @param sText
	 * @return
	 */
	public boolean NLPIR_NWI_AddMem(String sText);
	/**
	 * 新词识别添加内容结束
	 * 需要在运行NLPIR_NWI_Start()之后,才有效
	 * @return
	 */
	public boolean NLPIR_NWI_Complete();//新词
	/**
	 * 获取新词识别的结果
	 * 需要在运行NLPIR_NWI_Complete()之后,才有效
	 * @param bWeightOut 是否需要输出每个新词的权重参数
	 * @return
	 */
	public String NLPIR_NWI_GetResult(boolean bWeightOut);//输出新词识别结果
	/**
	 * 将新词识别结果导入到用户词典中
	 * 需要在运行NLPIR_NWI_Complete()之后,才有效
	 * 如果需要将新词结果永久保存,建议在执行NLPIR_SaveTheUsrDic
	 * @return
	 */
	public int NLPIR_NWI_Result2UserDict();//新词识别结果转为用户词典,返回新词结果数目
	/**
	 * //NLPIR
		NLPIR_NWI_Start();//启动新词发现功能
		NLPIR_NWI_AddFile(sInputFile); //添加新词训练的文件,可反复添加
		NLPIR_NWI_Complete();//添加文件或者训练内容结束
		const char *pNewWordlist=NLPIR_NWI_GetResult();//输出新词识别结果
		printf("识别出的新词为:%s\n",pNewWordlist);
		strcpy(sResultFile,sInputFile);
		strcat(sResultFile,"_result1.txt");
		NLPIR_FileProcess(sInputFile,sResultFile);
		NLPIR_NWI_Result2UserDict();//新词识别结果导入到用户词典
		strcpy(sResultFile,sInputFile);
		strcat(sResultFile,"_result2.txt");
		NLPIR_FileProcess(sInputFile,sResultFile);
		NLPIR_Exit();
	 */
	/**
	 * 功能:当前的切分结果过大时,如“中华人民共和国”
		需要执行该函数,将切分结果细分为“中华人民共和国”
		细分粒度最大为三个汉字
		返回:返回细粒度分词,如果不能细分,则返回为空字符串""
	 * @param sLine
	 * @return
	 */
	public String NLPIR_FinerSegment(String sLine);//最大细粒化分词
	/**
	 * 功能:获取各类英文单词的原型,考虑了过去分词、单复数等情况
		返回:返回的词原型形式
		driven->drive drives->drive drove-->drive
	 * @param sWord
	 * @return
	 */
	public String NLPIR_GetEngWordOrign(String sWord);//获取各类英文单词的原型,考虑了过去分词、单复数等情况
	/**
	 * 功能:获取输入文本的词,词性,频统计结果,按照词频大小排序
		返回:返回的是词频统计结果形式如下:
		张华平/nr/10#博士/n/9#分词/n/8
	 * 
	 * @param sText
	 * @return
	 */
	public String NLPIR_WordFreqStat(String sText);//获取输入文本的词,词性,频统计结果,按照词频大小排序
	/**
		功能:获取输入文本的词,词性,频统计结果,按照词频大小排序
		参数:sFilename 文本文件的全路径
		返回: 返回的是词频统计结果形式如下:
		张华平/nr/10#博士/n/9#分词/n/8
	 * @param sFilename
	 * @return
	 * 
	 */
	public String NLPIR_FileWordFreqStat(String sFilename);//获取输入文本的词,词性,频统计结果,按照词频大小排序
}

 
 Demo

 

public static void main(String[] args) {
		String argu = NLPIRPath.PATH_DATA;
		int charset_type = 1;
		int init_flag = NLPIRLibrary.Instance.NLPIR_Init(argu, charset_type,"0");
		if (init_flag==1) {
			System.out.println("init success!");
		}else if (init_flag==0) {
			String message = NLPIRLibrary.Instance.NLPIR_GetLastErrorMsg();
			System.out.println("init fail!"+message);
		}
		String word = NLPIRLibrary.Instance.NLPIR_GetEngWordOrign("wanted");
		System.out.println(word);
		NLPIRLibrary.Instance.NLPIR_AddUserWord("强降雨 n");
		String word2 = NLPIRLibrary.Instance.NLPIR_WordFreqStat("南方多地出现强降雨的同时,高温天气也在南方蔓延。据中国天气网21日消息,在副热带高压控制下,19日开始,华南一带出现高温天气,影响范围逐步扩大。预计,未来10天,高温继续蔓延,江南中南部、华南将出现日最高气温为35-38℃的持续高温晴热天气。");
		System.out.println(word2);
		String keywords =NLPIRLibrary.Instance.NLPIR_GetFileKeyWords("E:/temp/abc.txt", 10, true);
		System.out.println(keywords);
		
//		NLPIRLibrary.Instance.NLPIR_NWI_Start();//新词识别开始
//		NLPIRLibrary.Instance.NLPIR_NWI_AddFile("E:/temp/def.txt");//批量增加输入文件,可以不断循环调用NLPIR_NWI_AddFile或者NLPIR_NWI_AddMem
//		
//		NLPIRLibrary.Instance.NLPIR_NWI_Complete();//新词识别导入文件结束
//		
//		String t= NLPIRLibrary.Instance.NLPIR_NWI_GetResult(false);//获取本次批量导入文本文件中识别的新词结果
//		System.out.println("新词识别结果 " + t);//打印输出新词识别结果
//		System.out.println("============");
		
		try {
			String aaa = NLPIRLibrary.Instance.NLPIR_ParagraphProcess(FileUtil.read(new File("E:/temp/def.txt"), "UTF-8"), 0);
			System.out.println(aaa.replaceAll(" ", ","));
		} catch (Exception e) {
			e.printStackTrace();
		}
		String abc =NLPIRLibrary.Instance.NLPIR_GetFileNewWords("E:/temp/def.txt", 10, false);
		for (String a : abc.split("#")) {
			NLPIRLibrary.Instance.NLPIR_AddUserWord(a+" n");
			System.out.println(a);
		}
		System.out.println("abc:"+abc);
		NLPIRLibrary.Instance.NLPIR_AddUserWord("暴雨黄色预警 n");
		try {
			String ddd = NLPIRLibrary.Instance.NLPIR_ParagraphProcess(FileUtil.read(new File("E:/temp/def.txt"), "UTF-8"), 0);
			System.out.println(ddd.replaceAll(" ", ","));
		} catch (Exception e) {
			e.printStackTrace();
		}
		NLPIRLibrary.Instance.NLPIR_Exit();
		
	}

 

 

  • 大小: 26.3 KB
分享到:
评论

相关推荐

    嵌入式八股文面试题库资料知识宝典-深圳禾苗通信科技有限公司.zip

    嵌入式八股文面试题库资料知识宝典-深圳禾苗通信科技有限公司.zip

    Arduino UART实验例程【正点原子EPS32S3】

    Arduino UART实验例程,开发板:正点原子EPS32S3,本人主页有详细实验说明可供参考。

    电力弹簧技术在主动配电网规划与运行优化调度中的应用研究

    内容概要:本文详细探讨了电力弹簧技术在主动配电网规划及运行优化调度中的应用。首先介绍了电力弹簧技术作为智能电网调控手段的优势,如自适应性强、响应速度快、节能环保等。接着阐述了主动配电网规划的目标和策略,包括优化电网结构、提高能源利用效率和降低故障风险。随后讨论了运行优化调度的原则和方法,强调了实时监测、智能调度策略以及优化调度模型的重要性。最后通过实际案例分析展示了电力弹簧技术在提升电网稳定性、可靠性和能效方面的显著效果,展望了其广阔的应用前景。 适合人群:从事电力系统规划、运行管理的研究人员和技术人员,以及对智能电网感兴趣的学者和学生。 使用场景及目标:适用于希望深入了解电力弹簧技术及其在主动配电网规划和运行优化调度中具体应用的专业人士。目标是掌握电力弹簧技术的工作原理、优势及其在实际项目中的实施方法。 其他说明:本文不仅提供了理论分析,还有具体的案例支持,有助于读者全面理解电力弹簧技术的实际应用价值。

    honor_1.145_testgray20250427.apk

    honor_1.145_testgray20250427.apk

    嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip

    嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip

    鸿蒙生态HarmonyOS:万物互联时代的操作系统革新与发展路径

    内容概要:本文详细介绍了华为推出的面向全场景的分布式操作系统HarmonyOS。HarmonyOS旨在打破设备间的壁垒,实现万物互联,通过分布式软总线和分布式任务调度等核心技术,让不同设备协同工作,如手机、平板、智能家居等设备间无缝流转任务。其应用生态涵盖教育、金融、出行等多个领域,华为通过资金、技术支持和流量扶持吸引开发者,推动生态繁荣。HarmonyOS从2019年首次发布至今,经历了多个版本迭代,性能和安全性不断提升,用户体验更加智能便捷。尽管面临应用生态丰富度不足、市场竞争压力等挑战,华为通过优化开发工具、加强市场推广等策略积极应对。未来,HarmonyOS将在分布式技术、AI融合和隐私安全等方面持续创新,并在智能家居、车联网、工业互联网等领域拓展生态。 适合人群:对操作系统技术感兴趣的专业人士、开发者、科技爱好者。 使用场景及目标:①了解HarmonyOS的技术架构和分布式技术的特点;②探讨HarmonyOS在智能家居、车联网等领域的应用前景;③评估HarmonyOS对现有操作系统市场的潜在影响。 阅读建议:HarmonyOS作为一款面向全场景的操作系统,不仅涉及技术实现,还包括生态建设和用户体验。因此,在阅读过程中,应重点关注其技术优势、应用场景及未来发展潜力,结合自身需求思考其在实际生活和工作中的应用价值。

    少儿编程scratch项目源代码文件案例素材-简单杀戮.zip

    少儿编程scratch项目源代码文件案例素材-简单杀戮.zip

    基于阻抗控制和工艺优化的机器人磨抛技术研究.pdf

    基于阻抗控制和工艺优化的机器人磨抛技术研究.pdf

    少儿编程scratch项目源代码文件案例素材-扛住别被压.zip

    少儿编程scratch项目源代码文件案例素材-扛住别被压.zip

    【操作系统领域】HarmonyOS架构解析:分布式设计与全场景智能应用的创新实践

    内容概要:本文详细介绍了华为自主研发的面向全场景的分布式操作系统——HarmonyOS的架构设计及其在智能家居、智能穿戴、智慧出行等领域的应用。HarmonyOS采用分层架构,包括内核层、系统服务层、框架层和应用层,各层分工明确,协同工作,为用户提供稳定、高效、智能的操作系统。其核心特性包括分布式架构、微内核设计、组件化开发和一次开发多端部署,这些特性使得不同设备能够实现互联互通和资源共享,为用户带来无缝的全场景智能体验。此外,文章还探讨了HarmonyOS面临的生态建设和兼容性挑战,以及未来的发展前景和技术创新方向。 适合人群:对操作系统架构感兴趣的科技爱好者、智能设备开发者及相关行业从业者。 使用场景及目标:①了解HarmonyOS架构设计及其在智能家居、智能穿戴、智慧出行等领域的具体应用;②掌握HarmonyOS的核心特性,如分布式架构、微内核设计、组件化开发和一次开发多端部署;③探讨HarmonyOS面临的挑战及其未来发展方向。 其他说明:HarmonyOS的出现不仅为华为在智能设备领域的发展提供了有力支撑,也为整个行业的创新发展注入了新的活力。作为科技爱好者和关注者,我们应持续关注HarmonyOS的发展,共同见证它在智能设备领域创造更多的辉煌。

    嵌入式八股文面试题库资料知识宝典-linux驱动开发.zip

    嵌入式八股文面试题库资料知识宝典-linux驱动开发.zip

    开关磁阻电机技术参数与建模技术深度解析:4kW电机性能详述

    内容概要:本文深入探讨了一款额定功率为4kW的开关磁阻电机,详细介绍了其性能参数如额定功率、转速、效率、输出转矩和脉动率等。同时,文章还展示了利用RMxprt、Maxwell 2D和3D模型对该电机进行仿真的方法和技术,通过外电路分析进一步研究其电气性能和动态响应特性。最后,文章提供了基于RMxprt模型的MATLAB仿真代码示例,帮助读者理解电机的工作原理及其性能特点。 适合人群:从事电机设计、工业自动化领域的工程师和技术人员,尤其是对开关磁阻电机感兴趣的科研工作者。 使用场景及目标:适用于希望深入了解开关磁阻电机特性和建模技术的研究人员,在新产品开发或现有产品改进时作为参考资料。 其他说明:文中提供的代码示例仅用于演示目的,实际操作时需根据所用软件的具体情况进行适当修改。

    嵌入式八股文面试题库资料知识宝典-新岸线.zip

    嵌入式八股文面试题库资料知识宝典-新岸线.zip

    基于支持向 量机和余弦相似度的故障诊断方法.pdf

    基于支持向 量机和余弦相似度的故障诊断方法.pdf

    Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码(毕业设计&课程设计&项目开发)

    Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用 ARKit实现图片识别、平面捕捉、人脸识别 ARKit需要ios11 以及 A11处理器或更高版本设备支持 Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用 ARKit实现图片识别、平面捕捉、人脸识别 ARKit需要ios11 以及 A11处理器或更高版本设备支持~ Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用 ARKit实现图片识别、平面捕捉、人脸识别 ARKit需要ios11 以及 A11处理器或更高版本设备支持

    少儿编程scratch项目源代码文件案例素材-火柴人大战 中世纪战争.zip

    少儿编程scratch项目源代码文件案例素材-火柴人大战 中世纪战争.zip

    嵌入式八股文面试题库资料知识宝典-并行科技笔试题.zip

    嵌入式八股文面试题库资料知识宝典-并行科技笔试题.zip

    嵌入式八股文面试题库资料知识宝典-进程线程.zip

    嵌入式八股文面试题库资料知识宝典-进程线程.zip

    嵌入式八股文面试题库资料知识宝典-金山问题.zip

    嵌入式八股文面试题库资料知识宝典-金山问题.zip

Global site tag (gtag.js) - Google Analytics