HanLP自然语言处理包的使用

raymond.chen

浏览: 1451297 次
性别:
来自: 广州

最近访客更多访客>>

林祥纤

whzresponse

loginboot

vicento4

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

HanLP是由一系列模型与算法组成的Java工具包，目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能：

中文分词（最短路分词、N-最短路分词等）

命名实体识别（中国人名识别、地名识别、实体机构名识别等）

关键词提取

自动摘要

短语提取

拼音转换

简繁转换

文本推荐

引入jar包：

<dependency>
	<groupId>com.hankcs</groupId>
	<artifactId>hanlp</artifactId>
	<version>portable-1.6.8</version>
</dependency>

使用范例：

//分词
private static void test1(){
	List<Term> stermList = HanLP.segment("商品和服务");
	print(stermList);  
}

//繁体分词
private static void test2(){
	List<Term> stermList = TraditionalChineseTokenizer.segment("大衛貝克漢不僅僅是一名著名球員");
	print(stermList);
}

//N最短路分词器 NShortSegment 比最短路分词器( DijkstraSegment )慢，但是效果稍微好一些，对命名实体识别能力更强
private static void test3(){
	Segment nShortSegment = new NShortSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
	Segment shortestSegment = new ViterbiSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
	String sentence = "刘喜杰石国祥会见吴亚琴先进事迹报告团成员";
	print(nShortSegment.seg(sentence));
	print(shortestSegment.seg(sentence));  
}

//中国人名识别
private static void test4(){
	Segment segment = HanLP.newSegment().enableNameRecognize(true);
	List<Term> stermList = segment.seg("签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。");
	print(stermList);  
}

//地名识别
private static void test5(){
	Segment segment = HanLP.newSegment().enablePlaceRecognize(true);
	List<Term> stermList = segment.seg("武胜县新学乡政府大楼门前锣鼓喧天");
	print(stermList); 
}

//机构名识别
private static void test6(){
	Segment segment = HanLP.newSegment().enableOrganizationRecognize(true);
	List<Term> stermList = segment.seg("我在上海林原科技有限公司工作");
	print(stermList);  
}

//关键词提取
	private static void test7(){
        String content = "程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员，但两者的界限并不非常清楚，特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。";
        content += "原告诉称，原告从土地改革时，就依法取得了岿美山镇寨头村排下组荷树岭山场，1985年仍依法取得荷树岭山场所有权，一直归原告管理，没有发生任何争执。2006年原告再次依法取得该山场。2009年初第三人突然提出该山场归其所有，与原告发生争执。原告申请被告调处，被告在没有任何事实和法律依据的情况下，以寨头村排下组三分之二村民同意争议山场归第三人为由，在第三人没有提供任何证据的情况下，将争议山场确定给第三人所有是明显袒护第三人。为此，请求法院：1.撤销岿府发［2009］46号信访事项办理意见书；2.依法确认岿美山镇寨头村排下组荷树岭山场归原告所有。";
        System.out.println(HanLP.extractKeyword(content, 5)); //返回个数
}

//自动摘要
	private static void test8(){
        String document = "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法。\n" +
                "算法可以宽泛的分为三类，\n" +
                "一，有限的确定性算法，这类算法在有限的一段时间内终止。他们可能要花很长时间来执行指定的任务，但仍将在一定的时间内终止。这类算法得出的结果常取决于输入值。\n" +
                "二，有限的非确定算法，这类算法在有限的时间内终止。然而，对于一个（或一些）给定的数值，算法的结果并不是唯一的或确定的。\n" +
                "三，无限的算法，是那些由于没有定义终止定义条件，或定义的条件无法由输入的数据满足而不终止运行的算法。通常，无限算法的产生是由于未能确定的定义终止条件。";
        System.out.println(HanLP.extractSummary(document, 3));
}

//短语提取
	private static void test9(){
        String text1 = "算法工程师\n" +
                "算法（Algorithm）是一系列解决问题的清晰指令，也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n" +
                "算法工程师逐渐往人工智能方向发展。";
		System.out.println(HanLP.extractPhrase(text1, 5));
}

//汉字转拼音
	private static void test10(){
		String text = "好好学习，天天向上！";
        List<Pinyin> pinyinList = HanLP.convertToPinyinList(text);
        
        //拼音（数字音调）
        for (Pinyin pinyin : pinyinList) {
            System.out.printf("%s,", pinyin);
        }
        System.out.println();
        
        //拼音（符号音调）
        for (Pinyin pinyin : pinyinList) {
            System.out.printf("%s,", pinyin.getPinyinWithToneMark());
        }
        System.out.println();
        
        //拼音（无音调）
        for (Pinyin pinyin : pinyinList) {
            System.out.printf("%s,", pinyin.getPinyinWithoutTone());
        }
        System.out.println();
        
        //声调
        for (Pinyin pinyin : pinyinList) {
            System.out.printf("%s,", pinyin.getTone());
        }
        System.out.println();

        //声母
        for (Pinyin pinyin : pinyinList) {
            System.out.printf("%s,", pinyin.getShengmu());
        }
        System.out.println();

        //韵母
        for (Pinyin pinyin : pinyinList) {
            System.out.printf("%s,", pinyin.getYunmu());
        }
}

//简繁转换
	private static void test11(){
        System.out.println(HanLP.convertToTraditionalChinese("用笔记本电脑写程序"));
        System.out.println(HanLP.convertToSimplifiedChinese("「以後等妳當上皇后，就能買士多啤梨慶祝了」"));
}

//文本推荐
private static void test12(){
	Suggester suggester = new Suggester();
	String text = "威廉王子发表演说 呼吁保护野生动物，《时代》年度人物最终入围名单出炉 普京马云入选，“黑格比”横扫菲：菲吸取“海燕”经验及早疏散，日本保密法将正式生效 日媒指其损害国民知情权，英报告说空气污染带来“公共健康危机，明天我要拿刀砍死这个王八";
	String[] arr = text.split("[。？！，；]");
	for(String s : arr){
		suggester.addSentence(s);
		System.out.println(s);
	}

	System.out.println(suggester.suggest("发言", 1));       //语义
	System.out.println(suggester.suggest("危机公共", 1));   //字符
	System.out.println(suggester.suggest("mayun", 1));      //拼音
	System.out.println(suggester.suggest("扬言", 1));	//扬言
}

分享到：

使用百度API识别图片文字 | org.apache.commons常用类的使用

2018-09-16 23:06
浏览 3114
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HanLP自然语言处理包的使用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HanLP自然语言处理包的使用

评论

发表评论

相关推荐

keytool的使用

Bitset数据结构的使用

Disruptor：高性能低延迟的内存有界队列框架

java的类加载机制

ThreadLocal的使用范例

反射工具包Reflections的使用

使用CGLIB对实现类进行动态代理

基于JDK动态代理实现Mybatis的Mapper功能

Java8新特性

使用百度API识别图片文字

org.apache.commons常用类的使用

图片转换为单色

Java事件机制范例

编程方式的quartz2例子

数字证书格式

Drools6使用范例

生成带logo的二维码图片

用HttpClient访问CXF的RESTful接口

commons-configuration使用范例

Websocket的使用范例

最近访客更多访客>>