`

HanLP 自然语言处理 for nodejs

 
阅读更多

 

·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)

 

环境要求

java 1.8

nodejs >= 6

 

docker

 

·build image

cd node-hanlp

./scripts/build-docker-image.sh

 

Or pull image

docker pull samurais/hanlp-api:1.0.0

·  start container

docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0

·access service

POST /tokenizer HTTP/1.1

Host: localhost:3002

Content-Type: application/json

 

{

"type": "nlp",

"content": "刘德华和张学友创作了很多流行歌曲"

}

 

RESPONSE

{

  "status": "success",

  "data": [

    {

      "word": "刘德华",

      "nature": "nr",

      "offset": 0

    },

    {

      "word": "和",

      "nature": "cc",

      "offset": 0

    },

    {

      "word": "张学友",

      "nature": "nr",

      "offset": 0

    },

    {

      "word": "创作",

      "nature": "v",

      "offset": 0

    },

    {

      "word": "了",

      "nature": "ule",

      "offset": 0

    },

    {

      "word": "很多",

      "nature": "m",

      "offset": 0

    },

    {

      "word": "流行歌曲",

      "nature": "n",

      "offset": 0

    }

  ]

}

·Other APIs

 

<!--[if !supportLists]--><!--[endif]-->tokenizer 分词

<!--[if !supportLists]--><!--[endif]-->keyword 关键词

<!--[if !supportLists]--><!--[endif]-->summary 摘要

<!--[if !supportLists]--><!--[endif]-->phrase 短语提取

<!--[if !supportLists]--><!--[endif]-->query 关键词、摘要

<!--[if !supportLists]--><!--[endif]-->conversion 简、繁、拼音转换

 

源码

node module

 

·Install

npm install node-hanlp

·Config

 

<!--[if !supportLists]-->² <!--[endif]-->配置文件路径 node_modules/node-hanlp/lib/src-java/hanLP.proerties

<!--[if !supportLists]-->² <!--[endif]-->请修改root为您的目录路径

<!--[if !supportLists]-->² <!--[endif]-->词典文件目录 ./data

<!--[if !supportLists]-->² <!--[endif]-->请下载词典  pan.baidu.com/s/1pKUVNYF 放入 ./data (约800MB文件) 目录下

 

·Usage

const Hanlp = require("node-hanlp");

//分词库初始化及配置

const HanLP = new Hanlp({

CustomDict : true, //使用自定义词典

NameRecognize : true, //中国人名识别

TranslatedNameRecognize : true , //音译人名识别

JapaneseNameRecognize : true, //日本人名识别

PlaceRecognize : true , //地名识别

OrgRecognize : true //机构名识别

});

let words = HanLP.Tokenizer("商品和服务");

 

标准分词 HanLP.Tokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.Tokenizer("商品和服务");

 

[

  { word: '商品', nature: 'n', offset: 0 },

  { word: '和', nature: 'cc', offset: 0 },

  { word: '服务', nature: 'vn', offset: 0 }

]

NLP分词 HanLP.NLPTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.NLPTokenizer("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");

 

[

  { word: '中国科学院计算技术研究所', nature: 'nt', offset: 0 },

  { word: '的', nature: 'ude1', offset: 0 },

  { word: '宗成庆', nature: 'nr', offset: 0 },

  { word: '教授', nature: 'nnt', offset: 0 },

  ...

]

索引分词 HanLP.IndexTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.IndexTokenizer("主副食品");

 

[

  { word: '主副食品', nature: 'n', offset: 0 },

  { word: '主副食', nature: 'j', offset: 0 },

  { word: '副食', nature: 'n', offset: 1 },

  { word: '副食品', nature: 'n', offset: 1 },

  { word: '食品', nature: 'n', offset: 2 }

]

CRF分词 HanLP.CRFTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.CRFTokenizer("你好,欢迎使用HanLP汉语处理包!");

 

[

  { word: '你好', nature: 'vl', offset: 0 },

  { word: ',', nature: 'w', offset: 0 },

  { word: '欢迎', nature: 'v', offset: 0 },

  { word: '使用', nature: 'v', offset: 0 },

  { word: 'HanLP', nature: 'nz', offset: 0 },

  { word: '汉语', nature: 'gi', offset: 0 },

  ...

]

去除停用词分词 HanLP.NoStopWord( text )

@param String text [文本]

@ruten Object

let words = HanLP.NoStopWord("你好,欢迎使用HanLP汉语处理包!");

 

[

  { word: '你好', nature: 'vl', offset: 0 },

  { word: '欢迎', nature: 'v', offset: 0 },

  { word: '使用', nature: 'v', offset: 0 },

  { word: 'HanLP', nature: 'nz', offset: 0 },

  { word: '汉语', nature: 'gi', offset: 0 },

  ...

]

最短路分词 HanLP.ShortSegment( text )

@param String text [文本]

@ruten Object

let words = HanLP.ShortSegment("今天,liuzhijun案的关键人物,山西女商人dingshumiao在市二中院出庭受审。");

 

[

  { word: '今天', nature: 't', offset: 0 },

  { word: ',', nature: 'w', offset: 0 },

  { word: 'liushijun', nature: 'nr', offset: 0 },

  { word: '案', nature: 'ng', offset: 0 },

  { word: '的', nature: 'ude1', offset: 0 },

  { word: '关键', nature: 'n', offset: 0 },

  ...

]

N-最短分词 HanLP.NShortSegment( text )

@param String text [文本]

@ruten Object

let words = HanLP.NShortSegment("刘喜杰石国祥会见吴亚琴先进事迹报告团成员");

 

[

  { word: '刘喜杰', nature: 'nr', offset: 0 },

  { word: '石国祥', nature: 'nr', offset: 0 },

  { word: '会见', nature: 'v', offset: 0 },

  { word: '吴亚琴', nature: 'nr', offset: 0 },

  { word: '先进', nature: 'a', offset: 0 },

  ...

]

极速词典分词 HanLP.SpeedTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.SpeedTokenizer("江西鄱阳湖干枯,中国最大淡水湖变成大草原");

 

[

  { word: '江西', offset: 0 },

  { word: '鄱阳湖', offset: 2 },

  { word: '干枯', offset: 5 },

  { word: ',', offset: 7 },

  { word: '中国', offset: 8 },

]

关键词提取 HanLP.Keyword( text , nTop )

@param String text [文本]

@param Number nTop [关键词个数,默认5个]

@ruten Object

let words = HanLP.Keyword("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 3);

 

[ '中国', '最大', '淡水湖' ]

短语提取 HanLP.Phrase( text , nTop )

@param String text [文本]

@param Number nTop [短语个数,默认3个]

@ruten Object

let words = HanLP.Phrase("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 2 );

 

[ '中国最大', '变成草原' ]

提取文章摘要 HanLP.Summary( text , nTop )

@param String text [文本]

@param Number nTop [文章摘要条数,默认3条]

@ruten Object

let text = "据美国福克斯新闻报道,俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号,正在驶向美国军舰发射导弹攻击叙利亚的区域。该护卫舰是俄罗斯最先进的护卫舰,2016年才刚服役,除防空、反舰导弹外,也可以发射巡航导弹。格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港。"

 

let words = HanLP.Summary( text , 3);

 

[

  '俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号',

  '格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港',

  '正在驶向美国军舰发射导弹攻击叙利亚的区域'

]

文本推荐 HanLP.Suggester( list, words, Ntop )

 

@param Array list 句子列表

@param Array words 词语

@param Number nTop 相似句子推荐个数,默认1个

@ruten Object

 

句子级别,从一系列句子中挑出与输入句子最相似的那一个

语义距离 HanLP.WordDistance( words )

 

@param Array words

@ruten Object

简繁转换 HanLP.ConversionFont( text , type )

 

@param String text 文本

@ruten String type 类型 jt简体|ft繁体,默认jt

@ruten String

拼音转换 HanLP.Pinyin( text , type )

 

@param String text 文本

@ruten String type 类型 类型 num数字音调|tone符号音调|outtone无音调|shengmu声母|yunmu韵母|head输入法头,默认outtone

@ruten Object

分享到:
评论

相关推荐

    word源码java-node-hanlp:用于nodejs的HanLP

    自然语言处理 for nodejs 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,...

    nodejs + mysql 事务处理问题

    nodejs + mysql 事物处理问题 呵呵 看了就知道 记得npm install啊 需要的东西啊 本想免费 苦于没积分 ,需要的的同学,给点分吧

    NodeNLPExp:NodeJS自然语言处理实验

    NodeNLPExp NodeJS自然语言处理实验

    NodeJS开发指南_nodejs开发指南_

    NodeJS的核心是事件驱动、非阻塞I/O模型,这使得它在处理高并发请求时表现优秀。其单线程执行和异步编程的特点,让开发者能够构建高效的网络应用程序。 1. 安装与环境配置:NodeJS的安装过程相对简单,可以在官网...

    NodeJS学习笔记和代码

    1. **事件驱动模型**:NodeJS的核心特性之一是其事件驱动非阻塞I/O模型,这使得NodeJS在处理大量并发连接时表现优秀。 2. **模块系统**:NodeJS使用CommonJS模块规范,通过`require`引入模块,`exports`或`module....

    NodeJS整理手册文档

    事件驱动模型是NodeJS的核心,通过事件循环机制处理并发请求,提高了性能。而非阻塞I/O则利用异步编程,避免了程序在等待I/O操作完成时的阻塞,提升了系统的响应速度。 二、NodeJS核心模块 1. 文件系统(fs):...

    nodejs.pdf nodejs初级教程 nodejs初级教程

    nodejs初级教程

    nodejs14.9.0

    nodejs14.9.0

    nodejs:NodeJS示例项目

    节点js NodeJS示例项目

    NodeJS 安装包

    NodeJS 的设计思想是事件驱动、非阻塞 I/O 模型,这使得它在处理高并发请求时表现出色,特别适合构建实时的、可伸缩的网络应用。 标题中提到的 "NodeJS 安装包" 指的是 NodeJS 的安装程序,用于在用户的计算机上...

    NodeJS中文文档精编.pdf 全文免费

    这使得 NodeJS 能够轻松地处理高并发请求。 NodeJS 的优点是可以让 JS 代码在服务器端中执行,可以使用所有的 JS 内建对象,如 String、Number、Boolean、Math、Date、RegExp、Function、Object、Array 等。另外,...

    NodeJS示例

    NodeJS 具有非阻塞 I/O、事件驱动的特性,使得它在处理高并发请求时表现出色。它还拥有丰富的生态系统,包括 npm(Node Package Manager),提供了大量的第三方模块,可以方便地扩展功能。在实际开发中,NodeJS 常...

    nodejs图片合成源代码,gm插件

    nodejs利用gm插件合成图片源码片段

    node-growl, 面向nodejs的growl通知系统.zip

    node-growl, 面向nodejs的growl通知系统 nodejs 我对Nodejs的支持,这基本上是我的 ruby 咆哮库的一个端口。 ubuntu/linux支持增加了对 @niftylettuce的支持。安装安装 Mac OS X ( 达尔文):安装 growlnotif

    nodejs 关于mysql模块 连接超时自动断开解决方法

    nodejs 关于mysql模块 连接超时自动断开解决方法,在这块遇到的坑,而且坑了很久才找到的,分享只为求分

    Nodejs基础知识

    Nodejs是javascript在服务器端的运行环境, Nodejs是采用谷歌浏览器的V8引擎,由C++语言编写的。本质上是一个javascript的运行环境。 Nodejs可以解析js代码,而且没有浏览器安全级别的限制。 Nodejs还提供了系统级别...

    nodeJS文档

    这些特性使得NodeJS非常适合处理大量的并发连接,而不会阻塞其他请求。 - **事件机制**:NodeJS采用了一种非阻塞I/O模型,这意味着它可以高效地处理大量并发连接。当一个I/O操作发起后,NodeJS会继续执行其他任务,...

    NodeJs技术经典文档

    资源名称:NodeJs技术经典文档资源目录:【】Node.js开发指南_中文正版【】nodejs开发指南pdf及源码及win安装程序【】nodejs手册中文【】NodeJs教程【】umav4simple【】七天学会NodeJS【】七天学会NodeJS【】深入浅...

    Idea 配置前端web nodejs项目

    Idea 配置前端 Web Nodejs 项目 Idea 配置前端 Web Nodejs 项目是指在 IntelliJ IDEA 集成开发环境中配置 Nodejs 项目的步骤。下面我们将详细讲解配置的步骤和相关知识点。 Idea 配置 Nodejs 项目 首先,我们需要...

    nodejs视频教程百度网盘

    nodejs视频教程,可以快速帮助你入门nodejs开发中,nodejs不错哦

Global site tag (gtag.js) - Google Analytics