Java分布式中文分词组件word分词v1.3发布

1顶
0踩

2015-08-31 13:47 by 正式记者 yangshangchuan 评论(0) 有5420人浏览

中文分词分词分词算法 java word

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法，还提供了10种文本相似度算法，同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

word1.3新增了大量功能，如：词频统计、refine、词性标注、同义标注、反义标注、拼音标注等，同时，新增了10种文本相似度算法，还新增了两种分词算法：最大Ngram分值算法和最少词数算法，分词速度也有了很大提升，还有很多其他的大大小小的优化，最后还支持当前最新的lucene5.2.1、solr5.2.1和elasticsearch2.0.0-beta1。

更多细节请查看：word分词主页

word分词的分词效果怎么样？请看：Java开源项目cws_evaluation：中文分词器分词效果评估

来自: github

分享到：

1
顶

0
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Json学习总结（7）——JSON为什么是数据交换格式的首选

一、XML 在讲JSON之前，我觉得有必要先带大家了解一下XML（Extensible Markup Language 可扩展标记语言），因为JSON正在慢慢取代XML。 1、XML起源早期Web发展和负载的数据量并不是很大，所以基本靠HTML（1989...

Android编程之ListView和EditText发布帖子隐藏软键盘功能详解

本文实例讲述了Android编程之ListView和EditText发布帖子隐藏软键盘功能。分享给大家供大家参考，具体如下：在Android开发中，手动调用软件盘的隐藏和显示有时候也是非常常见的需求。 EditText控件实现了点击打开软...

为什么某些Windows文件和文件夹名称前面有一个点？

SuperUser reader Niko Bellic wants to know why some Windows file and folder names have a dot in front of them: 超级用户阅读器Niko Bellic想知道为什么某些Windows文件和文件夹名称前面带有一个点：...

Linux系统隐藏鼠标指针,如何在Linux / X11下隐藏鼠标指针？

这个技巧被maemo使用，因为在触摸屏设备上有一个游标是没有意义的。不幸的是，在运行时改变全局光标主题的能力在X11应用程序和工具包中是不统一的。您可以更改服务器资源Xcursor.theme ，没有人会注意到(通常只在...

什么是枚举，为什么有用？

今天，我浏览了该站点上的一些问题，发现提到了一个单例模式中使用的enum ，该enum声称该解决方案具有线程安全性。我从未使用过enum并且我使用Java编程已经有两年多了。显然，他们

市场上十块钱买一个随身WiFi使用技术手段，插卡流量不限速不限量？

前几天在逛某论坛，发现有人在薅随身WiFi，而随身WiFi竟然是安卓系统，能进系统界面。跟风买了一个来折腾。

php怎样隐藏源代码,Apache服务器怎样设置，可以隐藏html源代码内容？

http://docs.php.net/manual/zh/intro-whatis.php甚至可以将 web 服务器设置成让 PHP 来处理所有的 HTML 文件，这么一来，用户就无法得知服务端到底做了什么。问题：1.HTML上面代码。浏览器可以查看到html源代码。...

区块链到底是个什么鬼？一幅漫画让你秒懂！

区块链开阔了我们的视野与思考逻辑。区块链的广泛应用会让无数学习者和创新者夯实通往区块链的条条大路。我们也许难预测区块链社会的未来支撑点，但它... 区块链是一个由不同节点共同参与的分布式数据库系统，是开...

php 两个提交页面,同一个PHP页面可以同时有提交和获取数据的动作吗？

//简单输出内容}?>//我又在下面弄了一个提交回复框这个提交的代码是最上面那一段代码提交回复讨论(解决方案)错误提示这个 Undefined index: title in D:\wamp\www\contentpage.php on line 26就是$title=$_GET['...

测试老鸟丨告诉你一个项目完整的测试流程究竟是怎样的？

最近在网上看到好多朋友问我项目的测试流程，回答了他们之后我也打算写一篇管这类测试流程的文章供大家参考一番，如果有不同意见也欢迎提出来。闲话不多说，我们往下看便是。

Promise难懂？一篇文章让你轻松驾驭

前端js学习中，让大家最难受的就是异步的问题，解决异步、回调地狱等问题时你必须得学会promise，对于多数前端程序员来说promise简直就是噩梦，本篇文章就是从通俗易懂的角度做为切入点，帮助大家轻松掌握promise。

java窗口只能点一个_java 怎么解决点击一次打开一个我只想开一个窗口！！...

该楼层疑似违规已被系统折叠隐藏此楼查看此楼问题很多啊！首先是命名规范的问题。你们的JAVA都是自学的？你们老师就没告诉过你们用汉语拼音来命名是大忌？Quanpingxianshi Kd Cd An，这种名字一看就让人反胃，含义...

比起35岁程序员，无知犯错的年轻一代是否更应该被原谅？

程序员犯了一个无知的错误，应该被原谅吗？近期，这个话题被广泛讨论。而引起这个话题的原因便是 PlanetScale 犯的一个“小错误”。 1 学会数据库索引技术原理，需要花费 5000 美元软件工程师 Brian Anglin ...

windows 切换命令行_如何使用命令行切换显示或隐藏Windows隐藏文件？

今天的“问答”环节由SuperUser提供，它是Stack Exchange的一个分支，该社区是由社区驱动的Q＆A网站分组。问题 (The Question) SuperUser reader RogUE wants to know how to show or hide Windows hidden files ...

系统错误null是什么意思_为什么NULL是错误的？

系统错误null是什么意思 Java中NULL用法的简单示例： public Employee getByName(String name) { int id = database.find(name); if (id == 0) { return null; } return new Employee(id); } 这种方法有什么...

隐藏wordpress后台_如何在WordPress中从首页隐藏帖子

隐藏wordpress后台Have you ever wanted to hide a blog post from your WordPress homepage or blog archive page? 您是否曾经想从WordPress主页或博客存档页面隐藏博客文章？ While you can make WordPress ...

点击之后新开一个页面html,a标签是否新开一个页面的问题各大网站的打开情况整理a...

a标签新窗口打开页面如何设置这个有好几个方法： 1，我要跳转去别的地方2，用JS，onclick方法 ①onclick="javascript:window.location.href='URL'" ②onclick="location='URL'" ③onclick="window.location.href='...

radio按扭设置只读_关于html：为什么单选按钮不能为“只读”？

我想显示一个单选按钮，提交其值，但根据情况，使其不可编辑。禁用不起作用，因为它不提交值(或者是？)，并且它使单选按钮变灰。只读确实是我想要的，但是由于某些神秘的原因，它不起作用。是否需要一些怪异的技巧...

基于三菱PLC和触摸屏的停车场智能管理系统设计与实现

内容概要：本文详细介绍了基于三菱PLC和三菱触摸屏构建的停车场智能管理系统。系统分为入口、出口和管理中心三大部分，分别负责车辆身份识别、车位检测、道闸控制、缴费结算等功能。三菱PLC作为核心控制器，通过梯形图编程实现了车辆检测、道闸控制等关键逻辑；三菱触摸屏提供人机交互界面，支持参数设置、状态监控等功能。文中还讨论了PLC与触摸屏之间的通信配置，以及如何通过物联网技术将系统接入云端。适合人群：从事智能交通系统开发的技术人员，尤其是熟悉三菱PLC编程和触摸屏应用的工程师。使用场景及目标：适用于新建或改造停车场项目，旨在提高停车场管理效率和服务质量，减少人工干预，实现智能化运营。其他说明：文中提供了具体的硬件配置建议、PLC编程实例、触摸屏界面设计指南及通信协议解析，有助于读者快速理解和实施类似项目。

1顶0踩