给你一段文字,让你检测它是什么语言?有两个开源的项目可以使用。一个是Apache Tika,一个是language-detection。language-detection是google Code上开源的一个语言检测软件包,不折不扣的日货,但使用起来非常方便,其project链接如下:http://code.google.com/p/language-detection。基本上,你只需要引用langdetect.jar和其依赖的jsonic-1.3.0.jar(也是日货)即可,下面是一个简单的例子。
新建一个Java工程,将上述两个jar包引入工程,新建一个测试类,如下:
import java.net.URISyntaxException;
import com.cybozu.labs.langdetect.*;
/**
* @author XXX
*
*/
public class LangTest
{
/**
* @param args
*/
public static void main(String[] args)
{
try
{
DetectorFactory.loadProfile(Thread.currentThread().getContextClassLoader().getResource("lang").getPath());
} catch (LangDetectException e)
{
e.printStackTrace();
}
Detector detect;
try
{
detect = DetectorFactory.create();
detect.append("我靠a靠靠靠a");
System.out.println(detect.detect());
} catch (LangDetectException e)
{
e.printStackTrace();
}
}
}
这段文字的检测结果是zh-cn,很简单。
language-detection基本的初始化工作都由DetectorFactory完成。检测前,需要先载入语言包(其实就是各个语言的样本,可以自行添加)。语言包最初是通过addProfile方法加入,其方法原型是addProfile(LangProfile profile, int index, int langsize),你可以构建自己的词汇表,然后通过addProfile方法添加。也可以使用loadProfile方法,把一个目录下的所有语言文件(按照要求的格式,下载的jar包有样例)一次性载入。后面就很简单了,通过DetectorFactory创建一个Detector,append需要检测的文字,detect一下,就返回语言类别,收工。
测试代码参看附件.
分享到:
相关推荐
**语言检测工具language-detection** 是一款由Google开发的用于自动识别文本语言的工具,其在2014年3月3日发布的版本对短文本的识别能力进行了显著提升,尤其针对长度在10到20个字符之间的文本,提高了识别的准确性...
【前端项目-i18next-browser-languagedetector】是一个专为浏览器环境设计的国际化(i18n)语言检测工具。它与流行的i18next库配合使用,能够自动识别用户浏览器的语言设置,从而为用户提供更加本地化的前端体验。 ...
在数字化时代,语言检测系统已成为各种应用场景的关键工具,如社交媒体监控、在线教育平台、多语种聊天机器人等。本篇文章将深入探讨一个基于前端技术的语言检测系统的实现,主要关注HTML、CSS、Bootstrap和...
在这个项目中,我们关注的是一个用 C 语言实现的自然语言检测工具,它能够在多个预设的语言语料库上进行训练,以识别输入文本属于哪种语言。下面我们将深入探讨这个项目的细节以及其相关技术。 首先,我们要理解 ...
总的来说,"Language Detection-crx插件"是一个强大的文本语言识别工具,它利用先进的算法技术,为用户提供了高效、准确的语言检测服务,尤其在处理多语言环境下的信息处理时,能够显著提高工作效率和准确性。...
本压缩包"Language Detection Library for Java.zip"包含了一个Java实现的语言检测库,可能包括源代码、示例、文档和其他相关资源。 这个库的核心功能是能够自动识别一段文本是用哪种语言书写的。它可能采用了统计...
总之,i18next-node-language-detector 是一个用于 Node.js 的高效语言检测工具,它使得 i18next 能够自动识别用户的语言环境,从而提供更加个性化的多语言体验。通过结合不同的检测策略和自定义配置,你可以轻松地...
“系统开源”这一标签表明了这个编程语言检测工具或框架是开放源代码的,这意味着开发者可以查看其内部实现,学习如何进行语言识别,甚至可以根据自己的需求进行定制和扩展。开源社区通常会提供详细的文档、示例代码...
"American-Sign-Language-Detection"项目是一个专门针对这一领域的端到端解决方案,旨在实现对美国手语的实时检测和识别。 【深度学习模型】 该项目的核心是深度学习模型,它被训练来识别人手执行的各种ASL手势。...
of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)...
.NET框架的工作原理包含将源代码编译成中间语言IL(中间语言,Microsoft Intermediate Language),然后在运行时CLR(公共语言运行时)将IL编译成本地代码的过程。支持的语言包括但不限于C#、F#、C++/CLI、...
《使用Crystal语言构建文本语言检测工具——以language_detector为例》 在信息技术日益发达的今天,文本处理成为了一个不可或缺的部分,而其中一项基础任务就是文本语言的自动检测。在这个领域,`language_detector...
语言检测器 这个golang库提供了基于文本分析和识别语言的功能。 该实现基于以下文件: 基于N-Gram的文本分类威廉·B·卡夫纳(William B.Cavnar)和约翰·特伦克(John M.Trenkle) 密歇根州环境研究所邮政信箱...
至于压缩包子文件的文件名称列表,"CodAI-Programming-language-detection-AI.pdf"可能是项目介绍或技术文档,包含了关于CodAI系统的详细说明和理论基础;而"CodAI.zip"则可能包含了项目的源代码、数据集、预训练...
这个名为"double-click-detection-wpf"的应用程序是C#开发者们的一个实用工具,它展示了事件处理和多媒体集成在WPF中的应用。 首先,我们要了解WPF是什么。WPF是.NET Framework的一部分,用于构建桌面应用程序,...
Python作为目前最流行的编程语言之一,拥有强大的NLP库,如NLTK(Natural Language Toolkit)、spaCy和TextBlob等,这些工具可以帮助我们处理文本数据,理解语义,识别潜在的幽默元素。在这个项目中,我们将重点探讨...
在压缩包文件名"Depression-detection-main"中,"main"常常用来表示项目的主要代码仓库或根目录,这可能包含项目的源代码、数据集、模型训练脚本、配置文件等关键组成部分。用户可能需要解压这个文件,然后通过编程...
《Emacs次要模式guess-language.el:智能语言检测与拼写检查》 在计算机文本编辑领域,Emacs是一款深受程序员和文字工作者喜爱的高级文本编辑器。它的强大在于其丰富的扩展功能,而`guess-language.el`就是这样一个...
此外,`nltk`(自然语言工具包)也是一个强大的资源,它包含了多种语言检测工具和算法,如Viterbi算法,可以用于识别文本的语言。 在这个项目中,可能的流程包括: 1. 数据预处理:清洗文本,去除标点符号、数字和...