`

机器学习常用工具

阅读更多

机器学习

Support Vector Machine

An implementation of Vapnik's Support Vector Machine
A Library for Support Vector Machines

Decision Tree

The "classic" decision-tree tool, developed by J. R. Quinlan Tutorial

Maximum Entropy

Yet Another Small MaxEnt Toolkit

Conditional Random Field

A simple, customizable, and open source implementation of Conditional Random Fields (CRFs) for segmenting/labeling sequential data

自然语言处理

综合

An organizational center for open source projects related to natural language processing
A suite of UNIX software tools to facilitate the construction and testing of statistical language models
A Java-based development package for academic use in information retrieval (IR) and text mining. Include many NLP tools
A suite of Java libraries for the linguistic analysis of human language, including
  • track mentions of entities (e.g. people or proteins);
  • link entity mentions to database entries;
  • uncover relations between entities and actions;
  • classify text passages by language, character encoding, genre, topic, or sentiment;
  • correct spelling with respect to a text collection;
  • cluster documents by implicit topic and discover significant trends over time; and
  • provide part-of-speech tagging and phrase chunking.
Open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics, with distributions for Windows, Mac OSX and Linux.
  • Advanced Natural Lange Object-oriented Processing Environment.包括一系列工具(特别c#的stanford parser)

分词

中科院的中文分词系统
A Java implementation of a CRF-based Chinese Word Segmenter

词性标注

A error-driven transformation-based tagger implemented by Eric Brill
A Java implementation of the log-linear part-of-speech taggers descriped by Kristina Toutanova, et.al.
A decision tree based tagger from the University of Stuttgart.
An HMM-based Java POS tagger from Birmingham U.

命名实体识别

A Java implementation of a Conditional Random Field sequence model, together with well-engineered features for Named Entity Recognition
Tools include statistical named-entity recognition, a heuristic sentence boundary detector, and a heuristic within-document coreference resolution engine. Java. GPL. By Bob Carpenter, Breck Baldwin and co.
SVM-based NP-chunker, also usable for POS tagging, NER, etc. C/C++ open source. Won CoNLL 2000 shared task. (Less automatic than a specialized POS tagger for an end user.)

Stemming

A process for removing the commoner morphological and inflexional endings from words in English by Martin Porter
A small string processing language designed for creating stemming algorithms for use in Information Retrieval.

句法分析

Java implementations of probabilistic natural language parsers, both highly optimized PCFG and dependency parsers, and a lexicalized PCFG parser.

文本挖掘

摘要

其他

加密

包括众多加密算法,RSA、DES、MD5、SHA等 Win32安装版

压缩

A Massively Spiffy Yet Delicately Unobtrusive Compression Library

日志

Creates and maintains open-source software related to the logging of application behavior and released at no charge to the public, including
注: log4cxx官方版本有内存泄漏问题

Unicode

A mature, widely used set of C/C++ and Java libraries providing Unicode and Globalization support for software applications

XML

A validating XML parser, including C and Java edition

多字符串匹配

  • AC in C# : Aho-Corasick string matching in C#

HTML Parser

  • Html Agility Pack , an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT. It is a .NET code library that allows you to parse "out of the web" HTML files.
  • Majestic-12 , an open source high-performance .NET C# module that was created to parse HTML for links, indexing and other purposes. 速度快,但不生成dom树

外部联接

分享到:
评论

相关推荐

    常用的机器学习工具混淆矩阵

    常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具...

    机器学习常用库

    本篇将详细介绍一个名为“机器学习常用库”的资源,其中包含了人脸识别和分类器等工具。 首先,我们关注的是“人脸识别”。在当今的数字世界,人脸识别技术广泛应用于安全系统、社交媒体、移动设备解锁等多个场景。...

    机器学习的常用数据集资源下载

    本文将探讨一些机器学习中常用的公开数据集资源,这些资源对于初学者和专业研究者来说都极其宝贵。以下是一些备受推崇的数据集,涵盖各种任务,如图像识别、自然语言处理、情感分析等。 1. **MNIST**:这是一个广泛...

    R语言在统计分析与机器学习中的应用指南

    内容概要:本文详细介绍了R语言作为统计分析和机器学习常用工具的应用。文章涵盖了官方资源、学习资源、常用包以及社区和支持等多个方面。首先推荐了R语言官网及其子站点CRAN为获取软件和包的主要来源。随后列出了...

    机器学习常用算法

    在机器学习领域,掌握一些常用的算法对于理解和应用数据科学至关重要。本资料主要涵盖了五种基本且广泛应用的机器学习算法:K近邻(KNN)、支持向量机(SVM)、线性回归、决策树以及随机森林和逻辑回归。这些算法在...

    机器学习常用方法

    在这个压缩包中,包含了多个机器学习算法的Python实现,这些算法是数据科学家和机器学习工程师日常工作中最常使用的工具。 首先,PCA(主成分分析)是一种降维技术,它通过线性变换将原始高维数据转换为一组各维度...

    机器学习期末复习题.pdf

    在机器学习中,概率分布是一种重要的数学工具。例如,二项式分布的共轭分布是Beta分布,多项式分布的共轭分布是Dirichlet分布。这两种分布都是机器学习中常用的概率分布。 朴素贝叶斯分类器 朴素贝叶斯分类器是一...

    机器学习课程课件

    机器学习常用的编程语言是Python,其中的库如NumPy、Pandas用于数据处理,Scikit-Learn提供丰富的机器学习算法,TensorFlow和PyTorch是深度学习的主流框架。了解如何使用这些工具能加速模型开发过程。 八、持续学习...

    隐私保护机器学习的密码学方法.pdf

    该文主要介绍了隐私保护机器学习中常用的密码学工具,如通用安全多方计算(SMPC)、隐私保护集合运算、同态加密(HE)等,并描述了它们在机器学习中的应用。 一、隐私保护机器学习的必要性 随着人工智能技术的发展...

    机器学习spider工具包

    "机器学习spider工具包"是一个专为机器学习爱好者和专业人士设计的软件包,它集成了多种常用的机器学习算法,并且这些算法都是用强大的数学计算软件MATLAB编写的。MATLAB以其丰富的数学函数库和直观的编程环境,使得...

    机器学习的一些常用算法

    在机器学习领域,掌握一些基础且实用的...同时,Python的`sklearn`库提供了丰富的工具,使得机器学习实践变得相对简单。在实践中,还可以结合其他技术如特征选择、交叉验证、集成学习等提高模型的准确性和泛化能力。

    机器学习工具包spider工具包

    它包含了一系列常用的机器学习算法,如支持向量机(SVM)、AdaBoost、Bagging、决策树以及贝叶斯方法,为研究者和工程师提供了一个方便的平台来实现和测试这些算法。** ### 1. 支持向量机(SVM) 支持向量机是一种...

    机器学习一些工具.zip

    在机器学习领域,工具的选择和使用对于模型的构建和优化至关重要。"机器学习一些工具.zip"这个压缩包可能包含了多种用于机器学习的软件、库和框架。这些工具可以帮助数据科学家和机器学习工程师进行数据预处理、特征...

    Matlab的机器学习四件套之四

    在机器学习领域,监督学习是一种基本的学习方式,其特点是利用带有标签的训练数据集来训练模型,然后使用模型对新的输入数据进行预测。监督学习技术主要分为分类和回归两种。分类技术用于预测离散的响应,比如判断...

    机器学习实战_机器学习_

    Python是目前机器学习领域最常用的编程语言,因此,本书很可能会以Python作为主要的实现工具,介绍如何利用Scikit-Learn、TensorFlow和Keras等库来搭建和训练模型。 总的来说,《机器学习实战》是一本面向实践者的...

    唐宇迪-机器学习-代码PPT

    编程语言如Python是机器学习的首选工具,常用的库有Scikit-learn、TensorFlow和PyTorch等。通过实际编写和运行代码,学生可以更直观地理解算法的工作原理,并能应用到实际项目中。这些代码示例可能会包括数据预处理...

    机器学习-01-一篇万字长文深入了解机器学习必备准备工作:基础知识学习、机器学习工具选择和Python工具包运用

    在进入机器学习的世界之前,了解必要的基础知识和选用合适的工具至关重要。这篇万字长文将带你逐步探索机器学习的准备工作,包括基础知识的学习、机器学习工具的选择以及Python工具包的应用。 首先,我们来谈谈机器...

    如何使用MATLAB进行机器学习

    在机器学习领域,MATLAB 是一个强大的工具,其统计和机器学习工具箱(Statistics and Machine Learning Toolbox)提供了丰富的算法和功能,使得数据科学家和工程师能够有效地进行数据分析和模型构建。以下我们将详细...

    唐宇迪-机器学习课程资料.rar

    首先,Python库代码是机器学习实践中的关键工具。Python以其简洁易读的语法和丰富的库支持,成为数据科学和机器学习领域首选的编程语言。资料中包含的四个Python库代码可能是Scikit-learn、TensorFlow、Keras或...

    邹博-机器学习全套课件及代码.zip

    本套课程涵盖了多种常用的机器学习算法,包括但不限于: 1. **线性回归**:用于连续值预测,理解变量间的关系。 2. **逻辑回归**:二分类问题,适用于预测事件发生的概率。 3. **决策树**:易于理解和解释,可用于...

Global site tag (gtag.js) - Google Analytics