`
yawl
  • 浏览: 60739 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

classifier算法优缺点

阅读更多
railsconf时,在oreilly展台见到一本'Programming Collective Intelligence'的书,其实是讲data mining的。比其他的教科书类书易懂的多。下面摘抄了一下有用的内容:

=knn=

+ new data can be added at any time--does not require any computation at all; the data is simply added to the set.

-  it requires all the trainning data to be present in order to make predictions. In a dataset with millions of examples, this is not just a space issue but also a time issue.

=svm=

+ after training they are very fast to classify new observations.

- black box technique. A SVM may give great answers, but you will never really know why.

- require retrainning if the data changes


=neural network=

+ allow incremental training and generally don't require a lot space to store the trained models.

- black box technique

=decision tree=

+ easy to interpret  trained model, brings important factors to the top of the tree.

-  Have to start from scartch each time (decision trees that support incremental training are an active area of research)

- tree can becomes extremely large and complex and would be slow to make classification.

=naive bayesian=



+ speed is good for training and querying, even with large data set

+ incremental

+ easy to interpret what the classifier has actually learned

- unable to deal with outcomes that change based on combinations of features.
分享到:
评论
4 楼 yawl 2008-11-07  
"SVM are some of the most accurate classifiers for text; no other kind of classifier has been known to outperform it across the board over a large number of document collections"

--Soumen Chakrabarti, 'Mining the web'
3 楼 coderplay 2008-11-06  
SVM有啥优点? 没整过, 只是知道算法是咋回事. 依算法描述来说它能找到几个类相隔的超平面, 找到对分类最有用的几个feature, 然后弄个核函数. 因此SVM对于高维数据分类来说很快,就算直接hash一样, 是不是?
2 楼 yawl 2008-10-31  
我现在在做sentiment analysis的,看这方面的paper大多以用SVM为主,倒不太常见提到knn做比较,可能和主要和分类的time-cost有关吧.
1 楼 coderplay 2008-10-27  
有conf参加真好! 果然通俗易懂.
kNN还有一点没提到,它是隋性的, 也就是说训练是在分类时做的. 训练时间为0, 分类的time-cost就大了些, 不过在文本分类中它是准确度最高的. 而且它几乎是机器学习中最简单的算法.

相关推荐

    机器学习算法优缺点改进总结.pdf

    机器学习算法优缺点改进总结 机器学习算法是人工智能和数据科学中最重要的组成部分,涵盖了监督学习、无监督学习和半监督学习等多种类型。在机器学习算法中,了解每种算法的优缺点是非常重要的,因为这可以帮助我们...

    支持向量机等各种算法和模型的优点和缺点.docx

    了解这些算法的优缺点有助于选择合适的模型来解决特定问题,同时也提醒我们在实际应用中需要注意它们的局限性,并采取适当策略进行优化。例如,通过集成学习方法结合多种算法,可以克服单一模型的不足,提高整体预测...

    classifier tools for matlab

    这些算法各有优缺点,适用于不同的数据类型和问题场景,用户可以根据实际需求选择合适的分类模型。 1. **支持向量机(SVM)**:SVM是一种二分类和多分类方法,通过构造最大边距超平面来分离不同类别的数据。MATLAB...

    藏经阁-Text Classifier Algorithms in.pdf

    "Text Classifier Algorithms in Machine Learning" 文本分类是机器学习中的一大难题,广泛应用于检测垃圾邮件、新闻文章主题定义、多值...不同的算法有其优缺点,选择合适的算法需要考虑问题的具体要求和数据特点。

    支持向量机等各种算法和模型的优点和缺点.pdf

    支持向量机(SVM)、决策树、人工神经网络(ANN)、遗传算法、KNN算法和朴素贝叶斯是机器学习领域中常见的算法和模型,它们各有其独特的优点和...理解它们的优缺点有助于选择最合适的工具来解决特定的机器学习问题。

    Naive-Bayes-Classifier-master_naivebayes_

    朴素贝叶斯(Naive Bayes)是一种基于概率论的分类算法,因其简单高效而广泛应用于...在这个过程中,你还可以了解如何将朴素贝叶斯与其他分类算法(如决策树、随机森林等)进行比较,以了解其在不同场景下的优缺点。

    knn-classifier.gz_it_knn classifier_knn classifier data

    "knn-classifier.gz"这个文件可能包含了关于KNN算法的实现、应用或数据集。 KNN算法的核心思想是:对于一个新的未知样本,我们将其与训练集中已知类别的样本进行比较,找到与其最近的K个邻居,然后根据这K个邻居的...

    Naive Bayes Classifier_NavieBayes_naivebayes_

    **优缺点** 优点: 1. 计算效率高,适合大数据集。 2. 需要较少的训练数据。 3. 能处理多分类问题。 缺点: 1. 朴素假设可能不成立,可能导致性能下降。 2. 对于某些非高斯分布的特征,性能可能不佳。 3. 无法捕获...

    人工智能TSP、九宫图、bayes、BP神经网络算法

    在人工智能领域,TSP(旅行商问题)、九宫图、Bayes分类器和BP神经网络是...- 对比不同算法的优缺点和适用场景 通过对这些知识点的深入理解和实践,我们可以掌握人工智能的基本工具,为解决更复杂的实际问题奠定基础。

    Weka各类分类器的使用(Java)

    例如,使用朴素贝叶斯算法、决策树算法和ZeroR算法等。 三、使用LibSVM实现分类器 1. 首先,需要将LibSVM的jar包添加到项目的编译路径中。可以将libsvm.jar文件添加到项目的classpath中。 2. 然后,使用Java代码...

    文本分类MFC(含主流降维算法和分类算法)

    这些算法各有优缺点,适用于不同的场景。例如,信息增益和互信息适用于特征选择,而朴素贝叶斯和SVM则作为实际的分类器。在实际应用中,可能需要结合使用这些方法,例如先用降维算法处理特征,然后用分类算法进行...

    数据挖掘十大算法之Adaboost.ppt

    例如,Viola 和 Jones 在 2004 年提出的cascade classifier gerade method 使用 Adaboost 算法来检测人脸。该方法可以实时检测人脸,并且具有高准确率。 Adaboost 算法是一种有效的分类器集成方法,可以提高弱分类...

    决策树C45算法总结课件(PPT 4).pptx

    然而,它也存在缺点,如在构建树的过程中需要多次扫描和排序数据集,这可能导致算法效率较低,尤其是对于大数据集来说。 为了应对大数据集和内存限制,后续的研究提出了多种优化策略。例如,BOAT算法(Best-First ...

    机器学习算法关联规则贝叶斯SVM、ME、kmeans、knn

    这些算法在机器学习中各有其适用场景和优缺点。例如,SVM在小样本高维数据上表现优秀,而K-means对于大规模数据集可能效率较低。理解并选择合适的算法对于解决实际问题至关重要。Java作为流行的编程语言,提供了丰富...

    各种分类算法比较[借鉴].pdf

    以下是对几种常用分类算法的优缺点的详细分析: 1. **决策树(Decision Trees)** - **优点**: - 易于理解和解释,适合非专业人士理解。 - 数据预处理需求较低,能处理混合属性类型。 - 是一种白盒模型,易于...

    机器学习算法简介

    机器学习是人工智能的一个重要分支,它使计算机系统能够通过学习数据自动...以上介绍了机器学习中常用的10种算法,这些算法根据不同的应用场景和需求,各有优缺点,因此在实际应用中需要根据具体问题选择最合适的算法。

    kNN-Classifier:kNN 机器学习算法的实现

    三、kNN的优缺点 优点: 1. 算法简单,易于理解。 2. 不需要做任何假设关于数据分布。 3. 能处理多分类问题。 缺点: 1. 计算复杂度高,尤其是样本量大时。 2. 对异常值敏感。 3. 需要存储所有训练样本,占用大量...

    决策树C45算法总结.pptx

    此外,还有针对二级存储设备设计的算法,如SLIQ(Scalable Linear-time Query Classifier)和SPRINT(Scalable Parallel Classifier)。这些算法旨在处理无法一次性加载到内存中的大数据集,通过并行计算和高效的...

    KNN-classifier_cattle7w5_machinelearning_

    KNN模型的优缺点明显。优点在于其简单直观,无需训练过程,适用于小规模数据集。但缺点同样突出,如计算复杂度高,对大数据集处理效率低,且对异常值敏感。在实际应用中,常常需要结合其他技术,如降维(PCA)、特征...

    svm(支持向量机)与nbc(朴素贝叶斯)算法比较

    支持向量机(SVM,Support Vector Machine)与朴素贝叶斯(NBC,Naive Bayes Classifier)是两种广泛应用于机器学习领域的分类算法。它们在处理数据和模型构建上有着不同的理论基础和特点,适用于不同的场景。 SVM...

Global site tag (gtag.js) - Google Analytics