`
guojinhua
  • 浏览: 13625 次
  • 性别: Icon_minigender_2
  • 来自: 沈阳
最近访客 更多访客>>
社区版块
存档分类
最新评论

关于博客聚类

阅读更多
    虽然现在存在大量传统的web文档聚类方法,但它们的设计并没有考虑博客自身的特征。相对于普通的web文档来说,每位博主的博客是按照时间逆序排列的,在他们编辑博客的过程中,可以对博客内容进行自由地编辑、加标签以及自定义分类。来访的用户也可以对文章加以评论。如果将博客自身的特点考虑进来,我们也许会得到更好的聚类效果。
    最近一阶段正在搞得课题就是博客聚类,只是搜遍了全网,找到的所有关于博客聚类的文章还不足10篇,而且也都是只是泛泛的讲,不知道这里有没有研究博客聚类的,想跟大家探讨一下,如果不对博客正文进行分词,也不计算词频,只是利用博客的标签,分类和圈子信息来聚类,聚类效果会不会好呢
分享到:
评论
3 楼 guojinhua 2009-07-02  
harry 写道
我觉得要是能用nlp的方式处理,效果是最好的

用nlp的方式效果可能会好点,不过要考虑到应用背景的话,可以更好的利用博客的特点来减少nlp处理方式带来的缺点。
2 楼 harry 2009-07-02  
我觉得要是能用nlp的方式处理,效果是最好的
1 楼 sku 2009-03-19  
我感觉这样的话,不如做社会网络分析了,根据sth. in common来发现社区,更有挑战性

相关推荐

    聚类篇——(四)有序样品聚类_ziyin_2013的博客-CSDN博客_有序样品聚类.html

    聚类篇——(四)有序样品聚类_ziyin_2013的博客-CSDN博客_有序样品聚类.html

    基于python的博客分层聚类研究与分析.pdf

    本文针对这一挑战,提出了基于Python语言实现的分层聚类算法,来对博客进行有效的文本聚类分析。 首先,需要了解聚类分析是统计学中用来研究“物以类聚”现象的一种多元统计方法,属于无监督学习的范畴。聚类分析的...

    基于python的博客分层聚类研究与分析.zip

    在本项目"基于python的博客分层聚类研究与分析"中,我们将深入探讨如何利用Python编程语言进行数据预处理、特征提取以及层次聚类算法的应用,以对博客内容进行有效的分类和理解。这一研究对于大数据分析、信息组织...

    博客中用于k-means聚类数据集R3.txt

    博客中用于k-means聚类数据集R3.txt

    用于聚类分析的人工合成数据集.zip

    此外,提到的“效果图参看置顶博客”,这表明作者可能已经在某个博客平台(如CSDN)上分享了使用该数据集进行聚类分析的示例和结果。查看这些示例有助于你了解如何解读聚类结果,以及在不同聚类算法下的表现差异。 ...

    k-means对一维数组进行聚类的代码,适合初学者

    关于k-means聚类的原理可以参考这篇博客: https://blog.csdn.net/sinat_36710456/article/details/88019323 本篇只讨论基本的代码实现,由于只是对一维数组的聚类,距离公式上比较简单:distance = |a – b| 适合...

    模糊聚类算法(FCM)和硬聚类算法(HCM)的VB6.0实现及其应用[模糊聚类算法(FCM)和硬聚类算法(HCM)的VB6_0实现及其应用 - 枕善居VB_NET源码博客]-精品源代码

    模糊聚类算法(FCM)和硬聚类算法(HCM)的VB6.0实现及其应用[模糊聚类算法(FCM)和硬聚类算法(HCM)的VB6_0实现及其应用 - 枕善居VB_NET源码博客]-精品源代码

    Python聚类分析应用(干货)(基于Python的聚类分析及其应用_庄怡雯.pdf)

    文章提到的博客数据集聚类应用,展示了如何将k-means算法应用于实际数据集,分析实验的聚类结果,从而验证算法的有效性。实验结果的详细分析包括了聚类后各簇的数据分布情况、簇内对象的相似性、簇间的差异性等,有...

    基于python实现DBSCAN聚类算法详细代码

    DBSCAN 聚类,是一种基于密度的聚类算法,它类似于均值漂移,...作者博客中详细介绍了DBSCAN的算法原理,可以通过文章结合学习,代码包含详细注释,只需要导入自己的聚类数据,运行代码便可以得出聚类结论与图像。

    LHY.rar_文本 聚类_文本聚类

    这个"LHY.rar_文本聚类_文本聚类"压缩包包含的是一个关于文本聚类的项目,可能是一个学生在统计课程中的大作业。通过这个项目,我们可以探讨和学习几个关键的文本分析和聚类技术。 首先,提到的"MyPSO.rar"可能是指...

    机器学习(聚类七)——层次聚类的优化算法

    上篇博客介绍的层次聚类,尤其是AGNES这一传统的层次聚类算法。这篇博客介绍层次聚类的优化算法。 优化算法 BIRCH算法 BIRCH算法(平衡迭代削减聚类法):聚类特征使用3元组进行一个簇的相关信息,通过构建满足分枝...

    Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

    该资源主要参考我的博客: [python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像 http://blog.csdn.net/eastmount/article/details/50545937 包括输入文档txt,共1000行数据,每行都是分词完的文本。 本文...

    WEB文本挖掘的聚类分析.pdf

    Web文本挖掘则更进一步,它涉及到从网页、博客、论坛等Web资源中抽取、解析、理解以及利用信息。这个过程通常包括预处理(如去除噪声、词干提取、停用词过滤)、特征选择、模式识别和后处理等步骤。 聚类分析是一种...

    聚类算法的概要介绍与分析

    此外,技术博客、学术论文和开源社区也是获取聚类算法最新研究成果和应用案例的重要渠道。 项目源码 聚类算法的项目源码通常可以在GitHub等开源平台上找到。这些项目涵盖了各种聚类算法的实现,如K-means、DBSCAN、...

    【数据聚类】基于模拟退火算法实现数据聚类Matlab源码 .zip

    本文针对数据聚类分析和最优化问题的相似点,用模拟退火算法进行聚类分析.根据数据对象的特征,提出了基于模拟退火的产生函数和迭代方案.通过实例验证,表明该新算法能够有效地解决数据聚类分析问题. 运行效果见博客

    knn文本聚类小型数据集

    本数据集是用于文本聚类的中文文本数据,数据集不大属于小型数据集,主要是为了验证本人在博客上写的代码,拿到立马就可使用实现可参考本人的博客

    标签共现的标签聚类算法研究

    标签云是一种数据可视化技术,它将标签以不同大小的字体或颜色显示,以反映标签的重要性和使用频率,常用于博客和网站上。有序化组织则是指通过算法对标签进行排序,使其更加有序,便于用户检索和浏览。 最后,文章...

    基于欧氏距离的三维点云聚类

    此代码将点云按照欧氏距离进行聚类,在欧氏聚类中只要相邻点之间距离小于距离阈值则聚为一类。具体的原理讲解可参考博客:https://blog.csdn.net/qq_32867925/article/details/124955814?spm=1001.2014.3001.5502

Global site tag (gtag.js) - Google Analytics