最最最简单的URL聚类 - i'm beneo - ITeye博客

`

beneo

浏览: 55834 次
性别:
来自: 希伯來

最近访客更多访客>>

lzhfsailor

jin361612388

thinking

qq_25066957

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kalman03：顶坐拥4w女神而不倒！
深入理解EventBus的设计思想
beneo：大海lb 写道楼主，我想问下，就是在运行kmeans的时候那个 ...
一个基于Mahout与hadoop的聚类搭建
大海lb：楼主，我想问下，就是在运行kmeans的时候那个-c 如何指定 ...
一个基于Mahout与hadoop的聚类搭建
changchang：很好，收了~
RabbitVCS
chenchangqun11： 20岁技术就学这么好你是怎么学的？
看完后我沉默很久..所谓“优秀生”？..一篇转载，献给所有和我一样迷茫没有目标的人

最最最简单的URL聚类

博客分类：

文本挖掘

clustering mahout hadoop url http

阅读更多

我们要发现一个富文本中的http链接，发现一些群体行为，获取URL

第一步：提取http链接

使用 Jsoup 来做

        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link 就是链接
            println(link)
        }

第二步：提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki，apache，org，confluence，display，mahout

第三部：聚类
参考一个基于Mahout与hadoop的聚类搭建

不要分词了，因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面，就可以了

聚类是帮你发现群体行为，以及为了后续的文本挖掘做准备工作的

不要期望太多

分享到：

mahout vector 的产生方式 | 一个基于Mahout与hadoop的聚类搭建

2011-09-23 22:57
浏览 2615
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

实验楼中用ython进行聚类分析的实验指导: K-均值聚类是最常用和最简单的聚类算法之一。它通过迭代的方式来将数据集分割成K个簇。该算法的核心步骤包括： 1. **初始化**：首先选择K个初始质心。这通常可以通过随机选择数据集中的K个点或者使用更复杂的方法来...

论文研究-基于机器学习的异常URL检测方法研究 .pdf: 通过自编码器可以将高维特征映射到较低维空间，而K-means是一种聚类算法，可以进一步对特征进行聚类，提取更具代表性的特征。降维处理的优势在于减少特征数量，从而降低模型复杂度，缩短训练时间，并且可能提高...

阿里数据分析师试题分析: 此外，初始聚类中心的选择会影响最终的聚类结果，可能导致不同的局部最优解。 #### 三、SQL查询示例 **SQL查询**：根据题目要求，需要从表A中提取每个用户访问的第一个URL，并将其存储在一个新的表B中。 ```sql ...

kmeaningful:DSCI 524第16组-用于自动进行k均值聚类工作流的软件包: 最值得注意的是，有Scikit学习sklearn.cluster.KMeans和SciPy scipy.cluster.vq.kmeans实现。我们不是在尝试用kmeaningful ，而是要从头开始构建一个简单而轻便的实现。安装$ pip3 install --index-url ...

httpwebrequest: - **请求分类**：根据请求的特征（如URL、请求方法、响应时间、返回状态码等）进行聚类，识别出不同类型的请求模式，有助于优化网络性能或找出异常请求。 - **性能分析**：通过聚类可以发现哪些请求响应时间较长，...

数据挖掘分析面试题: 通过使用SQL的`GROUP BY`语句结合聚合函数`MIN`，可以有效地提取出每个用户最早的访问URL。这类操作不仅需要对SQL语法有充分的理解，还要求能够灵活运用各种聚合函数，以满足不同数据分析的需求。数据分析能力是...

RGBsegment.rar_联合开发网: 1. **阈值分割**：最简单的方法是设定一个固定或动态的阈值，使图像中的像素根据其RGB值被分配到前景和背景两类。 2. **基于色彩聚类的方法**：如K-means聚类，将像素分配到多个类别中，每个类别代表一种颜色或色调...

搜索引擎开发实践PPT: PPT可能涵盖了爬虫的设计原则，如深度优先与广度优先策略，以及如何处理网页的URL管理和反爬策略。 **2. 分类与聚类** 搜索引擎不仅需要收集网页，还要对它们进行分类和聚类，以便于理解和检索。分类是将网页分配到...

网络爬虫和搜索引擎的资料: 2. **聚类**：根据相似性将数据分成群组，用于市场细分或用户画像构建。 3. **关联规则**：发现不同项之间的频繁共现模式，如超市购物篮分析。 4. **回归分析**：预测连续变量，如房价预测。 5. **异常检测**：识别...

搜索引擎的面试10T: - 数据挖掘技术主要涉及分类和聚类，如KNN、决策树、人工神经网络、贝叶斯网络、一阶谓词逻辑和支持向量机(SVM)。 - SVM是一种强大的分类算法，而Boost方法通过结合多种分类技术提高整体性能。 3. **搜索引擎原理...

weka manual: 选择属性评估器和搜索方法，以确定哪些属性最相关。 **4.6.2 选项** 调整搜索和评估的过程中的参数。 **4.6.3 执行选择** 执行属性选择过程，得到最佳属性集合。 ##### 4.7 可视化 **4.7.1 散点图矩阵** 展示...

网站日志分析的具体方法和步骤基础.doc: 它可以被用于判定在一个站点中最频繁访问的路径，还有一些其它的有关路径的信息通过路径分析可以得出。路径分析可以用来确定网站上的频繁访问路径，从而调整和优化网站结构，使得用户访问所需网页更加简单快捷，还...

SPSS Modeler数据挖掘项目实战: 在课程提供的"地址.txt"文件中，可能包含了获取更多学习资料或课程链接的信息，而"data分析师教据挖掘视频程课程.url"可能是指向完整视频课程的URL，方便学员直接在线观看和学习。通过这门课程的学习，学员不仅...

254.MATLAB编程图像分割算法的MATLAB源程序MATLAB.zip: 1. 阈值分割：这是最简单的图像分割方法，通过设定一个或多个阈值来将图像分为前景和背景。MATLAB提供了imbinarize函数来实现灰度图像的二值化，或者使用graythresh函数自动寻找最优阈值。 2. 边缘检测：边缘是图像...

python数据分析: Scikit-Learn是一个开源的Python库，用于数据挖掘和数据分析，它提供了各种机器学习算法的实现，包括分类、回归、聚类等。 ### 实践案例假设我们从一个示例数据网址下载到了一份关于某公司销售记录的数据集。首先...

常用Python数据分析工具汇总.docx: 5. **Scikit-Learn**：Scikit-Learn是Python中用于机器学习和数据挖掘的库，它包含了多种监督和无监督学习算法，如分类、回归、聚类、降维等。此外，Scikit-Learn还提供了交叉验证、模型选择和预处理工具，使得模型...

基于行块分布函数的通用网页正文抽取算法1: 算法的简洁性令人印象深刻，实现代码不足百行，真正做到了用最简单的方法解决复杂问题。系统为适应不同应用场景，提供了在线和离线两种运行模式。在线模式可以处理URL列表，从在线网页中提取正文内容；而离线模式...

Python-interestingpython有趣的Python爬虫和数据分析小项目: 例如，我们可以编写一个简单的爬虫，抓取某个网站的新闻标题和链接，这涉及到URL构造、HTTP请求发送以及HTML解析。二、Scrapy框架进阶对于大规模的爬虫项目，Scrapy框架提供了更强大的支持。Scrapy不仅管理爬虫的...

Global site tag (gtag.js) - Google Analytics