`
beneo
  • 浏览: 55452 次
  • 性别: Icon_minigender_1
  • 来自: 希伯來
社区版块
存档分类
最新评论

最最最简单的URL聚类

阅读更多
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL

第一步:提取http链接

使用 Jsoup 来做
        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link 就是链接
            println(link)
        }



第二步:提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads

cwiki,apache,org,confluence,display,mahout


第三部:聚类

参考一个基于Mahout与hadoop的聚类搭建

不要分词了,因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了

聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的

不要期望太多
分享到:
评论

相关推荐

    实验楼中用ython进行聚类分析的实验指导

    K-均值聚类是最常用和最简单的聚类算法之一。它通过迭代的方式来将数据集分割成K个簇。该算法的核心步骤包括: 1. **初始化**:首先选择K个初始质心。这通常可以通过随机选择数据集中的K个点或者使用更复杂的方法来...

    论文研究-基于机器学习的异常URL检测方法研究 .pdf

    通过自编码器可以将高维特征映射到较低维空间,而K-means是一种聚类算法,可以进一步对特征进行聚类,提取更具代表性的特征。 降维处理的优势在于减少特征数量,从而降低模型复杂度,缩短训练时间,并且可能提高...

    阿里数据分析师试题分析

    此外,初始聚类中心的选择会影响最终的聚类结果,可能导致不同的局部最优解。 #### 三、SQL查询示例 **SQL查询**:根据题目要求,需要从表A中提取每个用户访问的第一个URL,并将其存储在一个新的表B中。 ```sql ...

    kmeaningful:DSCI 524第16组-用于自动进行k均值聚类工作流的软件包

    最值得注意的是,有Scikit学习sklearn.cluster.KMeans和SciPy scipy.cluster.vq.kmeans实现。 我们不是在尝试用kmeaningful ,而是要从头开始构建一个简单而轻便的实现。安装$ pip3 install --index-url ...

    httpwebrequest

    - **请求分类**:根据请求的特征(如URL、请求方法、响应时间、返回状态码等)进行聚类,识别出不同类型的请求模式,有助于优化网络性能或找出异常请求。 - **性能分析**:通过聚类可以发现哪些请求响应时间较长,...

    数据挖掘分析面试题

    通过使用SQL的`GROUP BY`语句结合聚合函数`MIN`,可以有效地提取出每个用户最早的访问URL。这类操作不仅需要对SQL语法有充分的理解,还要求能够灵活运用各种聚合函数,以满足不同数据分析的需求。 数据分析能力是...

    RGBsegment.rar_联合开发网

    1. **阈值分割**:最简单的方法是设定一个固定或动态的阈值,使图像中的像素根据其RGB值被分配到前景和背景两类。 2. **基于色彩聚类的方法**:如K-means聚类,将像素分配到多个类别中,每个类别代表一种颜色或色调...

    搜索引擎开发实践PPT

    PPT可能涵盖了爬虫的设计原则,如深度优先与广度优先策略,以及如何处理网页的URL管理和反爬策略。 **2. 分类与聚类** 搜索引擎不仅需要收集网页,还要对它们进行分类和聚类,以便于理解和检索。分类是将网页分配到...

    网络爬虫和搜索引擎的资料

    2. **聚类**:根据相似性将数据分成群组,用于市场细分或用户画像构建。 3. **关联规则**:发现不同项之间的频繁共现模式,如超市购物篮分析。 4. **回归分析**:预测连续变量,如房价预测。 5. **异常检测**:识别...

    搜索引擎的面试10T

    - 数据挖掘技术主要涉及分类和聚类,如KNN、决策树、人工神经网络、贝叶斯网络、一阶谓词逻辑和支持向量机(SVM)。 - SVM是一种强大的分类算法,而Boost方法通过结合多种分类技术提高整体性能。 3. **搜索引擎原理...

    weka manual

    选择属性评估器和搜索方法,以确定哪些属性最相关。 **4.6.2 选项** 调整搜索和评估的过程中的参数。 **4.6.3 执行选择** 执行属性选择过程,得到最佳属性集合。 ##### 4.7 可视化 **4.7.1 散点图矩阵** 展示...

    网站日志分析的具体方法和步骤基础.doc

    它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。路径分析可以用来确定网站上的频繁访问路径,从而调整和优化网站结构,使得用户访问所需网页更加简单快捷,还...

    SPSS Modeler数据挖掘项目实战

    在课程提供的"地址.txt"文件中,可能包含了获取更多学习资料或课程链接的信息,而"data分析师教据挖掘视频程课程.url"可能是指向完整视频课程的URL,方便学员直接在线观看和学习。 通过这门课程的学习,学员不仅...

    254.MATLAB编程 图像分割算法的MATLAB源程序MATLAB.zip

    1. 阈值分割:这是最简单的图像分割方法,通过设定一个或多个阈值来将图像分为前景和背景。MATLAB提供了imbinarize函数来实现灰度图像的二值化,或者使用graythresh函数自动寻找最优阈值。 2. 边缘检测:边缘是图像...

    python数据分析

    Scikit-Learn是一个开源的Python库,用于数据挖掘和数据分析,它提供了各种机器学习算法的实现,包括分类、回归、聚类等。 ### 实践案例 假设我们从一个示例数据网址下载到了一份关于某公司销售记录的数据集。首先...

    常用Python数据分析工具汇总.docx

    5. **Scikit-Learn**:Scikit-Learn是Python中用于机器学习和数据挖掘的库,它包含了多种监督和无监督学习算法,如分类、回归、聚类、降维等。此外,Scikit-Learn还提供了交叉验证、模型选择和预处理工具,使得模型...

    基于行块分布函数的通用网页正文抽取算法1

    算法的简洁性令人印象深刻,实现代码不足百行,真正做到了用最简单的方法解决复杂问题。 系统为适应不同应用场景,提供了在线和离线两种运行模式。在线模式可以处理URL列表,从在线网页中提取正文内容;而离线模式...

    Python-interestingpython有趣的Python爬虫和数据分析小项目

    例如,我们可以编写一个简单的爬虫,抓取某个网站的新闻标题和链接,这涉及到URL构造、HTTP请求发送以及HTML解析。 二、Scrapy框架进阶 对于大规模的爬虫项目,Scrapy框架提供了更强大的支持。Scrapy不仅管理爬虫的...

Global site tag (gtag.js) - Google Analytics