0 0

数据挖掘中,如何处理多值的属性?5

在DBLP数据集中查找最常合著的作者。因为一篇论文中有多个作者(最多可能有上百个),而整个数据集中可能有上万个作者。

 

现在只需提取每条记录中的作者信息,但很多文章都是多个作者,该怎么把这些作者处理成weka能够识别的arff格式中的数据呢?

 

如果将其定义为String类型,使用逗号来分隔,weka会报错(因为我只需作者这一个属性),而同一个属性的值中不能出现逗号。若使用别的符号来分隔(如“--”或“*”),weka也不能自动识别这些符号,会把多个作者当成一个属性值来处理。

该怎么处理成合理的格式呢?谢谢大家指教

2013年10月21日 19:58
目前还没有答案

相关推荐

    多值属性的数据处理与关联规则挖掘方法研究.pdf

    在多值属性关系的数据处理过程中,本文作者提出了一种新的数据处理方法。首先将目标数据属性根据其在算法中的作用进行划分,再将数据属性进行转换和编码。编码可以理解为数据预处理的一部分,通过为不同类型的属性...

    数据挖掘原理与实践课后习题答案解析

    数据挖掘处理的对象主要包括某一专业领域内积累的数据,这些数据可以来源于社会科学、自然科学、卫星观测等多个领域,并且具有多样的数据形式和结构。具体来说,数据可以存储在传统的关系数据库、面向对象的数据库...

    数据挖掘中的属性选择偏差抑制算法研究.pdf

    例如,在一些特定的应用场景中,如大规模社交网络数据挖掘、生物信息学数据挖掘等,算法需要能够处理高维、异构和大规模的数据集。同时,如何在保护数据隐私和安全的前提下进行有效的数据挖掘,也将成为未来研究的...

    档案数据挖掘中数据前期处理实现方法.pdf

    总而言之,数据前期处理是档案数据挖掘中的关键环节,它涉及一系列的步骤和技术,包括数据分离、数据清理、数据变换和数据归约等。通过这些步骤,可以将原始数据转化为适合于数据分析的高质量数据,最终推动档案数据...

    数据挖掘在各行业的应用论文

    区间值属性不完全信息下的数据挖掘.caj 信息系统中一种面向粗糙集的数据挖掘方法.caj 利用决策树进行数据挖掘中的信息熵计算.caj 文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理.caj 数据挖掘技术在入侵...

    浅谈数据挖掘中概率论与数理统计的应用.pdf

    在数据挖掘中,统计学原理和方法可以用来对数据集中的各个属性进行深入的分析,从中找出数据自己的规律。数据挖掘可以看作是统计学的一个发展方向,数据挖掘的方法和技术为统计学提供了新的研究方向和数据处理手段。...

    数据挖掘原理与算法

    数据挖掘与其他相关技术的关系主要涉及数据挖掘与数据库知识发现、OLAP(在线分析处理)、人工智能和机器学习、统计学、客户关系管理以及软硬件发展等多个方面。数据挖掘是数据库知识发现的一个重要组成部分,它们都...

    数据挖掘过程中数据清洗的研究.pdf

    其中,分类是数据挖掘中常见的任务之一,它根据数据集中的属性将数据分入不同的类别,并基于这些属性预测离散变量。 最终,数据挖掘的目的是为了找出知识模式,以辅助决策。一个成功的数据挖掘项目能够提供可靠和...

    论数据挖掘中的数据预处理技术

    在数据挖掘过程中,原始数据通常包含噪声、缺失值以及不一致性等问题,这些问题如果不加以处理,将直接影响到后续挖掘工作的结果。数据预处理包括一系列的操作,如数据清洗、数据集成、数据变换和数据规约等。 首先...

    关于大数据挖掘中的数据分类算法技术的研究.pdf

    大数据挖掘技术是指在海量的数据中通过特定的算法和工具提取有价值信息和知识的过程。随着信息技术的迅猛发展和全球信息化的加速,大数据已经成为社会发展的重要驱动力。有效的大数据挖掘技术可以帮助企业、政府和...

    基于数据挖掘的核动力装置故障数据处理及属性约简算法研究.pdf

    综上所述,数据挖掘技术在核动力装置故障数据处理中的应用是一个复杂而深入的领域,其中涉及到数据清洗、数据标准化、数据离散化以及属性约简等多个数据处理环节。通过这些方法的应用,能够有效地从故障数据中提取出...

    数据挖掘论文合集-242篇(part3)

    区间值属性不完全信息下的数据挖掘.caj 可视化数据挖掘技术及其应用.caj 在IDS中利用数据挖掘技术提取用户行为特征.caj 基于CORBA的数据挖掘工具KDD-DC.caj 基于Web的数据仓库与数据挖掘技术.caj 基于Web的数据挖掘...

    数据挖掘论文合集-242篇(part1)

    区间值属性不完全信息下的数据挖掘.caj 可视化数据挖掘技术及其应用.caj 在IDS中利用数据挖掘技术提取用户行为特征.caj 基于CORBA的数据挖掘工具KDD-DC.caj 基于Web的数据仓库与数据挖掘技术.caj 基于Web的数据挖掘...

    数据挖掘在基于统计相关属性选择方面研究

    在数据挖掘中,流程可能包括数据清洗、集成、转换、归约和评价等多个步骤,属性选择则通常发生在数据预处理阶段。 从部分提供的内容看,本研究可能讨论了不同的属性选择算法,如CFS(Correlation-based Feature ...

    数据挖掘毕业论文题目 (2).pdf

    5. **面向属性与关系的隐私保护数据挖掘理论研究** - 关注在数据挖掘过程中如何保护个人隐私,可能涉及差分隐私和匿名化技术。 6. **基于多目标决策的数据挖掘方法评估与应用** - 引入多目标优化策略,解决数据挖掘...

    数据挖掘论文合集-242篇(part2)

    区间值属性不完全信息下的数据挖掘.caj 可视化数据挖掘技术及其应用.caj 在IDS中利用数据挖掘技术提取用户行为特征.caj 基于CORBA的数据挖掘工具KDD-DC.caj 基于Web的数据仓库与数据挖掘技术.caj 基于Web的数据挖掘...

    数据挖掘(概念与技术)课后习题答案

    多关系数据挖掘则是处理涉及多个实体间复杂关系的数据集。 #### 十、对象、空间、多媒体、文本和Web数据挖掘 - 这部分涵盖了更广泛的非传统数据类型,如图像、视频、文本等,以及Web数据。这些数据类型有着不同的...

    数据挖掘:概念与技术 第二版 PDF

    2. **预处理**:数据挖掘前的预处理工作至关重要,包括数据清洗(处理缺失值、异常值和不一致性)、数据转换(如规范化、标准化)以及数据集成。 3. **挖掘技术**:书中详细阐述了各种数据挖掘技术,如决策树、...

Global site tag (gtag.js) - Google Analytics