可选用的数据集主要包括Cora、Citeseer、DBLP三类。
DBLP数据集用XML描述,字段信息包括:author、title、pages、year、booktitle、url、crossref、publisher、ee、cdrom、isbn、cite_label等。其中作者名属性信息的格式是统一的,处理比较方便。目前,DBLP对作者重名问题的处理已经有不错的效果。例如:输入一作者名“wei wang”,可以得到16个不同的作者及其工作单位,并能链接得到每个作者的发表论文情况、个人主页和合作者列表等信息。(不存在问题了吗?)此外,引文信息中除了基本信息:作者名、文章名、会议名之外,加入新的信息:author keywords,对应于论文中的keywords。但是,并非所有的论文都包含有author keywords信息,也并非所有作者都有个人主页,在个人主页链接识别上还存在问题。
Cora数据集分为6大类,36个小类。主要的文件目录包括:(1)papers:以<id> <filename> <citation string>的形式描述论文信息,其中citation string是该论文的任意一篇参考引文或者基于作者名和文章名提取出的关键字。(2)citations:大约有715000条引文信息,用<referring_id> <cited_id>形式描述论文之间的引用关系。(3)citations.withauthors:包含论文的引文信息和作者信息,描述格式为:<this_paper_id><filename><id_of_first_cited_paper><id_of_second_cited_paper>…<Author#1>(of this paper)<Author#2>…(4)classifications:记录论文的分类信息,但分类标签并不是很准确,其描述格式为:<filename> <classification>。如:http:##www.ri.cmu.edu#afs#cs#user#alex#docs#idvl#dl97.ps /Information_Retrieval/Retrieval/。
在CiteSeer数据集中,论文分为六类:Agents、AI(人工智能)、DB(数据库)、IR(信息检索)、ML(机器语言)和HCI,共包含3312篇论文,记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词,整理得到3703个唯一词。CiteSeer数据集包含两个文件:.content文件和.cites文件,其中.content文件描述论文信息的格式为:<paper_id> <word_attributes>+<class_label>;.cites文件描述了论文之间的引用信息,格式为:<ID of cited paper> <ID of citing paper>。例如,一行内容为:paper1 paper2,那么引用关系为paper2引用paper1,即:paper2->paper1。
但是,Citeseer数据集中的分类太笼统。
分享到:
相关推荐
TCGA-BRCA数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-OV数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
数据集整理是数据分析和挖掘的重要步骤,而这里提供的17个数据集涵盖了多个领域的实际应用场景,包括COVID-19疫情数据、英国在线零售业务、电商行业用户行为分析、电商婴儿用户以及亚马逊手机销售数据等。...
TCGA-STAD数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
内容概要:本文通过一位大学生从零基础学习数据集整理的案例,详细分享了学习路径、实践经验、团队合作和时间管理等方面的宝贵经验。为那些对数据集整理感兴趣的大学生提供了实用的参考和启示。 适用人群:本篇文章...
本压缩包"聚类数据集整理(合成、UCI和其他真实数据集).zip"提供了多种用于聚类算法训练和测试的数据集合,涵盖了合成数据集、UCI机器学习仓库的数据集以及其他真实世界的数据集。下面将详细介绍这些数据集以及它们...
TCGA(The Cancer Genome Atlas)项目是一个...总之,这个数据集提供了宝贵的胃癌分子水平的信息,通过对这些数据的深入挖掘,科研人员可以发现新的生物标记物,理解胃癌的发病机制,甚至为个性化治疗提供理论依据。
【语音数据集整理】 语音数据集是机器学习和人工智能领域中至关重要的资源,特别是对于语音识别、语音合成、语音情感分析等任务。这些数据集帮助算法理解和模仿人类语音的复杂性,从而提升技术的准确性和自然度。...
TCGA-KIRC数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
标题提到的“依据开源的恶意域名数据集整理的数据集”意味着这个资源来源于开放源代码项目,这通常意味着数据的透明度和可靠性较高,可以被广泛的研究人员和开发者所使用。数据集包含了200万个恶意域名和240万个正常...
标题中的“TCGA-BLCA-mRNA表达数据(TPM)-膀胱癌表达及临床数据集整理”指的是The Cancer Genome Atlas (TCGA)项目中关于膀胱癌(BLCA)的数据,具体聚焦于mRNA转录水平的表达数据,以Transcripts Per Million (TPM...
在这个"03、ETL技术之二:数据集整理"的主题中,我们将深入探讨如何利用编程技巧来处理和整理数据,主要包括跳转、循环、数组以及数据集的合并与OUTPUT语句的应用。 跳转(Jump)在ETL过程中通常指的是控制流程的...
相关数据集整理与预处理;通用评测脚本脚本.zip"的压缩包,显然是针对中文自然语言处理(NLP)的一系列资源集合,旨在帮助用户进行高效的数据预处理工作。下面将详细解释其中涉及的知识点。 首先,中文分词是中文...
中国最新县域数据集 整理
例如,"部分整理的UCI数据集"可能包含了一些已经过初步处理,适合进行建模分析的数据子集。 UCI数据集的特点: 1. **多样性**:UCI数据集覆盖了各种类型的问题,包括分类、回归、聚类和关联规则挖掘等。 2. **规模*...
开源SFT数据集整理,随时补充_sft_datasets
《human3.6数据集详解及其在2D和3D人体姿态估计中的应用》 《human3.6数据集》是计算机视觉领域中一个广泛使用的大型人体动作捕捉数据集,尤其在人体姿态估计和动作识别任务中具有重要价值。这个数据集由MPI-INF-3...
TCGA-LUAD-mRNA表达数据(TPM)-肺腺癌表达及临床数据集整理是一份重要的生物信息学资源,特别适用于癌症研究。这个数据集包含来自The Cancer Genome Atlas (TCGA)项目的肺腺癌(Lung Adenocarcinoma, LUAD)患者的...
UCI数据集是一个常用的机器学习标准测试数据集,本资源含有数据集(.txt、.data、.m)如下; Aggregation Blood Cancer D31 Ecoli Glass Iris Jain Robotnavigation Seeds Sprial Vowel Vehicle ...