`
anna_zr
  • 浏览: 200496 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

数据集整理

阅读更多
可选用的数据集主要包括Cora、Citeseer、DBLP三类。

DBLP数据集用XML描述,字段信息包括:author、title、pages、year、booktitle、url、crossref、publisher、ee、cdrom、isbn、cite_label等。其中作者名属性信息的格式是统一的,处理比较方便。目前,DBLP对作者重名问题的处理已经有不错的效果。例如:输入一作者名“wei wang”,可以得到16个不同的作者及其工作单位,并能链接得到每个作者的发表论文情况、个人主页和合作者列表等信息。(不存在问题了吗?)此外,引文信息中除了基本信息:作者名、文章名、会议名之外,加入新的信息:author keywords,对应于论文中的keywords。但是,并非所有的论文都包含有author keywords信息,也并非所有作者都有个人主页,在个人主页链接识别上还存在问题。

Cora数据集分为6大类,36个小类。主要的文件目录包括:(1)papers:以<id> <filename> <citation string>的形式描述论文信息,其中citation string是该论文的任意一篇参考引文或者基于作者名和文章名提取出的关键字。(2)citations:大约有715000条引文信息,用<referring_id> <cited_id>形式描述论文之间的引用关系。(3)citations.withauthors:包含论文的引文信息和作者信息,描述格式为:<this_paper_id><filename><id_of_first_cited_paper><id_of_second_cited_paper>…<Author#1>(of this paper)<Author#2>…(4)classifications:记录论文的分类信息,但分类标签并不是很准确,其描述格式为:<filename> <classification>。如:http:##www.ri.cmu.edu#afs#cs#user#alex#docs#idvl#dl97.ps    /Information_Retrieval/Retrieval/。

在CiteSeer数据集中,论文分为六类:Agents、AI(人工智能)、DB(数据库)、IR(信息检索)、ML(机器语言)和HCI,共包含3312篇论文,记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词,整理得到3703个唯一词。CiteSeer数据集包含两个文件:.content文件和.cites文件,其中.content文件描述论文信息的格式为:<paper_id> <word_attributes>+<class_label>;.cites文件描述了论文之间的引用信息,格式为:<ID of cited paper> <ID of citing paper>。例如,一行内容为:paper1 paper2,那么引用关系为paper2引用paper1,即:paper2->paper1。
但是,Citeseer数据集中的分类太笼统。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics