时至今日,对于任何人来说,借助云服务或者开源软件,技术已不能成为研究大数据的门槛,往往困扰大家更进一步的是真实数据的缺乏。而INDIANA UNIVERSITY BLOOMINGTON近日公布的一组数据集或许能帮助一定领域的同事。
以下为译文
为促进网络流量结构和动态变化研究的进展,我们团队开发了一个大型数据集Click Dataset,其内包含印第安纳大学用户贡献的535亿余次HTTP请求。不同于查看服务器日志和浏览器工具的收集方式,我们直接从网上收集匿名请求,这样做既能检查大量数据,同referrer外,Click数据集提供了许多有价值的referrer信息,使用者可以藉由这些信息重构出用户访问网络图的子图。这样,我们就对用户的浏览行为有了更深的认识,可以设计出更真实的流量模型。Click数据集还有希望应用于改进网络、网站和服务器软件设计;精确预测流量趋势;依据激励用户的机制对网站归类;改进搜索结果分级算法等领域。
我们获取这些数据方法是先复制流经印第安纳大学边界路由器的流量,再对得到的镜像文件使用Berkeley Packet Filter处理。该过滤器过滤出所有流向TCP80端口的流量。而在长期收集的过程中,通过pcap library来集中收集到的包,并用正则表达式判断其有效载荷是否包含HTTP GET请求。如果包中确实包含此请求,收集系统将写下一条记录,记录包括以下内容:
时间戳
请求的URL
referrer的URL
用户代理(浏览器或bot)的布尔类型
表示该请求产生于IU(Indiana University,下同)内部或外部的布尔标识
补充说明:
IU外部产生的数据只包含校外访问校内网的请求,而IU内部产生的数据只包含校内用户对外网资源的请求(校内用户约十万)。值得一提的是,这两组请求的取样误差差异很大。
来路不明的流量会被拦截:缺少MAC、IP地址及其它唯一标识的流量会被记录。
收集过程不会试图对request流重组,也不会分析服务器应答。
在收集过程中,该系统日处理6000余万条请求,日生成原始数据约30G。这些数据收集于2006年9月至2010年5月期间,其中275天的数据丢失。数据集分两部分:
原始数据:约250亿条请求,其中只有referrer的主机名被保留下来。数据收集于2006年9月26日至2008年3月3日,共98天数据丢失,其中包括2007年6月整月的数据。这部分数据压缩后约占0.85TB。
原始URL:约286亿条请求,且referrer的完整URL被保留下来。数据收集于2008年3月3日至2010年5月31日,共179天数据丢失,其中包括2008年12月,2009年2月和11月整月数据。这部分数据压缩后约占1.5TB。
Click数据集中的数据以小时为单位存储在不同文件。所有文件的起始行都有一串可被忽略的标识。格式如下:
XXXXADreferrer
host
path
这里的XXXX为时间戳(采用32位Unix以秒计时的新纪元时间,按小端字节排序),A是指用户代理标识(“B”代表浏览器,“?”代表bots或其它),D是流向标识(“I”代表流入IU的流量,“O”代表流出IU的流量),referrer是指引用页的主机名或URL(以换行符结尾),host是指目标主机名(以换行符结尾),最后,path是指目标路径(以换行符结尾)。欲了解更多详情,请见下文。
常见问题
我该如何声明自己使用了这些数据?
这些数据由Mark Meiss在印第安纳大学的支持下收集。我们为这些数据的收集和公开化付出了诸多努力。如果你使用了这些数据,请在你的发表文章中引述下文。
阅读全文直接点击:
http://click.aliyun.com/m/9552/
分享到:
相关推荐
这里我们要关注的是一个名为"Indian Pine"的数据集,它源于美国印第安纳州西北部的一个测试场地。这个数据集,以“indianPine.zip_drawm9a_indian pine_indianpines_indianpine数据集_印第安”为标题,包含了丰富的...
高光谱数据集是遥感图像分析领域的重要资源,它包含多波段的光谱信息,用于识别地物特征、环境监测、资源勘查等多种应用。本数据集包括了Indian_pines、Pavia以及PaviaU三个著名的高光谱图像样本。 1. **Indian_...
4. Pavia University (PaviaU) 数据集:来自意大利帕维亚大学的一片区域,图像大小为610x340像素,拥有103个光谱波段。这个数据集的复杂性在于存在大量重叠的光谱特征,对于检测微小地物差异和精细化分类具有挑战性...
3. Indian_pines简介.docx:这份文档很可能包含了数据集的详细说明,包括数据采集的日期、设备参数、地理坐标、地物分类信息以及预处理方法等,对于理解和使用数据至关重要。 利用这些数据,研究者可以进行以下几...
这个数据集源自美国印第安纳州的一片农田,包含220个波段的高光谱数据,覆盖了近红外和可见光范围。图像大小约为145x145像素,共16个地物类别,如玉米、大豆、草地等。这个数据集的复杂性在于其小尺度的地物混合,...
在印第安纳大学伯明顿分校生物工程系的硕士面试中,申请者通常会面临一系列的面试环节,这些环节的设计旨在全面了解申请者的学术背景、研究能力、语言沟通能力和潜在的作为助教(TA)的能力。以下是从提供的内容中提取...
同时,"readme.txt"文件可能包含了关于数据集的详细说明,包括数据采集的设备信息、每个类别的描述、数据预处理方法等。 5. **应用与研究**: 高光谱遥感数据集主要用于开发和测试各种遥感图像处理技术,如光谱...
本次数据集是用于高光谱图像分类使用的indian影像数据集,该图像数据集是采用可见光与红外机载式成像光谱仪器(AVIRIS)获取的来自于印第安纳州西北部Indian Pines农业试验场的高光谱图像。用于遥感方向的研究使用。
"Indian"数据集通常指的是"Indian Pines",它来源于美国印第安纳州的一个农业区域,图像由AVIRIS(航空可见光/红外成像光谱仪)采集,包含了224个光谱波段和145×145个像素。"Pavia"数据集可能是"Pavia University...
包含常用的几种高光谱数据,可以...该数据的尺寸为 610×340,因此共包含2207400 个像素,但是其中包含大量的背景像素,包含地物的像素总共只有 42776 个,这些像素中共包含 9 类地物,包括树、沥青道路(Asphalt)、砖
这个数据集主要用于教学和研究,它包含了一组关于印第安纳州Pima部落女性的健康指标,目的是预测患者是否患有糖尿病。由于原书中提到的网站已无法访问,这个数据集现在可能需要通过其他渠道获取,例如在Kaggle、UCI ...
Indian_pines数据集源自美国印第安纳州的一片玉米地,包含了16个波段和16个不同的地物类别。Pavia数据集源自意大利帕维亚市的一片区域,有103个波段和9个地物类别。这两个数据集因其复杂性和多样性,被用作评估和...
1. "Indian_pines"数据集:源自美国印第安纳州的一个地区,包含145波段的高光谱数据,覆盖了近红外和可见光范围。这个数据集最初由NASA收集,目的是用于地物分类研究。数据集分为训练集和测试集,共包括220个地类...
描述中的 "高光谱数据集中的印第安纳土地分布数据集的功能包" 表明它包含了关于美国印第安纳州某一区域的土地覆盖信息,这些信息通过高光谱技术获取。 高光谱遥感是一种先进的遥感技术,它可以提供连续的、多个窄...
"Indian Pines"数据集具体包含了145x145个像素的图像,每个像素有220个光谱波段,波长范围从0.4至2.5微米。这种高光谱分辨率使得数据集能够捕捉到丰富的地物特性,包括不同植物种类、土壤类型等。数据集还提供了地面...
该项目可能由印第安纳大学布鲁明顿分校的经济学系组织,面向对数据分析和编程有兴趣的研究生。由于其强调Python在经济学领域的应用,我们可以预期课程内容将覆盖Python基础,数据处理,统计分析以及可能的经济建模。...
3. **Pavia University**:这个数据集可能来自于意大利帕维亚大学周边,主要关注城市环境,包含各种建筑、草地、道路等,适合研究城市地区的高光谱分类。 4. **Salinas**:位于美国加利福尼亚州的萨利纳斯山谷,...
本文中使用的数据集是印第安纳大学胸部X射线采集 (Demner-Fushman et al。,2015),这是一组胸部X射线图像及其相应的诊断报告。 图像是从获得的,报告是从获得的。 由于计算上的困难,我们使用了1000个扫描样本...
该在线展览由布卢明顿市印第安纳大学的( 策划,展出礼来图书馆第一版奥杜邦双象对开本《美国鸟类》的50张板块以及他的著作《鸟类学传记》的摘录。 该数字展览最初是礼来图书馆的,现在已更新为包括IIIF图像和注释...
Indian Pines 数据集源自美国印第安纳州的一片松树林,是由NASA的Airborne Visible/Infrared Imaging Spectrometer (AVIRIS)传感器采集的高光谱图像。该传感器能够捕捉到数百个连续的光谱波段,每个波段对应一个特定...