转载请注明出处:http://blog.csdn.net/zbf8441372
5. CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop, VLDB, 2011
主要提出了对hadoop的node上进行colorate data的改进。(不知道中文怎么翻译= =)与plain hadoop相比,提升了相应data做indexing, grouping, aggregation, columnar storage, joins, and sessionization的效率。主要在于locator和locator table的提出和使用。将HDFS改装成应用层可以自己控制数据要存放的node集,使相关数据的各分拷贝可以存在同几个node下。node和locator是多对一的映射关系,locator
table记录分发信息。每次有新数据和locator对进来,先查询table中国是否存在,若是新对,则先按HDFS默认的方式存(默认三分拷贝,存两个机架上,一个是本机架,一个是其他机架),若不是新对,则再去找那个node集中的适合的node存。
4. Multi-dimensional Index on Hadoop Distributed File System, IEEE, 2010
一篇中国人写的基于HDFS的多位索引的论文。主要是把R-tree建出来的index存在HDFS里。根据HDFS的特性和不足,增加一些改进,比如给node添加in-memory buffer或cache。
3. HadoopDB: An Architecture Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, VLDB, 2009
HadoopDB是一个混合系统。基本思想是用MapReduce作为与正在运行着单节点DBMS实例的多样化节点的通信层。查询语言用SQL表示,并用现有工具翻译成MapReduce可以接受的语言,使得尽可能多的任务可以被推送到每个高性能的单节点数据库上。主要思想share-nothing MPP架构和parallel databases。
2. Windows Azure Storage: A Highly Available Cloud Storage Service with Strong Consistency, SOSP,2011
微软Azure云平台的存储机制详细介绍,很不错。等仔细读了再编辑上来。
1. Apache Hadoop Goes Realtime at Facebook, SIGMOD, 2011
介绍了facebook引入Hadoop和HBase技术,怎样改装hadoop变得相对实时。hadoop毕竟还是面向批量数据处理的,Yahoo的Storm是一个实时的项目。论文中还是很好阐述了facebook对数据处理的需求,对比了MySQL集群,HDFS,HBase各种的读写特性。给HDFS的NameNode进行了Avator化,主要还是这个Avator之后的NameNode和DataNode的思路,算是他们自己的一种改进。当然,zookeeper还是无处不在。
分享到:
相关推荐
4. Avro:这是Hadoop生态系统中的一个数据序列化框架,可能用于在分布式系统中高效地传输和存储代码数据。 5. 贝叶斯分析方法:一种统计学方法,用于基于先验知识和新数据更新概率估计。在代码克隆检测中,贝叶斯...
关键词:云存储、多维索引、分布式索引、Skip-Octree、Skip-list、Octree 综上所述,Skip-Octree是为了解决云存储系统中复杂多维度查询的挑战而设计的一种创新索引结构。通过结合Skip-list的高效操作和Octree的空间...
例如,如果项目涉及大量数据的处理,可以考虑使用分布式数据结构,如Hadoop的分布式文件系统HDFS,以及MapReduce模型进行大数据处理。对于实时性要求高的系统,可能需要借助内存数据结构,如Redis中的数据结构,以...
标题中的"SSRN_ID3538962_code3495465.pdf.zip"可能是指一篇在社会科学引文索引(SSRN)上发表的学术论文,其ID为3538962,代码为3495465。这种ID通常用于追踪和引用学术资源。描述中的"SSRN_ID3538962_code3495465....
1.3.2 分布式系统体系结构 13 1.4 实例内存结构 15 1.4.1 数据库缓冲区缓存 16 1.4.2 日志缓冲区 17 1.4.3 共享池 18 1.4.4 大池 21 1.4.5 Java池 21 1.4.6 流池 22 1.5 实例进程结构 23 1.5.1 SMON 24 ...
1.3.2 分布式系统体系结构 13 1.4 实例内存结构 15 1.4.1 数据库缓冲区缓存 16 1.4.2 日志缓冲区 17 1.4.3 共享池 18 1.4.4 大池 21 1.4.5 Java池 21 1.4.6 流池 22 1.5 实例进程结构 23 1.5.1 SMON 24 ...
Java编写的显示器显示模式检测程序 2个目标文件 内容索引:JAVA源码,系统相关,系统信息检测 用JAVA编写了一个小工具,用于检测当前显示器也就是显卡的显示模式,比如分辨率,色彩以及刷新频率等。 Java波浪文字制作...
### 深入研究Cassandra后重读Dynamo——架构对比与反思 #### 一、引言 在深入了解Cassandra数据库之后,再次回顾...因此,在设计和选择分布式存储系统时,需要综合考虑各种因素,以找到最适合自身需求的解决方案。
这些论文可能会探讨新的查询优化算法、分布式数据库的挑战、安全性问题或者隐私保护技术。通过阅读这些论文,你可以了解到数据库领域的前沿动态,并将这些知识应用到实际工作中。 总的来说,"awesome-database-...