`
cloudeagle
  • 浏览: 112572 次
  • 性别: Icon_minigender_1
  • 来自: 合肥
社区版块
存档分类
最新评论
文章列表
转自:http://blog.csdn.net/ylf13/article/details/15337957 有几个注意的,在BDB数据库里,默认是不能有重复的两个相同的键,当然可以通过config配置sortedDupli...来设置可以,所以在读取数据库值的时候必须考虑两种情况,是否存在相同的键的记录 JE provides two basic mechanisms for the storage and retrieval of database key/data pairs: TheDatabase.put()andDatabase.get()meth ...
特性 大型数据库的支持:它支持从1到数百万级的数据量,数据库的大小限制基本上受限于你的硬件支持。 Database Environment:Database Environment提供了一个单元的封装和管理一个或多个数据库。Database Environment也是内部资源管理的一个单元,如内存中的缓存和后台线程。最后,使用它管理并发性和事务。请注意,所有应用程序使用JE都需要使用Database Environment。 多线程,多进程支持:JE是专为控制多线程设计的。读写操作都可以是多线程。JE使用记录级锁定为线程应用程序提供高并发性。此外,JE使用死锁超时检测 ...
MapReduce的容错性,其思路很简单,出问题的话,重做就是了: 1. map: 重执行 2. reduce: 重执行的话,需要保存中间数据,否则reduce一旦坏了的话,之前的取得的数据全部浪费了,这也是为什么reduce不使用诸如 消息机制传递数据的原因。 这样map和reduce实现了异步读写,同时其容错也得到了保证。
在看hdfs时,经常会碰到block,packet,chunk等概念,下面做个简要介绍: block是最大的,默认为:"fs.local.block.size", 32 * 1024 * 1024=32m packet其次, 默认为:"dfs.write.packet.size", 64*1024=64k chunksize 默认为:"io.bytes.per.checksum"=512Byte
转自:http://book.51cto.com/art/200911/162899.htm 有限状态机有两种基本类型:米利(Mealy)机和摩尔(Moore)机,米利机的下一状态和输出取决于当前状态和当前输入;摩尔机的下一状态取决于当前状态和当前输入,但其输出仅取决于当前状态。这两类有限状态机的下一状态和输出都是由组合逻辑电路形成的。 1. 米利(Mealy)机 米利(Mealy)机的结构如图11-2所示。
BlockReceiver 函数, receivePacket()函数 最终获取的数据包写入磁盘 try { if (!finalized) { //finally write to the disk : out.write(pktBuf, dataOff, len); // If this is a partial chunk, then verify that this is the only // chunk in the packet. Calculate new crc for this chunk. if ...
代码总体很复杂,简化下流程 是assignTasks流程: FIFO的分配任务算法流程: // map任务分配 for (int i=0; i < availableMapSlots; ++i) { for (JobInProgress job : jobQueue) { 该作业有可分的任务,当前map slot分配给它。退出此次循环,进行下一个map slot的分配 } } //reduce任务分配 if(availableReduceSlots>0){ for (JobInProgress job : jobQueue) ...
http://redtreewood.blogspot.com/2009/10/openmp-mpi-mapreduce.html OpenMP: OpenMp是线程级别的,共享是存储,只适应用于共享总线与内存,单一操作系统映像的SMP机器和DSM机器。可扩展性比较差,对机器的要求比较高。一般双核的机器(很多CPU共享内存条)适合用OpenMP,可以提高一定的运行速度。这个在科学计算方面应用比较多一些。 MPI: MPI是进程级的并行粒度,分布式存储,数据分配方式是显示的,具有很好的扩展性。适合于各种机器,但其编程模型比较复杂: 1、需要分析计划分计算任务,并将 ...
1.副本放置策略 副本的存放,副本的存放是HDFS可靠性和性能的关键。HDFS采用一种称为rack-aware的策略来改进数据的可靠性、有效性和网络带宽的利 用。这个策略实现的短期目标是验证在生产环境下的表现,观察它的行为,构建测试和研究的基础,以便实现更先进的策略。庞大的HDFS实例一般运行在多个机 架的计算机形成的集群上,不同机架间的两台机器的通讯需要通过交换机,显然通常情况下,同一个机架内的两个节点间的带宽会比不同机架间的两台机器的带宽 大。 通过一个称为Rack Awareness的过程,Namenode决定了每个Datanode所属的rack id。一个简单但没有优化的策略就是将副 ...
并行计算模型通常指从并行算法的设计和分析出发,将各种并行计算机(至少某一类并行计算机)的基本特征抽象出来,形成一个抽象的计算模型。从更广的意义上说,并行计算模型为并行计算提供了硬件和软件界面,在该界面的约定下,并行系统硬件设计者和软件设计者可以开发对并行性的支持机制,从而提高系统的性能。 有几种有价值的参考模型:
转自:http://blog.csdn.net/moonboat0331/article/details/10187505 线性索引 定义:按照关键码的顺序进行排序,文件中的指针指向存储在磁盘上的文件记录起始位置或者主索引中主码的起始位置。 优点:可以对变长数据库记录访问,对数据进行高效检索,例如二分检索;顺序处理:比较操作、批处理的操作;节省空间 (相对其它索引结构) 缺点:线性索引太大,存储在磁盘中:在一次检索过程中可能多次访问磁盘,从而影响检索的效率;使用二级线性索引;更新线性索引,例如在数据库中插入或者删除记录时
转自:http://www.drdobbs.com/parallel/indexing-and-searching-on-a-hadoop-distr/226300241 ByKashyap Santoki, July 29, 2010 In today's information-saturated world, the huge growth of geographically distributed data necessitates a system that facilitates fast parsing for the retrieval of meaningf ...
转自:http://blog.csdn.net/longshengguoji/article/details/16906095 1 百度系 百度搜索研发部官方博客 网址:http://www.baidu-tech.com 百度搜索研发部官方博客(http://www.baidu-tech.com)由百度搜索研发部创建并维护。我们希望通过网络社区与关注搜索引擎及相关产品的技术人员交流互动,分享百度工程师研究的方向和取得的成果。百度互联网技术官方博客 网址:http://blog.csdn.net/baiduforum 分享交流百度的互联网技术。百度框计算技术交流平台 网址 ...
转自:http://blog.csdn.net/longshengguoji/article/details/16906095 1 百度系 百度搜索研发部官方博客 网址:http://www.baidu-tech.com 百度搜索研发部官方博客(http://www.baidu-tech.com)由百度搜索研发部创建并维护。我们希望通过网络社区与关注搜索引擎及相关产品的技术人员交流互动,分享百度工程师研究的方向和取得的成果。百度互联网技术官方博客 网址:http://blog.csdn.net/baiduforum 分享交流百度的互联网技术。百度框计算技术交流平台 网址 ...
转自:http://blog.csdn.net/datascientist/article/details/7089127 最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 那么Spark和Hadoop有什么不同呢? 1,Spark的中间数据放到内存中,对于迭代运算效率比较高。 Spark aims to extend MapReduce for iterativealgorithms, and interactive l ...
Global site tag (gtag.js) - Google Analytics