`
datamachine
  • 浏览: 163391 次
社区版块
存档分类
最新评论

文件计算的并行查找与过滤

    博客分类:
  • DB
阅读更多

   润乾集算器具备文件计算能力。对于数据量相对较大的情况,集算器提供了多线程并行的功能,可以充分利用计算机的多CPU多核的计算能力,获得接近或超过传统数据库的计算性能。

  这里只考虑小结果集的情况,即数据计算结果在内存可以装下的情况。

  集算器多线程并行结构示意图如下:



 

  如上图所示,集算器通过一个主脚本将任务分配给多个子脚本,每个子脚本分别访问本地数据的一部分进行计算。子脚本都完成计算后,将结果返回给主脚本,完成计算后提交给宿主程序(如报表工具)。

  每个子脚本就是一个线程。理论上说服务器对多线程并行任务的支持取决于CPU核数和硬盘并行性能。服务器的CPU核数越多、硬盘的并行读取能力越强,可以同时运行的线程数越多,总任务完成的越快。因此,多线程并行任务功能可以充分发挥计算机的计算能力。

  用多线程实现查找过滤的思路是:采用多线程方式,每个线程处理一部分数据的检索,最后将每一部分检索的结果合并。这里通过一个例子来看一下具体做法。考虑到大数据一般都存储在文件中,这里也以Orders.txt文件为例,数据如下:

   ORDERID CLIENT     SELLERID AMOUNT ORDERDATE NOTE

   1    287    47    5825     2013-05-31       gafcaghafdgie f ci…

   2    89    22    8681     2013-05-04       gafcaghafdgie f ci…

   3    47    67    7702     2009-11-22       gafcaghafdgie f ci…

   4    76    85    8717     2011-12-13       gafcaghafdgie f ci…

   5    307    81    8003     2008-06-01       gafcaghafdgie f ci…

   6    366   39     6948     2009-09-25       gafcaghafdgie f ci…

   7    295   8     1419     2013-11-11       gafcaghafdgie f ci…

   8    496   35     6018     2011-02-18       gafcaghafdgie f ci…

   9    273   37     9255     2011-05-04       gafcaghafdgie f ci…

   10    212   0     2155     2009-03-22       gafcaghafdgie f ci…

   …

  数据中note字段是为了增加每条记录的长度设置的字段,没有实际意义。

  需要按照条件“sellerid=1并且client=50并且orderdate在2013之后”检索过滤后提交给外部Java程序。

  由于Orders.txt的数据量较大,所以分成若干段并行处理。首先,要使用集算器来编写脚本select.dfx,实现多线程并行检索,具体脚本如下:



 

   A1:并行线程数为4。

  A2:通过fork关键字,使用多线程执行B2到B4的代码,线程数是4,每个线程读取到的A2值分别是1、2、3、4。

  B2:利用游标cursor函数,将文件大致分成4组,取其中第A2组的游标(只取需要的字段)。

  B3:对游标进行过滤。

  B4:返回本线程的过滤结果B4。

  A5:在主线程中把四个线程的返回结果合并。

  A6:向外部程序返回最终结果。

  集算器脚本完成之后保存为selec.dfx,在外部程序中通过集算器JDBC调用select.dfx的方法参见集算器的教程。

  如果提前将文本文件转换为集算器提供的二进制格式,性能会进一步提升。转换代码为:



 

   A1:新建一个文本文件的游标。

  A2:将文本文件的游标输出为二进制文件。

  将select.dfx修改如下:



 

   可以看到仅B2的cursor参数改为@bz,读取二进制文件,其他脚本没有变。

  在相同的硬件条件下,同样是3.4G数据,4线程并行,采用普通文本文件完成上述查找过滤需要24秒,采用二进制文件只需要4秒。

  采用集算器多线程查找过滤方案的性能测试数据,参见《集算器文件遍历计算的性能测试》。通过测试并与Oracle对比发现,当数据量小于可用内存时,Oracle的性能较好。数据量大于可用内存时,集算器性能常常会超出。

  上述方式是采用单机并行来提高计算性能。对于数据量更大的情况,也可以考虑采用集算服务器集群的方式,利用多机并行来进一步提升性能。

 

  • 大小: 24.1 KB
  • 大小: 36.1 KB
  • 大小: 16.8 KB
  • 大小: 37.1 KB
0
0
分享到:
评论

相关推荐

    计算机软件-编程源码- 查找文件.zip

    4. 并行查找:为了提高效率,可以使用多线程或异步I/O技术同时搜索多个目录,尤其是在处理大型文件系统时。 5. 缓存机制:为了减少重复搜索,可以设计缓存策略来存储最近搜索过的文件或目录信息,避免重复计算。 6...

    文件查找程序的源程序代码

    4. 多线程/并行查找:提高在大量文件中的查找速度。 5. 远程文件查找:集成云存储服务,查找网络上的文件。 6. 文件管理系统:结合查找功能,构建文件分类、整理、备份和分享的工具。 总之,理解并掌握文件查找程序...

    vb 源代码 全盘文件快速查找

    1. **多线程**:如果计算机支持,可以并行处理多个文件夹,利用多核处理器的计算能力。 2. **缓存**:对已搜索过的文件或文件夹进行缓存,避免重复搜索。 3. **过滤**:根据文件扩展名或其他条件提前过滤掉不需要...

    敏感词过滤.zip

    为了实现这一点,可能会使用并行计算、分布式系统或者云计算资源。 **误判与漏判** 虽然敏感词过滤能有效阻止不良信息,但也会存在误判和漏判的问题。误判可能导致正常信息被错误拦截,而漏判则可能让敏感信息漏网...

    快速查找硬盘文件的工具

    3. **过滤与排序**:高级的查找工具允许用户根据文件属性(如大小、日期、类型)进行筛选和排序,这通常涉及到数据库查询技术。 4. **用户界面**:用户友好性的设计,包括输入框、下拉菜单、预览功能等,使用户能...

    批量文本文件中查找字符串.rar

    5. **优化与性能**:对于大量文件,查找过程可能会消耗大量时间和计算资源。为了提高效率,可以考虑以下策略: - **并行处理**:利用多线程或多进程同时处理文件,比如Python的`concurrent.futures`库或Java的`...

    如何遍历文件夹查找文件

    4. **过滤与查找**:在遍历过程中,通常需要根据特定条件(如文件名、扩展名或文件大小)筛选出目标文件。可以使用正则表达式或者自定义过滤器来实现。 5. **同步与异步**:根据应用场景,遍历文件夹可以是同步的...

    易语言磁盘搜索+文件查找

    它集合了磁盘搜索与文件查找的功能,使得文件检索变得更加高效便捷。下面我们将深入探讨这款软件背后的编程原理、功能实现以及相关知识点。 首先,我们要理解易语言(EasiLanguage)是一种中文编程语言,它以其直观...

    SharpDups:使用快速哈希,快速搜索使用C#并行MapReduce计算查找重复文件

    该工具将使用Map / Reduce方法查找重复文件。 它接受文件列表,然后执行重复检查。 它可以轻松扩展以支持文件搜索过滤器等。 逻辑: 分组相同大小的文件 检查前/中/后字节以进行快速哈希 通过比较文件的头/中和...

    基于物品的协同过滤算法 (mapreduce)

    《基于物品的协同过滤算法在MapReduce框架下的实现与应用》 协同过滤(Collaborative Filtering,简称CF)是推荐系统中最常用的一种算法,它基于用户的行为数据来预测他们可能感兴趣但尚未接触过的物品。而基于物品...

    文件批量处理工具,查找相应目录下所有文件的行数

    标题中的“文件批量处理工具,查找相应目录下所有文件的行数”指的是一个软件或脚本程序,它的功能是自动遍历指定目录及其子目录,统计其中每个文件的行数。这种工具在软件开发、代码审计或者数据分析场景中非常有用...

    易语言文件搜索器

    《易语言文件搜索器》是一款基于易语言编程的实用工具,专用于在计算机中快速查找特定的文件。这款软件的核心功能在于其高效、简洁的文件搜索机制,为用户提供了便捷的文件定位服务。下面我们将详细解析这款软件的...

    指定数据库关键字过滤

    总的来说,"指定数据库关键字过滤"项目涉及了数据库管理、数据结构、算法优化、并行计算和软件工程等多个领域的知识,是实现大数据量高效检索的典型案例。在实际应用中,这样的技术可以帮助企业快速响应用户需求,...

    高效过滤敏感次类库

    2. **多线程支持**:为了处理大量文本,库可能设计为并行化处理,充分利用多核CPU的计算能力。 3. **实时更新**:如果敏感词库需要定期更新,那么库可能包含一个机制,能够方便地导入新的敏感词列表。 4. **错误处理...

    dxf文件的读取与处理

    DXF(Drawing Exchange Format)文件是AutoCAD软件用于交换图形数据的一种格式,广泛应用于工程制图、建筑设计等领域。本文将详细介绍如何读取和处理DXF文件,并探讨相关的编程技巧。 一、DXF文件结构 DXF文件本质...

    计算机软件-商业源码-实例44 文件查询.zip

    4. **多线程/异步处理**:为了提高用户体验,文件查询可能采用多线程或异步技术来并行处理任务,避免长时间阻塞用户界面。 5. **性能优化**:在处理大量文件时,性能优化是关键。这可能包括缓存策略、索引构建、...

    基于java的重复文件检查工具 FindDup.zip

    3. **哈希表存储与查找**:为了提高查找效率,FindDup可能使用哈希表存储已处理文件的哈希值。这样,当遇到新的文件时,只需要比较其哈希值与哈希表中的值,就能快速判断是否为重复文件。 4. **多线程处理**:Java...

    基于Hadoop语义数据并行查询方法

    文件提到的PAQS(Parallel Query Strategy)策略首先会进行SPARQL查询预处理,分类SPARQL查询语句,计算查询中的变量之间的相关性,以确定连接变量的连接顺序。 4. MapReduce作业的最小化处理:在PAQS策略的SPARQL...

    deduplicator:重复文件查找器

    6. **文件过滤和排除**:在查找过程中,用户可能希望忽略某些特定类型的文件或目录,如系统文件、隐藏文件或指定的文件夹。这可以通过递归遍历目录时添加条件判断来实现。 7. **结果处理**:找到重复文件后,程序应...

    Bitmap大数据查找算法

    在大数据查找算法中,Bitmap可以用来高效地进行数据过滤和查询,这是因为它的空间效率高,查找速度非常快。 首先,Bitmap的核心在于其数据结构。每个bit对应一个唯一的标识,比如在大数据集中的一个唯一ID。当某个...

Global site tag (gtag.js) - Google Analytics