`
datamachine
  • 浏览: 161852 次
社区版块
存档分类
最新评论

并行处理大文本文件

阅读更多

集算器可以方便地用并行方式处理大文本文件,下面通过一个例子来说明使用方法。

假设有个一千万条销售记录的文本文件sales.txt,其主要字段是SellerID(销售员)、OrderDate(订单日期)、Amount(订单金额),请计算每个销售员在近四年里的大订单总金额。其中,金额在2000以上的属于大订单。

要进行并行处理,首先要能对文件进行分段,集算器提供了游标数据对象cursor及其函数,可以方便地分段读取大文本文件。比如file(“e:/sales.txt”).cursor@tz(;, 3:24),这表示将文件按字节数大致均分为24段,然后读取其中第3段。简单的按字节拆分文件时会产生半行数据即半条记录的情况,还需要再编程处理才行,而如果按行拆分则需要遍历前面所有的数据行,完全达不到采用分段并行方案期望的高性能。集算器在拆分文件时自动进行了去头补尾的工作,保证数据的正确性。

分段后只要进行简单的并行处理就可以了,代码如下:

 

主程序



 

         A1:并行任务数设为24,即将文件分为24段。

         A2:进行多线程并行计算,任务是to(A1),其是[1,2,3…24],这表示每个任务分配到的段数。所有任务都结束后,计算结果会统一存储在本单元格。B2-B5是线程内代码。

B2:用游标读取文件,按照主线程传来的参数决定当前任务应该处理文件中的第几段。

B3:选出时间是2011年之后的,订单金额在2000以上的记录。

B4:对本段数据分组汇总。

B5:将本线程的计算结果返回主线程单元格,即A2

 

         A6:对A2中各任务的计算结果归并,部分数据如下:



 

         A7:对归并结果再进行分组汇总,求得每个销售员的销售额,如下:



 

代码说明

         对于NCPU,似乎设置为N个任务更加自然,但事实上执行任务时时总会有快有慢(比如过滤出的数据不同),因此常会遇到这种情况:其他核心已经完成了较快的任务,正在空闲等待,而个别核心还在执行较慢的任务。相反,如果每个核心依次执行多个任务,则快慢任务会趋于平均,整体运行会更加稳定。所以上述例子是将任务分为24份,并分给CPU8个核心进行处理(同时最多允许并行多少个线程可以在集算器的环境中配置)。当然,任务分得太多也会带来坏处,首先是整体性能会下降,其次是各任务产生的计算结果加起来会更大,会占用更多的内存。

         fork将复杂的多线程计算封装了起来,程序员可以专心于业务算法,而不必纠结于复杂的信号量控制,开发过程变简单了。

         主程序中A6的计算结果已经按照SellerId自动排序,因此A7的分组汇总不必再排序,groups的函数选项@o可以实现免排序的高效分组汇总。

扩展:

 

         有时候文本文件的数据量会达到几个TB,此时就需要使用基于集群的多节点并行计算。集算器游标及其相关函数支持廉价横向扩展和分布式文件系统,可以轻松实现并行计算。代码形如:=callx("sub.dfx", to(A1), A1; ["192.168.1.200:8281","192.168.1.201:8281",”......”]),具体用法参考相关文档。

  • 大小: 38.4 KB
  • 大小: 30.7 KB
  • 大小: 24.3 KB
0
0
分享到:
评论

相关推荐

    易语言多线程读取大文本文件

    多线程允许程序同时执行多个独立的任务,提高效率,尤其在处理大型文件时,可以将任务分割成多个部分,由不同的线程并行处理。这可以显著减少整体的处理时间,提高用户体验。 首先,我们要理解易语言中的线程创建和...

    易语言多线程读取大文本文件源码

    综上所述,易语言的多线程读取大文本文件源码是一个实用的示例,它展示了如何利用多线程并行处理大数据,以提高程序的运行效率。通过学习和理解这个源码,开发者可以更好地掌握易语言中的多线程编程技术,并将其应用...

    大文本文件分割器源码

    《大文本文件分割器源码解析与应用》 在信息技术领域,处理大数据量的文本文件是一项常见的任务。当文件过大,无法一次性加载到内存或需要分批处理时,就需要使用文本文件分割工具。本文将围绕“大文本文件分割器...

    PHP 批量处理文本大小和文本内容

    这篇博客“PHP 批量处理文本大小和文本内容”提供了一种方法来有效地管理大文本文件,同时兼顾内存效率和性能。 首先,我们要理解处理大文本文件时可能遇到的问题。当文件过大,一次性读入内存可能导致内存溢出。...

    cpp-ParaText一个在多核机器上并行读取文本文件的C库

    6. **文件分块**:ParaText将大文件分割成多个小块,每个线程负责一块,确保并行处理的有效性。 7. **错误处理**:ParaText具有良好的错误检测和恢复机制,当遇到问题时,能够及时报告并尝试恢复,保证程序的稳定性...

    多线程大文本文档分割器

    《多线程大文本文档分割器》 在信息技术领域,高效处理大量数据是至关重要的。对于长篇幅的大文本文档,无论是为了便于阅读、传输还是存储,都有可能需要将其进行合理的分割。"多线程大文本文档分割器"就是这样一个...

    文本文件导入导出处理

    文本文件导入导出处理是IT领域中常见的任务,特别是在数据分析、数据存储和程序间的数据...熟练掌握这些技能对任何IT专业人员来说都至关重要,尤其是在大数据时代,高效、准确地处理文本文件数据是提升工作效率的关键。

    用mapreduce进行文本处理

    MapReduce 的设计初衷是为了解决在分布式环境中对大量数据进行并行处理的问题。本文旨在介绍如何使用 MapReduce 进行文本处理,重点讨论其在 SIGIR 2009 大会上的展示内容。 #### 二、MapReduce 基础 ##### 2.1 ...

    FileTrees.jl:并行文件处理变得容易

    - 大数据处理:并行处理大量文本文件,如日志分析、数据预处理等。 - 源码控制:在软件开发中比较不同版本的源代码树。 - 科学数据分析:并行处理实验数据,提取特征或进行统计分析。 **总结** `FileTrees.jl` 是 ...

    文本文件搜索工具

    Java的`java.util.concurrent`包提供了并发工具,如`ExecutorService`和`Future`,可以用来并行处理多个文件,从而加快搜索速度。此外,还可以使用缓存策略,将最近或最常搜索的文件信息存储起来,减少不必要的文件I...

    mimo_fir_并行FIR滤波_并行滤波Matlab_并行fir_

    在Matlab中,`mimo_fir.mlx`可能是一个Live Script文件,它结合了代码、文本和图形,提供了一个交互式的环境来演示并行FIR滤波的过程。在这样的脚本中,我们可能看到以下关键部分: 1. **初始化**:定义输入序列x和...

    基于Hadoop平台的海量文本分类的并行化

    本论文探讨了在Hadoop平台上实现海量文本分类的方法,核心是采用TFIDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)理论进行特征提取,结合MapReduce模型实现并行处理。TFIDF是一种常用于信息...

    新建文本文档_java_

    标题中的“新建文本文档_java_”可能是指一个关于Java编程的项目或教程,其中可能涉及文本处理和文件操作。这个项目的重点在于处理多个文件,比较它们与一个目标文件的内容,然后根据目标文件中出现的文件名进行过滤...

    并行计算代码

    并行计算是现代计算机科学中...总之,这个项目展示了如何利用C++和OpenMP实现消费者和生产者模式,并行处理多个文件。通过理解和应用这些概念,开发者可以编写出高效、可扩展的并行程序,充分利用现代硬件的多核能力。

    海量数据分析:Sawzall并行处理.rar

    这篇文档"海量数据分析:Sawzall并行处理"可能详细介绍了Sawzall语言的原理、应用以及如何利用它来优化搜索引擎的数据处理流程。 首先,Sawzall的核心特性在于其并行处理能力。在大数据时代,单机处理能力往往不...

    基于多核处理器的文本并行搜索技术研究.pdf

    在文本并行搜索技术中,首先需要进行文本分割,即将大文件或大量文本分解为可管理的小单元,以便于并行处理。然后,通过C++ AMP或其他并行编程框架,将这些小单元分配给不同的线程或GPU核心执行搜索任务。任务调度...

    MySplit_文本处理_c++文本分割_

    另外,可以利用多线程或异步处理来并行处理大文件,提高程序的运行速度。 为了调试和测试,单元测试是一个重要的工具。C++社区有许多流行的单元测试框架,如Google Test(gtest)、Catch2和doctest等。编写单元测试...

    WIS文件转换为文本文件的C--源代码_wis_wis转txt的c源代码_

    例如,使用缓冲区批量读写数据,或者利用多线程并行处理。 6. 用户接口:虽然这个任务主要是命令行程序,但为了方便用户,可能还会包含一些简单的用户交互,如输入文件路径和输出文件名。 7. 注释和文档:好的源...

Global site tag (gtag.js) - Google Analytics