一 代码
1、大文件切分
import os import os.path import time def FileSplit(sourceFile, targetFolder): if not os.path.isfile(sourceFile): print(sourceFile, ' does not exist.') return if not os.path.isdir(targetFolder): os.mkdir(targetFolder) tempData = [] number = 1000 fileNum = 1 linesRead = 0 with open(sourceFile, 'r') as srcFile: dataLine = srcFile.readline().strip() while dataLine: for i in range(number): tempData.append(dataLine) dataLine = srcFile.readline() if not dataLine: break desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt') with open(desFile, 'a+') as f: f.writelines(tempData) tempData = [] fileNum = fileNum + 1 if __name__ == '__main__': #sourceFile = input('Input the source file to split:') #targetFolder = input('Input the target folder you want to place the split files:') sourceFile = 'test.txt' targetFolder = 'test' FileSplit(sourceFile, targetFolder)
2、Mapper代码
import os import re import threading import time def Map(sourceFile): if not os.path.exists(sourceFile): print(sourceFile, ' does not exist.') return pattern = re.compile(r'[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}') result = {} with open(sourceFile, 'r') as srcFile: for dataLine in srcFile: r = pattern.findall(dataLine) if r: t = result.get(r[0], 0) t += 1 result[r[0]] = t desFile = sourceFile[0:-4] + '_map.txt' with open(desFile, 'a+') as fp: for k, v in result.items(): fp.write(k + ':' + str(v) + '\n') if __name__ == '__main__': desFolder = 'test' files = os.listdir(desFolder) #如果不使用多线程,可以直接这样写 '''for f in files: Map(desFolder + '\\' + f)''' #使用多线程 def Main(i): Map(desFolder + '\\' + files[i]) fileNumber = len(files) for i in range(fileNumber): t = threading.Thread(target = Main, args =(i,)) t.start()
3.Reducer代码
import os def Reduce(sourceFolder, targetFile): if not os.path.isdir(sourceFolder): print(sourceFolder, ' does not exist.') return result = {} #Deal only with the mapped files allFiles = [sourceFolder+'\\'+f for f in os.listdir(sourceFolder) if f.endswith('_map.txt')] for f in allFiles: with open(f, 'r') as fp: for line in fp: line = line.strip() if not line: continue position = line.index(':') key = line[0:position] value = int(line[position + 1:]) result[key] = result.get(key,0) + value with open(targetFile, 'w') as fp: for k,v in result.items(): fp.write(k + ':' + str(v) + '\n') if __name__ == '__main__': Reduce('test', 'test\\result.txt')
二 运行结果
依次运行上面3个程序,得到最终结果:
07/10/2013:4634
07/16/2013:51
08/15/2013:3958
07/11/2013:1
10/09/2013:733
12/11/2013:564
02/12/2014:4102
05/14/2014:737
相关推荐
例如,get_data_cb()函数用于获取并分析BOSS系统日志,通过打开日志文件、读取内容并使用正则表达式进行匹配,以提取出有效的信息供后续分析使用。 在实际应用中,数字电视头端日志分析系统可以大大降低技术人员的...
在大数据分析领域,Python是一种广泛使用的语言,尤其在处理操作系统日志方面,它提供了高效且灵活的工具。本文将深入探讨如何使用Python实现这一功能,包括大文件的切分、数据读取以及多线程操作。 首先,面对大...
Apache日志分析是系统监控和故障排查的重要环节,特别是在服务器管理中,理解并解析Apache的日志可以帮助我们了解网站的访问情况、找出潜在的问题以及优化性能。在这个任务中,我们将使用Python来处理Apache的访问...
在IT领域,尤其是在系统管理和网络安全分析中,对Windows系统日志的分析是一项至关重要的任务。Windows操作系统使用EVTX(Event Viewer Log)格式记录系统、应用程序和安全事件。这些日志包含丰富的信息,可以帮助...
总之,Python 实时日志监控涉及到的知识点包括Python `logging`模块的使用、日志处理器的选择与配置、第三方库如`loguru`的引入,以及结合操作系统工具和日志管理服务实现高级功能。理解并掌握这些知识点,对于优化...
这可能涉及到数据分析和数据可视化,可以利用`pandas`库进行数据处理,`matplotlib`或`seaborn`库进行可视化。 7. **报警与通知**:当发现重要日志条目或异常情况时,系统应能及时向运维人员发送通知。Python可以...
这个过程涉及到数据读取、清洗、转换和可视化等多个步骤,需要熟练掌握Python编程以及相关数据分析库的使用。在实际项目中,还可以考虑将这些功能封装成一个命令行工具或Web服务,以便更方便地应用于各种场景。
在IT行业中,日志分析是一项至关重要的任务,它可以帮助我们理解系统的运行情况,发现潜在问题,优化性能。...同时,这也是一个很好的实践案例,可以帮助我们提升在Python中处理日志和数据分析的能力。
在IT行业中,Python语言因其简洁明了的语法和强大的库支持而被广泛应用于数据分析和日志处理领域。本文将深入探讨使用Python进行日志分析的基本方法,以"python 分析日志(初本)"为主题,结合提供的两个Python脚本...
在实际操作中,可能还需要考虑日志清洗、数据预处理、结果可视化等步骤,以提高分析效率和可理解性。Python的`re`(正则表达式)、`pandas`、`matplotlib`等库在这过程中都能发挥重要作用。 总之,使用Python进行...
2. 网络日志分析系统的实现:文档的主题是探讨如何基于Python实现网络日志分析系统,这涉及到网络日志数据的采集、处理、分析和可视化。网络日志通常记录了网络中的各种活动,如用户访问、数据传输、异常事件等。 3...
《Python数据分析2》是Python for Data Analysis的第二版,这本书主要针对使用Python语言进行数据处理、操作、清洗、计算等任务的专业人士。Python作为一种高级编程语言,因其简洁易读的语法和丰富的库支持,已经...
在IT领域,日志文件分析是一项重要的任务,它可以帮助我们理解系统的运行情况,排查错误,优化性能。Python作为一门强大的脚本语言...通过这些技术,我们可以高效地管理和分析日志数据,为系统监控和故障排查提供便利。
5. 跨平台兼容性:Python的跨平台特性使得该系统能在Windows和Ubuntu上运行,这得益于Python的解释器能够在不同操作系统上执行相同代码,无需进行大规模的重构。 6. 文件操作与数据库连接:系统可能需要保存和读取...
3. 数据分析:在Python中,NumPy提供高性能的数值计算,而SciPy和Statsmodels则提供了统计分析函数,可以用于异常检测、趋势分析等。这些工具能帮助识别系统中的异常行为或性能瓶颈。 4. 可视化:为了直观展示日志...
日志分析是运维和数据分析的重要环节,它可以帮助我们了解服务器的工作状态、流量分布、异常访问等信息。Python作为一种强大的脚本语言,因其丰富的库和简洁的语法,常被用于日志处理任务。例如,可以使用正则表达式...
本文将深入探讨如何构建一个基于Python的网络日志分析系统,揭示其背后的理论基础、技术选型及实际操作步骤。 首先,理解网络日志的结构至关重要。常见的日志格式如NCSA Common Log Format(CLF)和IIS日志格式,...
3. **数据解析与处理**:在数据分析环节,可能用到了Python的数据科学库,如Pandas和NumPy。Pandas提供高效的数据结构DataFrame,用于数据清洗、转换和分析;NumPy则为大规模数值计算提供了强大的支持。 4. **数据...
Python因其易读性、丰富的库支持和强大的数据分析能力,常被用来处理和解析这类数据。 首先,我们需要理解日志文件的结构。日志通常包含时间戳、事件级别(如INFO、WARN、ERROR)、发生事件的模块或组件以及具体的...
7. **错误处理与日志记录**:确保系统稳定运行,记录操作日志以备后期分析。 8. **文件操作**:可能涉及实验报告的上传、下载,需要理解Python的文件I/O操作。 9. **版本控制**:如Git的使用,确保代码版本管理和...