看到以前limod写的一篇文章,
说python读纯文本已经将\r,\r\n,\n全部用\n来处理了。但我的系统中好像并没有这样。
我在ubuntu下面,Python 2.6.4
读写方式如下:
>>> data = open('dosfile.txt','r').read()
>>> print data
结果看到换行还是\r\n.
这样,我处理文本时如果想通过\n\n(两个换行)来作为分段的话,对dos格式的无效。
items = data.split('\n\n')就并不能达到我想分的段。
lines = data.splitline()倒能正确处理\r\n为\n,分行正确.但这不是我想要的。
执行:
if hasattr(open, 'newlines'):
print 'We have universal newline support'
我的没打印,说明没有设置open的
universal newline support
但不知在哪里设。
所以我用
open('dostext.txt','rU').read()解决了该问题。
在打开参数中,'rb'肯定是不会转的,'rU'是会转的。U不能和+,w等mode参数配。
==========
参考:
http://en.wikipedia.org/wiki/Newline
http://www.python.org/dev/peps/pep-0278/
http://bugs.python.org/issue6759
分享到:
相关推荐
在这篇文章中,作者详细介绍了如何使用Python脚本来模拟Unix系统中常见的dos2unix和unix2dos命令,这些命令通常用于在Windows的DOS格式和Unix/Linux的Unix格式之间转换文件的换行符。通过这种方式,可以处理跨平台...
《自然语言处理实战:利用Python理解、分析和生成文本》这本书是自然语言处理(NLP)领域的经典之作,由霍布森·莱恩撰写。书中的源代码是学习和实践NLP技术的重要资源,涵盖了从基础到高级的各种NLP任务。在Python...
医疗临床文本处理是医疗保健领域的一个重要应用,通过自然语言处理(NLP)技术,可以对医疗临床文本进行分析和处理,从而改善医疗保健的诊断、预防和治疗。 在描述中提到了人工智能在医学领域的崛起,对医疗保健的...
### Python写入文件自动换行问题详解 #### 知识点概述 在Python编程中,文件操作是一项基本且重要的技能。对于数据处理、日志记录等应用场景,掌握如何正确地写入文件尤其关键。其中,“自动换行”是文件写入过程...
VB(Visual Basic)格式文件和Unix格式文件之间的转换是这样的一个例子。VB格式文件通常指的是在Windows环境中创建的文本文件,它们使用CRLF(Carriage Return, Line Feed)作为行结束符,而Unix格式文件则使用LF...
另一位作者是一位资深的Python开发者,他在Python编程和文本数据挖掘方面有着丰富的实践经验,曾为多家企业提供过技术支持和咨询服务。 《文本数据挖掘与Python应用》这本书具有以下优点:内容丰富、全面、可读性强...
总的来说,`splitlines()`函数是Python中处理文本数据的一个强大工具,尤其在处理包含换行符的数据库文本时,它能确保数据在各种操作系统和开发环境中保持一致性和可读性。理解并熟练运用这个函数,将极大地提升你的...
Python是一种广泛使用的高级编程语言,它具有易于阅读和编写的特点。然而,在编写或运行Python脚本时,可能会遇到一些问题。...希望本文的内容能够帮助大家解决Python运行时不显示DOS窗口的问题,并提供一个参考。
本文围绕Python自然语言处理(NLP)在文本情感分析中的应用展开研究,旨在通过自然语言处理方法提高文本情感分析的准确性和效率。文中首先介绍了文本情感分析的概念及其重要性,然后重点探讨了基于Python的自然语言...
例如,如果你有一个名为`f1.txt`的文本文件,你可以通过以下命令将其内容传递给你的Python脚本: ```bash python script.py ``` 在这个例子中,`f1.txt`的内容将被读取并作为`sys.stdin`的数据源,可供脚本处理。...
然而,系统默认的`Label`控件往往不具备自动换行的功能,这在处理长文本时可能会造成显示问题。为了克服这一限制,开发者们会编写自定义的程序来实现`Label`的文字自动换行功能。下面我们将详细讨论如何实现这一功能...
基于python实现自然语言处理敏感文本识别与分类源码+数据库sql.zip基于python实现自然语言处理敏感文本识别与分类源码+数据库sql.zip基于python实现自然语言处理敏感文本识别与分类源码+数据库sql.zip基于python实现...
"ChangeFileFormat.py" 是一个Python脚本,提供了更灵活和强大的文件格式转换功能。Python中可以使用内置的`open()`函数配合不同的模式来读写文件,并通过操作字符串来改变行结束符。例如,可以使用以下代码将LF转换...
在本毕业设计项目中,我们将探讨如何利用Python编程语言实现一个微博情感分析与文本分类系统。这个系统的主要目标是能够自动识别和理解微博文本中的情绪倾向,将其分类为正面、负面或中性,并且可能涉及更细致的情感...
文本分类是自然语言处理(NLP)领域的一个重要任务,它涉及到将文本数据自动划分到预定义的类别中。CNN,作为一种强大的深度学习模型,在图像识别和计算机视觉领域取得了显著成果,近年来也被广泛应用于文本分类。 ...
总结来说,`textract`是一个强大且灵活的Python库,它简化了从多种文件格式中提取文本的过程,对于需要处理非结构化数据的开发者来说,这是一个非常有价值的工具。无论你是数据分析师、自然语言处理工程师还是需要...
- `pandas`:数据处理的强大工具,支持CSV、JSON等多种文本格式。 - `numpy`:处理数值型数据的库,常用于统计分析。 - `re`:正则表达式模块,用于复杂文本匹配和替换。 - `textwrap`:文本排版工具,用于美化...
Python 图像处理 Python 图像处理是使用 Python 语言进行图像处理的技术。...Python 图像处理技术使用 Python 语言和 PIL 软件包提供了一个强大且灵活的图像处理平台,可以满足各种图像处理需求。
本书介绍了python语言如何为管理unix和linux服务器提供各种更加有效的任务处理方式。书中各章都提出了具体的管理问题,如并发或数据备份,然后通过python示例提供了解决方案。通过本书,读者可以学习如何用python...