python unicode file read - 清风名 - ITeye博客

`

zjhwl

浏览: 275299 次
性别:
来自: 上海

最近访客更多访客>>

zhutiehan

zhangly2011

kristy_yy

wdne63956

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

python unicode file read

博客分类：

python

阅读更多

def UnicodeReadFile(fileName):
    if os.path.exists(fileName) == False:
        #print fileName + ": Not exist"
        return ";"
    CODEC = 'utf-8'
    FILE = 'unicode.txt'
    emails = ""
    file_object = codecs.open(fileName, 'r', "utf-16")
    for line in file_object:
        try:
            bytes_out = line.encode(CODEC)
        except:
            continue
        #print bytes_out
        bytes_out = bytes_out.strip('\r\n')
        mat = emailPattern.match(bytes_out)
        if mat:
            #print "match unicode"
            email = mat.group(1)
            emails = emails + " " + email
    file_object.close()
    return emails + ";"

分享到：

unknown encoding: cp65001异常 python安 ... | 算法学习-笔记

2015-08-28 14:55
浏览 479
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python读写unicode文件的方法: def read_unicode_file(file_name): with codecs.open(file_name, 'r', encoding='utf-8') as file: for line in file: print(line.strip()) if __name__ == '__main__': file_name = 'example.txt' lines = ...

unicode文件的压缩包: - Python示例：`content = file.read()` 3. 写入内容：在写入时，同样需要指定编码方式。 - Python示例：`file = open("newfilename.txt", "w", encoding="utf-8")` - `file.write("你好，世界!")` 4. 关闭文件...

UnicodeError.md: content = read_unicode_file('unicode_file.txt') print(content) except UnicodeError as e: print("出现Unicode错误:", e) ``` 在使用`chardet`时，注意文件是以二进制模式打开（'rb'）来进行检测的，而后续...

深入浅析python3中的unicode和bytes问题: ### Python3中的Unicode与Bytes详解 #### 一、引言 Python3 在处理字符串时引入了两种主要的数据类型：`str` 和 `bytes`。其中 `str` 类型默认使用 Unicode 编码，这标志着 Python3 相比于 Python2 在字符串处理上...

Python-python制作词云项目: text = file.read() ``` 3. **创建词云对象**：使用`WordCloud`类创建一个词云对象，可以设置参数来定制词云样式，如字体、颜色、最大词汇数等。 ```python wc = WordCloud(font_path='simhei.ttf', ...

python3.6.5参考手册 chm: Python参考手册，官方正式版参考手册，chm版。以下摘取部分内容:Navigation index modules | next | Python » 3.6.5 Documentation » Python Documentation contents What’s New in Python What’s New In ...

Python2.x与3_.x版本区别: - **示例**：`with open('file.txt', 'r') as f: text = f.read()` 在 Python 3.x 中读取的文本默认使用 UTF-8 编码。 ##### 2. 输入函数 - **Python 2.x**：用于用户输入的函数是 `raw_input()`。 - **Python 3.x*...

python持久化操作: read = csv.reader(csvfile) for i in read: print(i) ``` 运行上述代码将会打印出CSV文件中的每一行内容。需要注意的是，这里使用`with`语句来自动管理文件资源，确保文件在使用完毕后能够被正确关闭。 2. *...

unicode码转中文: content = f.read() # 将Unicode字符串转换为GBK编码 gbk_content = content.encode('gbk') # 将GBK编码写入新的文件 with codecs.open('GBK_encoded.txt', 'wb') as gbk_file: gbk_file.write(gbk_content) ```...

Python2.5教程: 在字符串处理方面，Python 2.5引入了非本地化字符串（u"..."），它们是Unicode字符串，用于处理多语言文本。同时，`str`和`unicode`类型的互转操作也得到了优化。文件`Python25.chm`很可能是一个帮助文件，通常...

读写Unicode文件代码,windows/unix: 在Python这样的高级语言中，读写Unicode文件相对简单。以下是一些基本操作示例： 1. **读取Unicode文件**：使用内置的`open()`函数，配合`'r'`模式打开文件，然后添加`'U'`或者`'b'`指定为Unicode编码。例如，...

Python-uniout打印可读的字符而不是转义的字符串: 在Python编程中，有时我们需要处理包含Unicode字符的字符串，这些字符可能会被自动转义成不可读的ASCII编码表示。在这种情况下，"uniout"库提供了一个解决方案，它可以帮助我们打印出可读的字符，而不是那些转义的...

Unicode和Python的中文处理: content = file.read() ``` 2. **处理内容**：对读取的内容进行处理。 ```python print(content) ``` 3. **写入文件**：以`utf-8`编码写入新文件。 ```python with open('new_chinese_text.txt', 'w', ...

Python3中编码与解码之Unicode与bytes的讲解: ### Python3中编码与解码之Unicode与Bytes详解 #### 一、背景介绍在进行Python编程时，尤其是在处理文本数据或进行网络爬虫开发的过程中，我们经常遇到字符编码问题。比如，在爬取网页内容并将其保存到本地文件时...

转码器_python_: Python中的编码处理主要涉及到`str`（Unicode）和`bytes`类型。Unicode是字符的国际标准，包含了世界上几乎所有的字符集。`str`类型用于存储Unicode字符，而`bytes`类型则用于存储字节序列，可以对应于特定的编码...

python2-3.pdf: 此外，Python 3取消了`unicode()`函数，取而代之的是`str()`函数来创建字符串对象。同时，Python 3引入了一种新的字符串格式化方法：`str.format()`，它更加灵活且易于阅读，取代了Python 2中的`%`操作符。 - **...

python脚本实现xls(xlsx)转成csv: - 处理Excel文件中的Unicode字符，并将其正确转换为`.csv`文件中的字符串。 4. **命令行参数传递**： - 如何通过命令行传递Excel文件路径作为参数给Python脚本。 #### 三、详细知识点讲解 ##### 1. 使用`xlrd`...

python bug清除手册-代码书写规范与基本使用.pdf: 这些错误发生在处理Unicode编码和解码过程中出现问题时。例如： ```python with open('file.txt', 'r', encoding='utf-8') as f: data = f.read() # 文件编码不匹配 ``` 解决方法：确保文件的编码与Python使用的...

Python基础教程(第3版-高清文字py3.x).pdf: 1. **字符串与Unicode**：Python 3中所有字符串都是Unicode编码，支持多种字符集，这使得处理国际化文本变得更加简单。例如，你可以直接使用`\u`转义序列来插入Unicode字符。 2. **print函数**：在Python 2中，`...

Global site tag (gtag.js) - Google Analytics