`

python unicode file read

 
阅读更多
def UnicodeReadFile(fileName):
    if os.path.exists(fileName) == False:
        #print fileName + ": Not exist"
        return ";"
    CODEC = 'utf-8'
    FILE = 'unicode.txt'
    emails = ""
    file_object = codecs.open(fileName, 'r', "utf-16")
    for line in file_object:
        try:
            bytes_out = line.encode(CODEC)
        except:
            continue
        #print bytes_out
        bytes_out = bytes_out.strip('\r\n')
        mat = emailPattern.match(bytes_out)
        if mat:
            #print "match unicode"
            email = mat.group(1)
            emails = emails + " " + email
    file_object.close()
    return emails + ";"
分享到:
评论

相关推荐

    Python读写unicode文件的方法

    def read_unicode_file(file_name): with codecs.open(file_name, 'r', encoding='utf-8') as file: for line in file: print(line.strip()) if __name__ == '__main__': file_name = 'example.txt' lines = ...

    unicode文件的压缩包

    - Python示例:`content = file.read()` 3. 写入内容:在写入时,同样需要指定编码方式。 - Python示例:`file = open("newfilename.txt", "w", encoding="utf-8")` - `file.write("你好,世界!")` 4. 关闭文件...

    深入浅析python3中的unicode和bytes问题

    ### Python3中的Unicode与Bytes详解 #### 一、引言 Python3 在处理字符串时引入了两种主要的数据类型:`str` 和 `bytes`。其中 `str` 类型默认使用 Unicode 编码,这标志着 Python3 相比于 Python2 在字符串处理上...

    Python-python制作词云项目

    text = file.read() ``` 3. **创建词云对象**:使用`WordCloud`类创建一个词云对象,可以设置参数来定制词云样式,如字体、颜色、最大词汇数等。 ```python wc = WordCloud(font_path='simhei.ttf', ...

    python3.6.5参考手册 chm

    Python参考手册,官方正式版参考手册,chm版。以下摘取部分内容:Navigation index modules | next | Python » 3.6.5 Documentation » Python Documentation contents What’s New in Python What’s New In ...

    Python2.x与3_.x版本区别

    - **示例**:`with open('file.txt', 'r') as f: text = f.read()` 在 Python 3.x 中读取的文本默认使用 UTF-8 编码。 ##### 2. 输入函数 - **Python 2.x**:用于用户输入的函数是 `raw_input()`。 - **Python 3.x*...

    python持久化操作

    read = csv.reader(csvfile) for i in read: print(i) ``` 运行上述代码将会打印出CSV文件中的每一行内容。需要注意的是,这里使用`with`语句来自动管理文件资源,确保文件在使用完毕后能够被正确关闭。 2. *...

    unicode码转中文

    content = f.read() # 将Unicode字符串转换为GBK编码 gbk_content = content.encode('gbk') # 将GBK编码写入新的文件 with codecs.open('GBK_encoded.txt', 'wb') as gbk_file: gbk_file.write(gbk_content) ```...

    Python2.5教程

    在字符串处理方面,Python 2.5引入了非本地化字符串(u"..."),它们是Unicode字符串,用于处理多语言文本。同时,`str`和`unicode`类型的互转操作也得到了优化。 文件`Python25.chm`很可能是一个帮助文件,通常...

    读写Unicode文件代码,windows/unix

    在Python这样的高级语言中,读写Unicode文件相对简单。以下是一些基本操作示例: 1. **读取Unicode文件**: 使用内置的`open()`函数,配合`'r'`模式打开文件,然后添加`'U'`或者`'b'`指定为Unicode编码。例如,...

    Unicode和Python的中文处理

    content = file.read() ``` 2. **处理内容**:对读取的内容进行处理。 ```python print(content) ``` 3. **写入文件**:以`utf-8`编码写入新文件。 ```python with open('new_chinese_text.txt', 'w', ...

    Python3中编码与解码之Unicode与bytes的讲解

    ### Python3中编码与解码之Unicode与Bytes详解 #### 一、背景介绍 在进行Python编程时,尤其是在处理文本数据或进行网络爬虫开发的过程中,我们经常遇到字符编码问题。比如,在爬取网页内容并将其保存到本地文件时...

    转码器_python_

    Python中的编码处理主要涉及到`str`(Unicode)和`bytes`类型。Unicode是字符的国际标准,包含了世界上几乎所有的字符集。`str`类型用于存储Unicode字符,而`bytes`类型则用于存储字节序列,可以对应于特定的编码...

    python脚本实现xls(xlsx)转成csv

    - 处理Excel文件中的Unicode字符,并将其正确转换为`.csv`文件中的字符串。 4. **命令行参数传递**: - 如何通过命令行传递Excel文件路径作为参数给Python脚本。 #### 三、详细知识点讲解 ##### 1. 使用`xlrd`...

    python bug清除手册-代码书写规范与基本使用.pdf

    这些错误发生在处理Unicode编码和解码过程中出现问题时。例如: ```python with open('file.txt', 'r', encoding='utf-8') as f: data = f.read() # 文件编码不匹配 ``` 解决方法:确保文件的编码与Python使用的...

    Python基础教程(第3版-高清文字py3.x).pdf

    1. **字符串与Unicode**:Python 3中所有字符串都是Unicode编码,支持多种字符集,这使得处理国际化文本变得更加简单。例如,你可以直接使用`\u`转义序列来插入Unicode字符。 2. **print函数**:在Python 2中,`...

    Python3中内置类型bytes和str用法及byte和string之间各种编码转换 问题

    在Python 3中,对文本和二进制数据的处理变得更加明确,主要通过两种内置类型:str和bytes。str类型用于表示Unicode文本,而bytes类型则用于存储二进制数据,如图片、音频文件或网络传输的数据。这两种类型在Python ...

    解决python 读取 log日志的编码问题

    utf8_file.write(unicode_content.encode('UTF-8')) ``` 现在,你已经创建了一个新的UTF-8编码的日志文件,可以使用Python的标准库(如`re`或`pandas`)进行进一步分析,而不会出现编码问题。 总结一下,解决...

Global site tag (gtag.js) - Google Analytics