`
xiaolin0199
  • 浏览: 573070 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

python处理非utf8编码文件转为utf8

阅读更多

1 判断文件的编码

 

import chardet
def check_file_charset(file):
    with open(file,'rb') as f:
        return chardet.detect(f.read())    

    return {}

 2 编码转换

 

            import codecs
            from django.utils.encoding import smart_text

            f_type = check_file_charset(file_path)
            if f_type and 'encoding' in f_type.keys() and f_type['encoding'] != 'utf-8':
                try:
                    with codecs.open(file_path, 'rb', f_type['encoding']) as f:
                        content = smart_text(f.read())
                    with codecs.open(file_path, 'wb', 'utf-8') as f:
                        f.write(content)
                except:
                    pass

 

分享到:
评论

相关推荐

    批量将文件编码方式由ansi转为utf-8

    标题"批量将文件编码方式由ansi转为utf-8"涉及到的是一个文件处理任务,即转换大量以ANSI编码存储的文件到UTF-8编码。这通常是由于ANSI编码不支持某些非英文字符,或者在跨平台交互时可能会遇到问题,而UTF-8编码则...

    批量utf文件转utf8-bom

    "批量utf文件转utf8-bom"这个主题指的是将一批以UTF编码的文件转换为带有BOM(Byte Order Mark)的UTF-8编码。BOM是一个特殊的字节序列,用于标识文件的编码类型,对于UTF-8编码,BOM的字节序列为0xEF, 0xBB, 0xBF。...

    如何利用python批量转换文件编码?例如,txt文件由UTF-16LE转为UTF-8……

    在Python编程中,有时我们需要处理不同编码格式的文件,尤其是当数据源的编码不一致时。本篇文章将介绍如何利用Python批量转换文件编码,以解决处理数据时遇到的编码问题。我们将以一个具体的例子来说明,即如何将...

    转换为GB2312.bat转换为UTF8.bat

    总之,"转换为GB2312.bat转换为UTF8.bat"这个主题涉及的是文本文件的编码转换,特别是GBK到UTF-8的转换,这在跨平台的文件共享和处理中经常遇到。了解并掌握字符编码和相应的转换工具,对于解决与字符编码相关的问题...

    Python字符编码转码之GBK,UTF8互转

    Python字符编码转换主要涉及到ASCII、Unicode以及GBK和UTF-8等编码格式,这些编码格式在处理文本数据时扮演着重要角色。在理解Python中的字符编码转换之前,我们需要了解一些基本概念。 1. ASCII编码:这是一个7位...

    将汉字转为UTF8,支持文件转换格式

    "将汉字转为UTF8,支持文件转换格式"这个标题涉及到的关键知识点是字符编码的转换,特别是从GBK(或GB2312)编码到UTF-8编码的转换,以及批量文件处理。 UTF-8是一种广泛使用的Unicode字符编码,能够表示世界上几乎...

    判断文件编码格式和批量将gbk转为utf-8

    标题"判断文件编码格式和批量将gbk转为utf-8"涉及两个主要知识点: 1. **文件编码识别**:判断文件编码格式通常是为了确保正确读取和处理文件内容。这可以通过各种工具或编程库实现。例如,Python中的`chardet`库...

    gbk汉字转utf8编码的转换函数,亲测有用

    在编程领域,字符编码是处理文本数据时一个非常重要的概念。GBK和UTF-8是两种常见的字符编码标准,它们在存储和传输汉字等多语言字符时各有特点。本篇文章将详细探讨GBK到UTF-8的转换函数以及相关知识点。 GBK...

    gb2312到utf8的转换

    1. **手动转换:** 使用文本编辑器,如Notepad++,选择“编码”菜单,从GB2312转为UTF-8。 2. **编程语言转换:** 在Python中,可以使用`codecs`库的`encode`和`decode`函数实现转换。例如: ```python gb2312_...

    UTF8转Unicode的详细介绍

    从UTF8转为Unicode,实际上就是将UTF8编码的字符转换为Unicode码点的过程。这个过程通常涉及到读取UTF8编码的字节序列,根据字节的特定模式计算出对应的码点。反之,从Unicode到UTF8转换则是将码点映射为UTF8编码的...

    汉字转utf8的C语言源码

    将汉字转为utf8编码的C语言源码 C语言不像PYTHON等高级语言,可以基本什么都不作,就实现 汉字转UTF8编码 可是我们C语言苦啊,啥都得写代码来实现 ,这是我总结的,给你,拿去用

    基于python开发的编码转换工具,图形化界面基于pyside2(qt5)开发.zip

    可将文件编码转为UTF-8 BOM 、UTF-8、GB2312中的任意一种格式;.zip 基于python开发的编码转换工具,图形化界面基于pyside2(qt5)开发。 支持批量转换任意格式的文件编码; 可将文件编码转为UTF-8 BOM 、UTF-8、GB...

    使用python批量转换文件编码为UTF-8的实现

    本来一开始的思路还是比较清晰,觉得也比较简单,天真的认为用GBK的方式读取出文件内容,然后UTF8写入就好了,可是在实际的操作中我发现我就是太天真了,出现了大量的问题,比如说: 怎么查看文件的编码方式 好吧我...

    Python将txt文件转成pdf文件

    在Python编程环境中,将文本文件(如txt)转换为PDF...在编写代码时,确保处理好文本的编码问题,通常使用`utf-8`编码来保证兼容性。在转换过程中,注意保持原文档的格式和排版,以确保生成的PDF文件与原文档内容一致。

    utf8转换为gbk格式

    例如,在Python中,可以使用`codecs`模块的`encode`函数进行编码转换,如`str.encode('GBK')`将UTF-8字符串转为GBK编码。 需要注意的是,转换过程中可能会遇到的问题是,不是所有Unicode字符都有GBK的对应编码,...

    批量转换文件格式为utf8csv.exe

    工作中需要奖客户发来的文件(一般为格式固定的excel表格,但是xlsb、excel、csv各种格式都有而且数量比较多)统一转为utf8格式的csv文件,便于上传到系统。

    python避免中文乱码的代码.docx

    s_utf8 = s.encode('utf-8') # 将普通字符串转为UTF-8编码 s_unicode = s_utf8.decode('utf-8') # 将UTF-8编码的字节流转回Unicode字符串 ``` 4. **利用第三方库**:有时我们可能不知道字符串的确切编码,这时...

    Python-将MicrosoftOutlookmsg文件转换为emlMIME消息文件的Python库

    需要注意的是,处理MSG文件时可能涉及到对二进制数据的编码和解码,以及对非ASCII字符的支持。此外,对于复杂的MSG文件,可能需要额外处理嵌套的消息、HTML正文、图片以及其他特定的MIME类型。 总之,Python库`...

    Python将8位的图片转为24位的图片实现方法

    同时,还提到了文件的编码方式为utf-8,以确保文件中的中文字符能够正确地被读取和处理。此外,代码中还涉及到了使用绝对路径,使用`os.path.join`来安全地构建新文件的保存路径。 虽然文档内容中提到由于OCR技术的...

Global site tag (gtag.js) - Google Analytics