`
Josh_Persistence
  • 浏览: 1649937 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类

Linux/Unix中使用iconv进行编码转换

阅读更多

      iconv命令是运行于linux/unix平台的文件编码装换工具。当我们在linux/unix系统shell查看文本文件时,常常会发现文件的中文是乱码的,这是由于文本文件的编码与当前操作系统设置的编码不同而引起的,这时可以使用iconv进行编码转换,从而解决乱码问题。

解决文本文件乱码问题分3步:1.确定文件编码,2.确定iconv是否支持此编码的转换,3.确定Linux/Unix操作系统编码,4.转换文件编码为与系统编码一致;下面通过对test.txt文件来举例。

 

1、 使用file命令来确定文件编码:

 

file test.txt
ISO-8859 text, with CRLF line terminators

  

 

也开始使用如下命令得到更加精确的编码:

 

file -bi test.txt | sed -e 's/.*[ ]charset=//' |tr '[a-z]' '[A-Z'
ISO-8859-1

 可见test.txt文件编码为ISO-8859-1编码。

 

2、 使用iconv -l确定iconv是否支持此种编码的转换:

$ iconv -l | grep ISO-8859-1
ISO-8859-1//
ISO-8859-10//
ISO-8859-11//
ISO-8859-13//
ISO-8859-14//
ISO-8859-15//
ISO-8859-16//

 

3、 确定Linux/Unix操作系统编码:

$ echo $LANG
zh_CN.UTF-8

 当前操作系统坏境编码为"UTF-8"

 

4、 转换编码

     注:由于file命令常常会误判编码,如发现转换出来的编码依然是乱码,可将iconv -f的输入编码换成其他常用编码试试: GBK、BIG5、HZ、GB2312、GB18030、ASCII。

另外:编码转换的时候,如果你的源格式设定为 GB2312 的话,而且在转换成 UTF-8 的时候,发现程序会报“illegal input sequence at position xxxx”的错误。这是由于你之前的做的假定有问题。GB2312 是国标里面一个最小也是最早的中文编码标准。其中,只涵盖了 6,763 个汉字。所以你需要转换的文件的原始的格式可能并不是 GB2312 编码。这个时候,你可以用 GB18030 做为源格式来进行转换。GB18030 是最新的国家标准,包含了 27,564 个汉字,而且向下兼容 GB2312 和 GBK。

假定的字符集指定,上述情况还可以在iconv中加入 -c 选项,忽略无效的字符,也可转换成功。

 

iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。

用法: iconv [选项...] [文件...]

有如下选项可用:

输入/输出格式规范:

-f, --from-code=名称 原始文本编码

-t, --to-code=名称 输出编码

信息:

-l, --list 列举所有已知的字符集

输出控制:

-c 从输出中忽略无效的字符

-o, --output=FILE 输出文件

-s, --silent 关闭警告

--verbose 打印进度信息

-?, --help 给出该系统求助列表

--usage 给出简要的用法信息

-V, --version 打印程序版本号

例子:

iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt

这个命令读取aaa.txt文件,从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。

 

附:

文件名转换

因为现在用linux,原来在windows里的文件都是用GBK编码的。所以copy到linux下是乱码,文件内容可以用iconv来转换可是好多中文的文件名还是乱码,找到个可以转换文件名编码的命令,就是convmv。

convmv命令详细参数

例如

convmv -f GBK -t UTF-8 *.mp3

不过这个命令不会直正的转换,你可以看到转换前后的对比。如果要直正的转换要加上参数 --notest

convmv -f GBK -t UTF-8 --notest *.mp3

-f 参数是指出转换前的编码,-t 是转换后的编码。这个千万不要弄错了。不然可能还是乱码哦。还有一个参数很有用。就是 -r 这个表示递归转换当前目录下的所有子目录。

三、更好的傻瓜型命令行工具enca,它不但能智能的识别文件的编码,而且还支持成批转换。

1.安装

$sudo apt-get install enca

2.查看当前文件编码

enca -L zh_CN ip.txt

Simplified Chinese National Standard; GB2312

Surrounded by/intermixed with non-text data

3.转换

命令格式如下

$enca -L 当前语言 -x 目标编码 文件名

例如要把当前目录下的所有文件都转成utf-8

enca -L zh_CN -x utf-8 *

enca -L zh_CN file 检查文件的编码

enca -L zh_CN -x UTF-8 file 将文件编码转换为"UTF-8"编码

enca -L zh_CN -x UTF-8 < file1 > file2 如果不想覆盖原文件可以这样,很简单吧。

 

其实还可以用notepad++转换,notepad++转换非常简单,windows中,使用Notepad++打开文件格式以后,选择“格式”工具栏,然后可以选择转换为某个格式

 

 

1
2
分享到:
评论

相关推荐

    windows下使用iconv转换编码 内附使用示例

    在Windows操作系统中,进行字符编码转换时,可能会遇到与Linux或Unix系统不同的情况,因为Windows原生并不包含iconv库。然而,为了满足跨平台的编码转换需求,开发者们为Windows构建了兼容iconv功能的实现。这个工具...

    ICONV 字符转换 编码库

    此外,`ICONV`也可以在命令行环境中直接使用,如在Linux或Unix系统上,通过`iconv`命令来转换文本文件的编码。 总之,`ICONV`字符转换库是处理编码转换问题的重要工具,它为开发者提供了便利,使得在不同编码系统间...

    字符编码转换iconv

    开发者可以通过调用 `libiconv` 的 API,如 `iconv_open()`、`iconv()` 和 `iconv_close()` 等函数,来在自己的代码中集成编码转换功能。 总之,`iconv` 是一个强大且实用的工具,无论是在日常的文本处理还是在复杂...

    qsimplecodec.rar_Linux/Unix编程_Unix_Linux_

    描述中的"next bits generated from tables on the Unicode 2.0 CD for Linux."表明这个库可能涉及到Unicode 2.0版本的编码转换,利用特定的表格数据进行处理。 **Linux/Unix编程基础** Linux和Unix系统都基于POSIX...

    Charset_SingleByte_windows_1256.rar_Linux/Unix编程_Unix_Linux_

    例如,`iconv`库就是用来进行不同字符集间转换的工具。 4. **C语言编程**:由于提供的文件名为"Charset_SingleByte_windows_1256.c",我们可以推断这是用C语言编写的代码,可能包含定义字符集转换的函数、处理单...

    iconv编码转码工具

    `iconv`可以与其他Unix/Linux命令结合使用,如`find`、`grep`等,实现更复杂的文本处理任务。例如,配合`find`搜索并转换目录下所有GBK编码的文件: ```bash find . -type f -name "*.txt" -exec iconv -f GBK -t ...

    7bit.zip_Linux/Unix编程_Unix_Linux_

    2. 编码转换:使用函数如`iconv()`进行字符编码的转换。在这个案例中,可能涉及到将7位编码的数据转换为其他编码格式,例如UTF-8。 3. 字符集和编码:理解ASCII码,它是7位编码的基础,以及如何在内存中存储和处理...

    iconv字符集转换库

    在Linux和类Unix系统中,libiconv是标准的一部分,而在其他操作系统如Windows上,可能需要单独安装或集成到开发环境中。 iconv的工作原理涉及到字符映射表,这些表定义了字符集之间的对应关系。当进行转换时,iconv...

    ANSICaUNICODE.rar_Linux/Unix编程_Unix_Linux_

    在"ANSIC&UNICODE.docx"文档中,可能详细讨论了如何在Linux/Unix环境下使用ANSI C编写程序来处理Unicode字符串,包括如何选择适当的类型,如何使用特定的库函数,以及如何处理编码转换问题。这些知识对于编写跨平台...

    Charset_SingleByte_windows_1255100.rar_Linux/Unix编程_DOS_

    2. **转换函数**:使用库函数如iconv或自定义函数将Windows-1255编码转换为系统默认的UTF-8或其他兼容编码。 3. **错误处理**:处理无法映射的字符,例如Windows-1255中的某些字符在UTF-8中可能没有对应的表示。 4...

    android iconv

    `iconv`库在各种操作系统上广泛使用,包括Unix、Linux以及Android等,它提供了从一种字符编码转换到另一种字符编码的功能。这个压缩包提供的可能是Android平台下的静态库版本,使得开发者可以直接在Android应用中...

    Iconv函数进行字符集转换.pdf

    总之,Iconv函数在字符集转换中扮演着重要角色,但在跨平台或多语言环境中使用时,需要注意与环境的兼容性和配置的准确性。通过深入分析异常信息和运行环境,可以有效定位和解决问题,确保应用程序的稳定运行。

    windows下的iconv静态库

    `iconv`是一个用于字符编码转换的库,它在各种操作系统中广泛使用,包括Unix、Linux以及Windows。在Windows环境下,开发人员有时需要处理不同编码之间的转换问题,这时`iconv`库就显得尤为重要。本篇文章将详细解释`...

    iconv.h iconv.lib charset.lib

    `iconv`函数是UNIX/Linux系统中用于进行字符集转换的标准接口,也可以通过移植在其他操作系统如Windows上使用。这个头文件提供了定义转换会话、打开和关闭转换描述符以及执行实际转换操作的函数原型。 2. **iconv....

    libiconv.zip_Linux/Unix编程_LINUX_

    在Linux和Unix操作系统中,编码转换是一个至关重要的任务,特别是在处理多语言和跨平台的数据时。`libiconv`是一个著名的开源库,专门用于字符集转换,如将UTF8编码转换为GB2312编码,反之亦然。这个压缩包`libiconv...

    iconv库 android ndk可运行

    在Android中使用iconv库的一个简单示例是: ```java public class IconvExample { static { System.loadLibrary("iconv"); // 加载编译好的.so库 } public native String convertEncoding(String input, ...

    网页编码转换软件 gbk转utf utf转gbk

    在实际操作中,除了使用专门的转换软件,还可以借助命令行工具,如Windows下的“iconv”或者Linux/Unix下的“iconv”,进行编码转换。这些命令行工具灵活性高,适合自动化脚本和批量处理大量文件。 在压缩包中的...

    androd的iconv

    Android平台上的`iconv`工具是用来进行字符编码转换的,它是跨平台的字符集转换库,在许多操作系统上广泛使用,包括Linux、Unix以及Android。在Android环境下,由于系统可能需要处理来自不同源的数据,这些数据可能...

    Linux-pure-character_based-interface.rar_Linux/Unix编程_WORD_

    此外,为了在脚本或程序中处理中文,我们需要确保文件编码正确,并使用能处理Unicode的工具,如`iconv`进行转换,或在编写脚本时指定正确的编码(如`#!/bin/bash -euo pipefail`后的`-C UTF-8`)。 总之,要在Linux...

    iconv库函数的学习程序

    通过实际编写和运行示例代码,你将更深入地理解如何在程序中使用iconv库,以及如何处理各种编码转换的问题。这不仅可以提升你的编程技能,还能让你更好地应对多语言环境下的软件开发挑战。同时,对libiconv库的探索...

Global site tag (gtag.js) - Google Analytics