iconv命令是运行于linux/unix平台的文件编码装换工具。当我们在linux/unix系统shell查看文本文件时,常常会发现文件的中文是乱码的,这是由于文本文件的编码与当前操作系统设置的编码不同而引起的,这时可以使用iconv进行编码转换,从而解决乱码问题。
解决文本文件乱码问题分3步:1.确定文件编码,2.确定iconv是否支持此编码的转换,3.确定Linux/Unix操作系统编码,4.转换文件编码为与系统编码一致;下面通过对test.txt文件来举例。
1、 使用file命令来确定文件编码:
file test.txt ISO-8859 text, with CRLF line terminators
也开始使用如下命令得到更加精确的编码:
file -bi test.txt | sed -e 's/.*[ ]charset=//' |tr '[a-z]' '[A-Z' ISO-8859-1
可见test.txt文件编码为ISO-8859-1编码。
2、 使用iconv -l确定iconv是否支持此种编码的转换:
$ iconv -l | grep ISO-8859-1 ISO-8859-1// ISO-8859-10// ISO-8859-11// ISO-8859-13// ISO-8859-14// ISO-8859-15// ISO-8859-16//
3、 确定Linux/Unix操作系统编码:
$ echo $LANG zh_CN.UTF-8
当前操作系统坏境编码为"UTF-8"
4、 转换编码
注:由于file命令常常会误判编码,如发现转换出来的编码依然是乱码,可将iconv -f的输入编码换成其他常用编码试试: GBK、BIG5、HZ、GB2312、GB18030、ASCII。
另外:编码转换的时候,如果你的源格式设定为 GB2312 的话,而且在转换成 UTF-8 的时候,发现程序会报“illegal input sequence at position xxxx”的错误。这是由于你之前的做的假定有问题。GB2312 是国标里面一个最小也是最早的中文编码标准。其中,只涵盖了 6,763 个汉字。所以你需要转换的文件的原始的格式可能并不是 GB2312 编码。这个时候,你可以用 GB18030 做为源格式来进行转换。GB18030 是最新的国家标准,包含了 27,564 个汉字,而且向下兼容 GB2312 和 GBK。
iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。
用法: iconv [选项...] [文件...]
有如下选项可用:
输入/输出格式规范:
-f, --from-code=名称 原始文本编码
-t, --to-code=名称 输出编码
信息:
-l, --list 列举所有已知的字符集
输出控制:
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息
-?, --help 给出该系统求助列表
--usage 给出简要的用法信息
-V, --version 打印程序版本号
例子:
iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt
这个命令读取aaa.txt文件,从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。
附:
文件名转换
因为现在用linux,原来在windows里的文件都是用GBK编码的。所以copy到linux下是乱码,文件内容可以用iconv来转换可是好多中文的文件名还是乱码,找到个可以转换文件名编码的命令,就是convmv。
convmv命令详细参数
例如
convmv -f GBK -t UTF-8 *.mp3
不过这个命令不会直正的转换,你可以看到转换前后的对比。如果要直正的转换要加上参数 --notest
convmv -f GBK -t UTF-8 --notest *.mp3
-f 参数是指出转换前的编码,-t 是转换后的编码。这个千万不要弄错了。不然可能还是乱码哦。还有一个参数很有用。就是 -r 这个表示递归转换当前目录下的所有子目录。
三、更好的傻瓜型命令行工具enca,它不但能智能的识别文件的编码,而且还支持成批转换。
1.安装
$sudo apt-get install enca
2.查看当前文件编码
enca -L zh_CN ip.txt
Simplified Chinese National Standard; GB2312
Surrounded by/intermixed with non-text data
3.转换
命令格式如下
$enca -L 当前语言 -x 目标编码 文件名
例如要把当前目录下的所有文件都转成utf-8
enca -L zh_CN -x utf-8 *
enca -L zh_CN file 检查文件的编码
enca -L zh_CN -x UTF-8 file 将文件编码转换为"UTF-8"编码
enca -L zh_CN -x UTF-8 < file1 > file2 如果不想覆盖原文件可以这样,很简单吧。
其实还可以用notepad++转换,notepad++转换非常简单,在windows中,使用Notepad++打开文件格式以后,选择“格式”工具栏,然后可以选择转换为某个格式
相关推荐
在Windows操作系统中,进行字符编码转换时,可能会遇到与Linux或Unix系统不同的情况,因为Windows原生并不包含iconv库。然而,为了满足跨平台的编码转换需求,开发者们为Windows构建了兼容iconv功能的实现。这个工具...
此外,`ICONV`也可以在命令行环境中直接使用,如在Linux或Unix系统上,通过`iconv`命令来转换文本文件的编码。 总之,`ICONV`字符转换库是处理编码转换问题的重要工具,它为开发者提供了便利,使得在不同编码系统间...
开发者可以通过调用 `libiconv` 的 API,如 `iconv_open()`、`iconv()` 和 `iconv_close()` 等函数,来在自己的代码中集成编码转换功能。 总之,`iconv` 是一个强大且实用的工具,无论是在日常的文本处理还是在复杂...
描述中的"next bits generated from tables on the Unicode 2.0 CD for Linux."表明这个库可能涉及到Unicode 2.0版本的编码转换,利用特定的表格数据进行处理。 **Linux/Unix编程基础** Linux和Unix系统都基于POSIX...
例如,`iconv`库就是用来进行不同字符集间转换的工具。 4. **C语言编程**:由于提供的文件名为"Charset_SingleByte_windows_1256.c",我们可以推断这是用C语言编写的代码,可能包含定义字符集转换的函数、处理单...
`iconv`可以与其他Unix/Linux命令结合使用,如`find`、`grep`等,实现更复杂的文本处理任务。例如,配合`find`搜索并转换目录下所有GBK编码的文件: ```bash find . -type f -name "*.txt" -exec iconv -f GBK -t ...
2. 编码转换:使用函数如`iconv()`进行字符编码的转换。在这个案例中,可能涉及到将7位编码的数据转换为其他编码格式,例如UTF-8。 3. 字符集和编码:理解ASCII码,它是7位编码的基础,以及如何在内存中存储和处理...
在Linux和类Unix系统中,libiconv是标准的一部分,而在其他操作系统如Windows上,可能需要单独安装或集成到开发环境中。 iconv的工作原理涉及到字符映射表,这些表定义了字符集之间的对应关系。当进行转换时,iconv...
在"ANSIC&UNICODE.docx"文档中,可能详细讨论了如何在Linux/Unix环境下使用ANSI C编写程序来处理Unicode字符串,包括如何选择适当的类型,如何使用特定的库函数,以及如何处理编码转换问题。这些知识对于编写跨平台...
2. **转换函数**:使用库函数如iconv或自定义函数将Windows-1255编码转换为系统默认的UTF-8或其他兼容编码。 3. **错误处理**:处理无法映射的字符,例如Windows-1255中的某些字符在UTF-8中可能没有对应的表示。 4...
`iconv`是一个用于字符编码转换的库,它在各种操作系统中广泛使用,包括Unix、Linux以及Windows。在Windows环境下,开发人员有时需要处理不同编码之间的转换问题,这时`iconv`库就显得尤为重要。本篇文章将详细解释`...
`iconv`库在各种操作系统上广泛使用,包括Unix、Linux以及Android等,它提供了从一种字符编码转换到另一种字符编码的功能。这个压缩包提供的可能是Android平台下的静态库版本,使得开发者可以直接在Android应用中...
总之,Iconv函数在字符集转换中扮演着重要角色,但在跨平台或多语言环境中使用时,需要注意与环境的兼容性和配置的准确性。通过深入分析异常信息和运行环境,可以有效定位和解决问题,确保应用程序的稳定运行。
`iconv`函数是UNIX/Linux系统中用于进行字符集转换的标准接口,也可以通过移植在其他操作系统如Windows上使用。这个头文件提供了定义转换会话、打开和关闭转换描述符以及执行实际转换操作的函数原型。 2. **iconv....
在Linux和Unix操作系统中,编码转换是一个至关重要的任务,特别是在处理多语言和跨平台的数据时。`libiconv`是一个著名的开源库,专门用于字符集转换,如将UTF8编码转换为GB2312编码,反之亦然。这个压缩包`libiconv...
在Android中使用iconv库的一个简单示例是: ```java public class IconvExample { static { System.loadLibrary("iconv"); // 加载编译好的.so库 } public native String convertEncoding(String input, ...
在实际操作中,除了使用专门的转换软件,还可以借助命令行工具,如Windows下的“iconv”或者Linux/Unix下的“iconv”,进行编码转换。这些命令行工具灵活性高,适合自动化脚本和批量处理大量文件。 在压缩包中的...
Android平台上的`iconv`工具是用来进行字符编码转换的,它是跨平台的字符集转换库,在许多操作系统上广泛使用,包括Linux、Unix以及Android。在Android环境下,由于系统可能需要处理来自不同源的数据,这些数据可能...
此外,为了在脚本或程序中处理中文,我们需要确保文件编码正确,并使用能处理Unicode的工具,如`iconv`进行转换,或在编写脚本时指定正确的编码(如`#!/bin/bash -euo pipefail`后的`-C UTF-8`)。 总之,要在Linux...
通过实际编写和运行示例代码,你将更深入地理解如何在程序中使用iconv库,以及如何处理各种编码转换的问题。这不仅可以提升你的编程技能,还能让你更好地应对多语言环境下的软件开发挑战。同时,对libiconv库的探索...