`

perl utf8 encoding decoding HTML::Entities Perl中字符串编码的处理

    博客分类:
  • perl
阅读更多

转自:http://hi.baidu.com/youzhch/blog/item/991ad4357baeb00491ef3965.html

#!/usr/bin/perl -w
use CGI;
use Encode;
use HTML::Entities;
use utf8;
$query = new CGI;

 

 

print $query->header(  -charset=>'utf-8' ); 

$a = $query->param('word');
my $a = decode("utf8", $a);   # make a string  utf

$b = encode_entities($a);

 


#$secretword = $query->param('word');
$remotehost = $query->remote_host();

$secretword = encode_entities($secretword);


#$a = "utf8 &#xHHHH สิ่งเล็กเล็กที่เรียกว่า•รัก   中文 行(ゆ)こう行こうみんなわくわく";
#$b = encode_entities($a);

#print $secretword."\n";    #输出中文  在浏览器里显示为“中文”

print $a."\n";
print $b.$b."\n";    #输出中文  在浏览器里显示为“中文”
#$b =~ s/&/&/g;
#print $b."\n";    #输出中文  在浏览器里显示为中文

 

print<<"[HTML]";               
  

<form name="f1" method="post" action="utf8hhhh.pl">
  <p>word: <input name="word" type="text" value="$b"> 
 <input type="submit" name="Submit" value=" 查询 "></p>

</form><br>
$b    #输出&#x4E2D;&#x6587;  在浏览器里显示为“中文”
[HTML]

 

 


 

###########

 这种东西还真的少有人写,其实是转换成16进制的,研究后把代码贴给你,希望给你有用,也给后人做参考(代码部分请保存为UTF8格式,为便于显示,控制台输出我指定为GB2312),如果格式为GB2312,需要加载Encode模块,使用语句encode("utf-8", decode("gb2312", $str))进行转换。

#!/usr/bin/perl
$|=1;
use URI::Escape qw(uri_escape_utf8);
#  use encoding 'utf8', STDIN=>'utf8', STDOUT=>'gb2312';  #  original code
use encoding 'utf8', STDIN=>'utf8', STDOUT=>'utf8';
my $str="~~我有一所房子,面朝大海,春暖花开...";
for my $i(0..length($str)-1) {
 if (ord(substr($str,$i,1))<0xFF){
  print substr($str,$i,1);
 } else {
  print sprintf("&#x%1x;",ord(substr($str,$i,1)));
 }
}

 

#################Perl中字符串编码的处理

在Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说: Perl只熟悉两种编码: Ascii(octets)和utf8(string).

utf8 flag
在perl内部, 字符串结构由两部分组成: 数据和utf8 flag. 比如字符串"中国"在perl内部的存储是这样:
utf8 flag 数据
On 中国
假如utf8 flag是On的话, perl就会把中国当成utf8字符串来处理, 假如utf8 flag为Off, perl就会把他当成octets来处理. 所有字符串相关的函数包括正则表达式都会受utf8 flag的影响. 让我们来看个例子:
程序代码:
use Encode;
use strict;
my $str = "中国";
Encode::_utf8_on($str);
print length($str) . "\n";
Encode::_utf8_off($str);
print length($str) . "\n";
运行结果是:
程序代码:
2
6
这里我们使用Encode模块的_utf8_on函数和_utf8_off函数来开关字符串"中国"的utf8 flag. 可以看到, utf8 flag打开的时候, "中国"被当成utf8字符串处理, 所以其长度是2. utf8 flag关闭的时候, "中国"被当成octets(字节数组)处理, 出来的长度是6(我的编辑器用的是utf8编码, 假如你的编辑器用的是gb2312编码, 那么长度应该是4).

再来看看正则表达式的例子:
程序代码:
use Encode;
use strict;
my $a = "china----中国";
my $b = "china----中国";
Encode::_utf8_on($a);
Encode::_utf8_off($b);
$a =~ s/\W //g;
$b =~ s/\W //g;
print $a, "\n";
print $b, "\n";
运行结果:
程序代码:
Wide character in print at unicode.pl line 10.
china中国
china
结果第一行是一条警告, 这个我们稍后再讨论. 结果的第二行说明, utf8 flag开启的情况下, 正则表达式中的\w能够匹配中文, 反之则不能.
如何确定一个字符串的utf8 flag是否已开启? 使用Encode::is_utf8($str). 这个函数并不是用来检测一个字符串是不是utf8编码, 而是仅仅看看它的utf8 flag是否开启.

eq是一个字符串比较操作符, 只有当字符串的内容一致并且utf8 flag的状态也是一致的时候, eq才会返回真.

unicode转码
假如你有一个字符串"中国", 它是gb2312编码的. 假如它的utf8 flag是关闭的, 它就会被当成octets来处理, length()会返回4, 这通常不是你想要的. 而假如你开启它的utf8 flag, 则它会被当做utf8编码的字符串来处理. 由于它本来的编码是gb2312的, 不是utf8的, 这就可能导致错误发生. 由于gb2312和utf8内码范围部分重叠, 所以很多时候, 不会有错误报出来, 但是perl可能已经错误地拆解了字符. 严重的时候, perl会报警, 说某个字节不是合法的utf8内码.
解决的方法很显然, 假如你的字符串本来不是utf8编码的, 应该先把它转成utf8编码, 并且使它的utf8 flag处于开启状态. 对于一个gb2312编码的字符串, 你可以使用
程序代码:
$str = Encode::decode("gb2312", $str);
来将其转化为utf8编码并开启utf8 flag. 假如你的字符串编码本来就是utf8, 只是utf8 flag没有打开, 那么你可以使用以下三种方式中的任一种来开启utf8 flag:
程序代码:
$str = Encode::decode_utf8($str);
$str = Encode::decode("utf8", $str);
Encode::_utf8_on($str);
最后一种方式效率最高, 但是官方不推荐. 以下划线开头的函数是内部函数, 出于礼貌, 一般不从外部调用.

字符串连接
. 是字符串连接操作符. 连接两个字符串时, 假如两个字符串的utf8 flag都是Off, 那么结果字符串也是Off. 假如其中任何一个字符串的utf8 flag是On的话, 那么结果字符串的utf8 flag将是On. 连接字符串并不会改变它们原来的编码, 所以假如你把两个不同编码的字符串连在一起, 那么以后不管对这个字符串怎么转码, 都总会有一段是乱码. 这种情况一定要避免, 连接两个字符串之前应该确保它们编码一致. 如有必要, 先进行转码, 再连接字符串.

perl unicode编程基本原则
对于任何要处理的unicode字符串, 1)把它的编码转换成utf8; 2)开启它的utf8 flag

字符串来源
为了应用上面说到的基本原则, 我们首先要知道字符串本来的编码和utf8 flag开关情况, 这里我们讨论几种情况.
1) 命令行参数和标准输入. 从命令行参数或标准输入(STDIN)来的字符串, 它的编码跟locale有关. 假如你的locale是zh_CN或zh_CN.gb2312, 那么进来的字符串就是gb2312编码, 假如你的locale是zh_CN.gbk, 那么进来的编码就是gbk, 假如你的编码是zh_CN.UTF8, 那进来的编码就是utf8. 不管是什么编码, 进来的字符串的utf8 flag都是关闭的状态.
2) 你的源代码里的字符串. 这要看你编写源代码时用的是什么编码. 在editplus里, 你可以通过"文件"->"另存为"查看和更改编码. 在linux下, 你可以cat一个源代码文件, 假如中文正常显示, 说明源代码的编码跟locale是一致的. 源代码里的字符串的utf8 flag同样是关闭的状态.
假如你的源代码里含有中文, 那么你最好遵循这个原则: 1) 编写代码时使用utf8编码, 2)在文件的开头加上use utf8;语句. 这样, 你源代码里的字符串就都会是utf8编码的, 并且utf8 flag也已经打开.
3) 从文件读入. 这个毫无疑问, 你的文件是什么编码, 读进来就是什么编码了. 读进来以后, utf8 flag是off状态.
4) 抓取网页. 网页是什么编码就是什么编码, utf8 flag是off状态. 网站的编码可以从响应头里或者html的http://www.sina.com.cn";
eval {my $str2 = $str; Encode::decode("gbk", $str2, 1)};
print "not gbk: [url=]$@\n[/url]" if $@;
eval {my $str2 = $str; Encode::decode("utf8", $str2, 1)};
print "not utf8: [url=]$@\n[/url]" if $@;
eval {my $str2 = $str; Encode::decode("big5", $str2, 1)};
print "not big5: [url=]$@\n[/url]" if $@;
输出:
程序代码:
not utf8: utf8 "\xD0" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.
not big5: big5-eten "\xC8" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.
我们给decode函数传递了第三个参数, 要求有异常字符的时候报错. 我们用eval捕捉错误, 转码失败说明字符串本来不是这种编码. 另外注重我们每次都把$str拷贝到$str2, 这是因为decode第三个参数为1时, decode以后, 传给它的字符串参数(第二个参数会被清空). 我们拷贝一下, 这样每次被清空的都是$str2, $str不变.
来看结果, 既然不是utf8, 也不是big5, 那就应该是gbk了. 对于其他不知编码的字符串, 也可以使用这种方法来猜. 不过因为几种编码的内码范围都差不多, 所以假如字符串比较短, 就可能出不了异常字符, 所以这个方法只适用于大段的文字.

输出字符串
在程序内被正确地处理后, 要展现给用户. 这时我们需要把字符串从perl internal form转化成用户能接受的形式. 简单地说, 就是把字符串从utf8编码转换成输出的编码或表现界面的编码. 这时候, 我们使用$str = Encode::encode(charset, $str);. 同样可以分为几种情况.
1) 标准输出. 标准输出的编码跟locale一致. 输出的时候utf8 flag应该关闭, 不然就会出现我们前面看到的那行警告:
程序代码:
Wide character in print at unicode.pl line 10.
2) GUI程序. 这个应该是不用干什么, utf8编码, utf8 flag开启就行. 没有实际测试过.
3) 做http post. 看网页表单要求什么编码. utf8 flag开或关无所谓, 因为http post发送出去的只是字符串中的数据部分, 不管utf8 flag.
PerlIO
PerlIO为我们的输入/输出转码提供了便利. 它可以针对某个文件句柄, 输入的时候自动帮你转码并开启utf8 flag, 输出的时候, 自动帮你转码并关闭utf8 flag. 假设你的终端locale是gb2312, 看下面的例子:
程序代码:
use strict;
binmode(STDIN, ":encoding(gb2312)");
binmode(STDOUT, ":encoding(gb2312)");
while (<>) {
chomp;
print $_, length, "\n";
}
运行后输入"中国", 结果:
程序代码:
中国2
这样我们就省去了输入和输出时转码的麻烦. PerlIO可以作用于任何文件句柄, 具体请参考perldoc PerlIO.

相关API
都是Encode模块的:
$octets = encode(ENCODING, $string [, CHECK]) 把字符串从utf8编码转成指定的编码, 并关闭utf8 flag.
$string = decode(ENCODING, $octets [, CHECK]) 把字符串从其他编码转成utf8编码, 并开启utf8 flag, 不过有个例外就是, 假如字符串是仅仅ascii编码或EBCDIC编码的话, 不开启utf8 flag.
is_utf8(STRING [, CHECK]) 看看utf8 flag是否开启. 假如第二个参数为真, 则同时检查编码是否符合utf8. 这个检测不一定准确, 跟decode方式检测效果一样.
_utf8_on(STRING) 打开字符串的utf flag
_utf8_off(STRING) 关闭字符串的utf flag
最后两个是内部函数, 不推荐使用.
参考perldoc Encode.

utf8和utf-8
前面我们提到的一直都是utf8. 在perl中, utf8和utf-8是不一样的. utf-8是指国际上标准的utf-8定义, 而utf8是perl在国际标准上做了一些扩展, 能兼容的内码要比国际标准的多一些. perl internal form使用的是utf8. 另外顺便提一下, 字符集的名称是不区分大小写的并且"_"和"-"是等价的.

EBCDIC是一套遗留的宽字符解决方案, 不同于unicode, 它不是Ascii的超集. 上面介绍的方案并不完全适用于EBCDIC. 关于EBCDIC, 请参考perldoc perlebcdic.

 

分享到:
评论

相关推荐

    哈夫曼编/译码器I:初始化(Initialization)。E:编码(Encoding)。D:译码(Decoding)。P:印代码文件(Print)。T:印哈夫曼树(Tree Printing)。

    本项目旨在设计并实现一套完整的哈夫曼编/译码器系统,具体包括五个核心功能模块:初始化(Initialization)、编码(Encoding)、译码(Decoding)、打印代码文件(Print)及打印哈夫曼树(Tree Printing)。...

    北邮信通院数据结构实验_哈夫曼树

    3、编码(Encoding):根据编码表对输入的字符串进行编码,并将编码后的字符串输出。 4、译码(Decoding):利用已经建好的哈夫曼树对编码后的字符串进行译码,并输出译码结果。 5、打印(Print):以直观的方式打印...

    Reed-Solomon Encoding and Decoding.pdf

    在文件《Reed-Solomon Encoding and Decoding.pdf》中,作者León van de Pavert详细阐述了Reed-Solomon编码和解码的机制,并特别关注其在检测和纠正突发错误中的应用。此外,文件中还提到了交错(cross-...

    哈夫曼树(采用bit型编码)

    3、 编码(Encoding):根据编码表对输入的字符串进行编码,并将编码后的字符串输出。 4、 译码(Decoding):利用已经建好的赫夫曼树对编码后的字符串进行译码,并输出译码结果。 5、 计算输入的字符串编码前和编码后的...

    Encoding2Decoding:一种更简单的数据传输方法

    npm i encoding2decoding 编码方式 const { encode } = require ( 'encoding2decoding' ) ; encode ( 'abc' ) ; // Returns 101112 解码 const { decode } = require ( 'encoding2decoding' ) ; decode ( '101112' )...

    C# 将中文乱码转换成中文

    常见的字符编码有ASCII、ISO-8859-1(Latin-1)、GB2312、GBK、UTF-8等。其中,ISO-8859-1主要支持西欧语言,而GB2312是早期的简体中文编码标准,UTF-8则是一种通用的多字节编码,广泛应用于互联网。 #### 2. 编码...

    codepage-strings:Windows代码页的字符串编码解码

    编码和解码是处理字符串数据时的关键步骤,尤其是在跨平台或多语言环境中。本文将深入探讨Windows代码页的原理、Rust编程语言中的实现以及如何进行字符串的编码和解码。 代码页的概念源于早期的计算机时代,当时...

    字符串转换工具

    4. **编码与解码**:将字符串从一种编码格式转换到另一种,需要进行编码(Encoding)和解码(Decoding)操作。例如,从UTF-8编码的字符串转换成GBK编码,需要先解码成Unicode,然后再按照GBK的规则编码。 5. **16...

    利用二叉树结构实现赫夫曼编/解码器。

    3、 编码(Encoding):根据编码表对输入的字符串进行编码,并将编码后的字符串输出。 4、 译码(Decoding):利用已经建好的赫夫曼树对编码后的字符串进行译码,并输出译码结果。 5、 打印(Print):以直观的方式打印...

    Run Length Encoding and Decoding:这两个m文件用于RLE编解码。-matlab开发

    解码时,读取编码字符串中的每一对数字和字符,然后将字符按照对应的次数重复写入结果。 ### MATLAB 实现 在 MATLAB 中,我们可以创建两个 M 文件,一个用于编码,一个用于解码。编码函数可能如下: ```matlab ...

    Take Assessment: Exercise 1: Decoding Lab Secret.cpp

    Take Assessment: Exercise 1: Decoding Lab secret.cpp文件

    Arithmetic Encoding/Decoding:Arithmetic Encoding/Decoding using Matlab-matlab开发

    在编码过程中,不断更新区间,直到整个消息被编码为一个单一的小于1的实数值。这个实数值就是编码后的结果,通常会转换为二进制表示并存储。 **`arithenco`函数** 在Matlab中,`arithenco`函数用于执行算术编码。...

    Arithimatic Encoding And Decoding: Arithimatic Encoding And Decoding with block code length-matlab开发

    编码过程中,通过不断细化区间来表示当前处理的数据,直到数据序列结束,最终得到的区间左端点就是编码结果。解码时,根据已知的编码和概率模型,反向推导出原始数据。 在MATLAB中实现算术编码,首先需要构建概率...

    哈弗曼编/译码器(C语言)

    这种编码技术在信息传输和存储中发挥着重要作用,特别是在图像处理(如JPEG)、文本压缩等领域广泛应用。本文将深入探讨哈弗曼编码的原理、构建过程以及如何用C语言实现。 哈弗曼编码的核心思想是利用字符出现频率...

    RS ENCODING AND DECODING

    这些模块负责处理有限域内的乘法操作,是实现RS编码和解码不可或缺的一部分。 ### 总结 综上所述,给定文件提供了RS编码与解码过程中的一个具体实现案例,涉及到了参数设置、模块设计、系数计算等多个方面。通过对...

    哈弗曼树编码译码系统

    哈弗曼树编码译码系统是一种基于数据结构和算法的高效数据压缩方法,它利用了哈弗曼树(Huffman Tree)的特性来实现字符的编码和解码。哈弗曼编码是信息熵编码的一种,主要用于无损数据压缩,尤其在文本、图像等数据...

    Raptor Encoding Decoding_raptor_Raptorcodes_EXITChart_accumulato

    EXIT图(Iterative decoding EXIT chart)是一种用于评估迭代解码性能的图形工具,特别是在LDPC和Turbo码中。对于Raptor编码,EXIT图可以用来预测解码的收敛行为和成功概率。图中的每个点代表编码器和解码器的互...

    哈夫曼编码的matlab代码-Huffman-Encoding-Decoding:MATLAB中的霍夫曼代码编码和解码

    哈夫曼编码的matlab代码霍夫曼编码解码 MATLAB中的霍夫曼代码编码和解码 这是阿尔伯塔大学CM​​PUT 307的实验1。 这是有关如何在MATLAB中编码和解码霍夫曼代码的示例代码。 TA为CMPUT 299提供了部分代码。

    北邮数据结构实验—Huffman编码解码器.pdf

    3. 编码(Encoding):依据编码表对输入字符串进行编码,输出编码后的字符串。 4. 译码(Decoding):利用哈夫曼树对编码后的字符串进行解码,恢复原字符串。 5. 分析:比较编码前后的字符串长度,讨论哈夫曼编码的压缩...

Global site tag (gtag.js) - Google Analytics