- 浏览: 276744 次
- 性别:
- 来自: 大连
文章分类
最新评论
-
fei33423:
其实查看源代码你可以发现 update其实是调用了execut ...
JdbcTemplate 中execute和update的区别: -
CoderDream:
不错,感谢分享!
为绿色版NOTEPAD++添加右键菜单 -
t382159355:
谢谢分享..感激不尽.
java中this用法 -
風一樣的男子:
kankan1218 写道風一樣的男子 写道出乎意料??
菜B ...
结果出乎大部分人的意料 -
feipigzi:
引用java教程中的一段话:我们可以这样理解子类创建的对象:1 ...
结果出乎大部分人的意料
耐心看完本文,相信你今后在unicode处理上不会再有什么问题。
本文内容适用于perl 5.8及其以上版本。
perl internal form
在Perl看来, 字符串只有两种形式。 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string。 也就是说: Perl只认识两种编码: Ascii(octets)和utf8(string)。
utf8 flag
那么perl如何确定一个字符串是octets还是utf8编码的字符串呢? perl可没有什么智能, 他完全是靠字符串上的utf8 flag。在perl内部, 字符串结构由两部分组成: 数据和utf8 flag。比如字符串“中国”在perl内部的存储是这样:
utf8 flag
数据
On
中国
如果utf8 flag是On的话, perl就会把中国当成utf8字符串来处理, 如果utf8 flag为Off, perl就会把他当成octets来处理。所有字符串相关的函数包括正则表达式都会受utf8 flag的影响。让我们来看个例子:
程序代码:
use Encode;
use strict;
my $str = "中国";
Encode::_utf8_on($str);
print length($str) . "\n";
Encode::_utf8_off($str);
print length($str) . "\n";
运行结果是:
2
6
这里我们使用Encode模块的_utf8_on函数和_utf8_off函数来开关字符串“中国”的utf8 flag。可以看到, utf8 flag打开的时候,“中国”被当成utf8字符串处理, 所以其长度是2。 utf8 flag关闭的时候,“中国”被当成octets(字节数组)处理, 出来的长度是6(我的编辑器用的是utf8编码, 如果你的编辑器用的是gb2312编码, 那么长度应该是4)。
再来看看正则表达式的例子:
程序代码:
use Encode;
use strict;
my $a = "china----中国";
my $b = "china----中国";
Encode::_utf8_on($a);
Encode::_utf8_off($b);
$a =~ s/\W+//g;
$b =~ s/\W+//g;
print $a, "\n";
print $b, "\n";
运行结果:
Wide character in print at unicode.pl line 10.
china中国
china
结果第一行是一条警告, 这个我们稍后再讨论。结果的第二行说明, utf8 flag开启的情况下, 正则表达式中的\w能够匹配中文, 反之则不能。
如何确定一个字符串的utf8 flag是否已开启? 使用Encode::is_utf8($str)。这个函数并不是用来检测一个字符串是不是utf8编码, 而是仅仅看看它的utf8 flag是否开启。
eq
eq是一个字符串比较操作符, 只有当字符串的内容一致并且utf8 flag的状态也是一致的时候, eq才会返回真。
理论就是上面这些, 一定要搞明白, 记清楚! 下面是实际应用。
unicode转码
如果你有一个字符串“中国”, 它是gb2312编码的。 如果它的utf8 flag是关闭的, 它就会被当成octets来处理, length()会返回4, 这通常不是你想要的。 而如果你开启它的utf8 flag, 则它会被当做utf8编码的字符串来处理。由于它本来的编码是gb2312的, 不是utf8的,这就可能导致错误发生。由于gb2312和utf8内码范围部分重叠, 所以很多时候, 不会有错误报出来, 但是perl可能已经错误地拆解了字符。严重的时候, perl会报警, 说某个字节不是合法的utf8内码。
解决的方法很显然, 如果你的字符串本来不是utf8编码的, 应该先把它转成utf8编码, 并且使它的utf8 flag处于开启状态。对于一个gb2312编码的字符串, 你可以使用
程序代码:
$str = Encode::decode("gb2312", $str);
来将其转化为utf8编码并开启utf8 flag。如果你的字符串编码本来就是utf8, 只是utf8 flag没有打开, 那么你可以使用以下三种方式中的任一种来开启utf8 flag:
程序代码:
$str = Encode::decode_utf8($str);
$str = Encode::decode("utf8", $str);
Encode::_utf8_on($str);
最后一种方式效率最高, 但是官方不推荐。以下划线开头的函数是内部函数, 出于礼貌, 一般不从外部调用。
字符串连接
. 是字符串连接操作符。连接两个字符串时, 如果两个字符串的utf8 flag都是Off, 那么结果字符串也是Off. 如果其中任何一个字符串的utf8 flag是On的话, 那么结果字符串的utf8 flag将是On。连接字符串并不会改变它们原来的编码, 所以如果你把两个不同编码的字符串连在一起, 那么以后不管对这个字符串怎么转码, 都总会有一段是乱码。这种情况一定要避免, 连接两个字符串之前应该确保它们编码一致。如有必要, 先进行转码, 再连接字符串。
perl unicode编程基本原则
对于任何要处理的unicode字符串, 1)把它的编码转换成utf8; 2)开启它的utf8 flag
字符串来源
为了应用上面说到的基本原则, 我们首先要知道字符串本来的编码和utf8 flag开关情况, 这里我们讨论几种情况。
1) 命令行参数和标准输入。 从命令行参数或标准输入(STDIN)来的字符串, 它的编码跟locale有关。如果你的locale是zh_CN或zh_CN.gb2312, 那么进来的字符串就是gb2312编码, 如果你的locale是zh_CN.gbk, 那么进来的编码就是gbk, 如果你的编码是zh_CN.UTF8, 那进来的编码就是utf8。 不管是什么编码, 进来的字符串的utf8 flag都是关闭的状态。
2) 你的源代码里的字符串。 这要看你编写源代码时用的是什么编码。 在editplus里, 你可以通过“文件”->“另存为”查看和更改编码。 在linux下, 你可以cat一个源代码文件, 如果中文正常显示, 说明源代码的编码跟locale是一致的。源代码里的字符串的utf8 flag同样是关闭的状态。
如果你的源代码里含有中文, 那么你最好遵循这个原则: 1) 编写代码时使用utf8编码, 2)在文件的开头加上“use utf8;”语句。这样, 你源代码里的字符串就都会是utf8编码的, 并且utf8 flag也已经打开。
3) 从文件读入。 这个毫无疑问, 你的文件是什么编码, 读进来就是什么编码了。读进来以后, utf8 flag是off状态。
4) 抓取网页。网页是什么编码就是什么编码, utf8 flag是off状态。网站的编码可以从响应头里或者html的<head>标签里获得。也有可能出现响应头和html head里都没说明编码的情况, 这个就是做的很不礼貌的网页了。这时候只能用程序来猜:
程序代码:
use Encode;
use LWP::Simple qw(get);
use strict;
my $str = get "http://www.sina.com.cn";
eval {my $str2 = $str; Encode::decode("gbk", $str2, 1)};
print "not gbk: $@\n" if $@;
eval {my $str2 = $str; Encode::decode("utf8", $str2, 1)};
print "not utf8: $@\n" if $@;
eval {my $str2 = $str; Encode::decode("big5", $str2, 1)};
print "not big5: $@\n" if $@;
输出:
程序代码:
not utf8: utf8 "\xD0" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.
not big5: big5-eten "\xC8" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.
我们给decode函数传递了第三个参数, 要求有异常字符的时候报错。我们用eval捕获错误, 转码失败说明字符串本来不是这种编码。另外注意我们每次都把$str拷贝到$str2, 这是因为decode第三个参数为1时, decode以后, 传给它的字符串参数(第二个参数会被清空)。我们拷贝一下, 这样每次被清空的都是$str2, $str不变。
来看结果, 既然不是utf8, 也不是big5, 那就应该是gbk了。对于其他不知编码的字符串, 也可以使用这种方法来猜。不过因为几种编码的内码范围都差不多, 所以如果字符串比较短, 就可能出不了异常字符, 所以这个方法只适用于大段的文字。
输出
字符串在程序内被正确地处理后, 要展现给用户。这时我们需要把字符串从perl internal form转化成用户能接受的形式。简单地说, 就是把字符串从utf8编码转换成输出的编码或表现界面的编码。这时候, 我们使用$str = Encode::encode('charset', $str);。同样可以分为几种情况。
1) 标准输出。标准输出的编码跟locale一致。输出的时候utf8 flag应该关闭, 不然就会出现我们前面看到的那行警告:
Wide character in print at unicode.pl line 10.
2) GUI程序。这个应该是不用干什么, utf8编码, utf8 flag开启就行。没有实际测试过。
3) 做http post。看网页表单要求什么编码。utf8 flag开或关无所谓, 因为http post发送出去的只是字符串中的数据部分, 不管utf8 flag。
PerlIO
PerlIO为我们的输入/输出转码提供了便利。它可以针对某个文件句柄, 输入的时候自动帮你转码并开启utf8 flag, 输出的时候, 自动帮你转码并关闭utf8 flag。假设你的终端locale是gb2312, 看下面的例子:
程序代码:
use strict;
binmode(STDIN, ":encoding(gb2312)");
binmode(STDOUT, ":encoding(gb2312)");
while (<>) {
chomp;
print $_, length, "\n";
}
运行后输入"中国", 结果:
中国2
这样我们就省去了输入和输出时转码的麻烦。PerlIO可以作用于任何文件句柄, 具体请参考perldoc PerlIO。
相关API
都是Encode模块的:
$octets = encode(ENCODING, $string [, CHECK]) 把字符串从utf8编码转成指定的编码, 并关闭utf8 flag。
$string = decode(ENCODING, $octets [, CHECK]) 把字符串从其他编码转成utf8编码, 并开启utf8 flag, 不过有个例外就是, 如果字符串是仅仅ascii编码或EBCDIC编码的话, 不开启utf8 flag。
is_utf8(STRING [, CHECK]) 看看utf8 flag是否开启。如果第二个参数为真, 则同时检查编码是否符合utf8。这个检测不一定准确, 跟decode方式检测效果一样。
_utf8_on(STRING) 打开字符串的utf flag
_utf8_off(STRING) 关闭字符串的utf flag
最后两个是内部函数, 不推荐使用。
参考perldoc Encode。
utf8和utf-8
前面我们提到的一直都是utf8。在perl中, utf8和utf-8是不一样的。utf-8是指国际上标准的utf-8定义, 而utf8是perl在国际标准上做了一些扩展, 能兼容的内码要比国际标准的多一些。perl internal form使用的是utf8。另外顺便提一下, 字符集的名称是不区分大小写的并且“_”和“-”是等价的。
EBCDIC
EBCDIC是一套遗留的宽字符解决方案, 不同于unicode, 它不是Ascii的超集。上面介绍的方案并不完全适用于EBCDIC。关于EBCDIC, 请参考perldoc perlebcdic。
本文内容适用于perl 5.8及其以上版本。
perl internal form
在Perl看来, 字符串只有两种形式。 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string。 也就是说: Perl只认识两种编码: Ascii(octets)和utf8(string)。
utf8 flag
那么perl如何确定一个字符串是octets还是utf8编码的字符串呢? perl可没有什么智能, 他完全是靠字符串上的utf8 flag。在perl内部, 字符串结构由两部分组成: 数据和utf8 flag。比如字符串“中国”在perl内部的存储是这样:
utf8 flag
数据
On
中国
如果utf8 flag是On的话, perl就会把中国当成utf8字符串来处理, 如果utf8 flag为Off, perl就会把他当成octets来处理。所有字符串相关的函数包括正则表达式都会受utf8 flag的影响。让我们来看个例子:
程序代码:
use Encode;
use strict;
my $str = "中国";
Encode::_utf8_on($str);
print length($str) . "\n";
Encode::_utf8_off($str);
print length($str) . "\n";
运行结果是:
2
6
这里我们使用Encode模块的_utf8_on函数和_utf8_off函数来开关字符串“中国”的utf8 flag。可以看到, utf8 flag打开的时候,“中国”被当成utf8字符串处理, 所以其长度是2。 utf8 flag关闭的时候,“中国”被当成octets(字节数组)处理, 出来的长度是6(我的编辑器用的是utf8编码, 如果你的编辑器用的是gb2312编码, 那么长度应该是4)。
再来看看正则表达式的例子:
程序代码:
use Encode;
use strict;
my $a = "china----中国";
my $b = "china----中国";
Encode::_utf8_on($a);
Encode::_utf8_off($b);
$a =~ s/\W+//g;
$b =~ s/\W+//g;
print $a, "\n";
print $b, "\n";
运行结果:
Wide character in print at unicode.pl line 10.
china中国
china
结果第一行是一条警告, 这个我们稍后再讨论。结果的第二行说明, utf8 flag开启的情况下, 正则表达式中的\w能够匹配中文, 反之则不能。
如何确定一个字符串的utf8 flag是否已开启? 使用Encode::is_utf8($str)。这个函数并不是用来检测一个字符串是不是utf8编码, 而是仅仅看看它的utf8 flag是否开启。
eq
eq是一个字符串比较操作符, 只有当字符串的内容一致并且utf8 flag的状态也是一致的时候, eq才会返回真。
理论就是上面这些, 一定要搞明白, 记清楚! 下面是实际应用。
unicode转码
如果你有一个字符串“中国”, 它是gb2312编码的。 如果它的utf8 flag是关闭的, 它就会被当成octets来处理, length()会返回4, 这通常不是你想要的。 而如果你开启它的utf8 flag, 则它会被当做utf8编码的字符串来处理。由于它本来的编码是gb2312的, 不是utf8的,这就可能导致错误发生。由于gb2312和utf8内码范围部分重叠, 所以很多时候, 不会有错误报出来, 但是perl可能已经错误地拆解了字符。严重的时候, perl会报警, 说某个字节不是合法的utf8内码。
解决的方法很显然, 如果你的字符串本来不是utf8编码的, 应该先把它转成utf8编码, 并且使它的utf8 flag处于开启状态。对于一个gb2312编码的字符串, 你可以使用
程序代码:
$str = Encode::decode("gb2312", $str);
来将其转化为utf8编码并开启utf8 flag。如果你的字符串编码本来就是utf8, 只是utf8 flag没有打开, 那么你可以使用以下三种方式中的任一种来开启utf8 flag:
程序代码:
$str = Encode::decode_utf8($str);
$str = Encode::decode("utf8", $str);
Encode::_utf8_on($str);
最后一种方式效率最高, 但是官方不推荐。以下划线开头的函数是内部函数, 出于礼貌, 一般不从外部调用。
字符串连接
. 是字符串连接操作符。连接两个字符串时, 如果两个字符串的utf8 flag都是Off, 那么结果字符串也是Off. 如果其中任何一个字符串的utf8 flag是On的话, 那么结果字符串的utf8 flag将是On。连接字符串并不会改变它们原来的编码, 所以如果你把两个不同编码的字符串连在一起, 那么以后不管对这个字符串怎么转码, 都总会有一段是乱码。这种情况一定要避免, 连接两个字符串之前应该确保它们编码一致。如有必要, 先进行转码, 再连接字符串。
perl unicode编程基本原则
对于任何要处理的unicode字符串, 1)把它的编码转换成utf8; 2)开启它的utf8 flag
字符串来源
为了应用上面说到的基本原则, 我们首先要知道字符串本来的编码和utf8 flag开关情况, 这里我们讨论几种情况。
1) 命令行参数和标准输入。 从命令行参数或标准输入(STDIN)来的字符串, 它的编码跟locale有关。如果你的locale是zh_CN或zh_CN.gb2312, 那么进来的字符串就是gb2312编码, 如果你的locale是zh_CN.gbk, 那么进来的编码就是gbk, 如果你的编码是zh_CN.UTF8, 那进来的编码就是utf8。 不管是什么编码, 进来的字符串的utf8 flag都是关闭的状态。
2) 你的源代码里的字符串。 这要看你编写源代码时用的是什么编码。 在editplus里, 你可以通过“文件”->“另存为”查看和更改编码。 在linux下, 你可以cat一个源代码文件, 如果中文正常显示, 说明源代码的编码跟locale是一致的。源代码里的字符串的utf8 flag同样是关闭的状态。
如果你的源代码里含有中文, 那么你最好遵循这个原则: 1) 编写代码时使用utf8编码, 2)在文件的开头加上“use utf8;”语句。这样, 你源代码里的字符串就都会是utf8编码的, 并且utf8 flag也已经打开。
3) 从文件读入。 这个毫无疑问, 你的文件是什么编码, 读进来就是什么编码了。读进来以后, utf8 flag是off状态。
4) 抓取网页。网页是什么编码就是什么编码, utf8 flag是off状态。网站的编码可以从响应头里或者html的<head>标签里获得。也有可能出现响应头和html head里都没说明编码的情况, 这个就是做的很不礼貌的网页了。这时候只能用程序来猜:
程序代码:
use Encode;
use LWP::Simple qw(get);
use strict;
my $str = get "http://www.sina.com.cn";
eval {my $str2 = $str; Encode::decode("gbk", $str2, 1)};
print "not gbk: $@\n" if $@;
eval {my $str2 = $str; Encode::decode("utf8", $str2, 1)};
print "not utf8: $@\n" if $@;
eval {my $str2 = $str; Encode::decode("big5", $str2, 1)};
print "not big5: $@\n" if $@;
输出:
程序代码:
not utf8: utf8 "\xD0" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.
not big5: big5-eten "\xC8" does not map to Unicode at /usr/local/lib/perl/5.8.8/Encode.pm line 162.
我们给decode函数传递了第三个参数, 要求有异常字符的时候报错。我们用eval捕获错误, 转码失败说明字符串本来不是这种编码。另外注意我们每次都把$str拷贝到$str2, 这是因为decode第三个参数为1时, decode以后, 传给它的字符串参数(第二个参数会被清空)。我们拷贝一下, 这样每次被清空的都是$str2, $str不变。
来看结果, 既然不是utf8, 也不是big5, 那就应该是gbk了。对于其他不知编码的字符串, 也可以使用这种方法来猜。不过因为几种编码的内码范围都差不多, 所以如果字符串比较短, 就可能出不了异常字符, 所以这个方法只适用于大段的文字。
输出
字符串在程序内被正确地处理后, 要展现给用户。这时我们需要把字符串从perl internal form转化成用户能接受的形式。简单地说, 就是把字符串从utf8编码转换成输出的编码或表现界面的编码。这时候, 我们使用$str = Encode::encode('charset', $str);。同样可以分为几种情况。
1) 标准输出。标准输出的编码跟locale一致。输出的时候utf8 flag应该关闭, 不然就会出现我们前面看到的那行警告:
Wide character in print at unicode.pl line 10.
2) GUI程序。这个应该是不用干什么, utf8编码, utf8 flag开启就行。没有实际测试过。
3) 做http post。看网页表单要求什么编码。utf8 flag开或关无所谓, 因为http post发送出去的只是字符串中的数据部分, 不管utf8 flag。
PerlIO
PerlIO为我们的输入/输出转码提供了便利。它可以针对某个文件句柄, 输入的时候自动帮你转码并开启utf8 flag, 输出的时候, 自动帮你转码并关闭utf8 flag。假设你的终端locale是gb2312, 看下面的例子:
程序代码:
use strict;
binmode(STDIN, ":encoding(gb2312)");
binmode(STDOUT, ":encoding(gb2312)");
while (<>) {
chomp;
print $_, length, "\n";
}
运行后输入"中国", 结果:
中国2
这样我们就省去了输入和输出时转码的麻烦。PerlIO可以作用于任何文件句柄, 具体请参考perldoc PerlIO。
相关API
都是Encode模块的:
$octets = encode(ENCODING, $string [, CHECK]) 把字符串从utf8编码转成指定的编码, 并关闭utf8 flag。
$string = decode(ENCODING, $octets [, CHECK]) 把字符串从其他编码转成utf8编码, 并开启utf8 flag, 不过有个例外就是, 如果字符串是仅仅ascii编码或EBCDIC编码的话, 不开启utf8 flag。
is_utf8(STRING [, CHECK]) 看看utf8 flag是否开启。如果第二个参数为真, 则同时检查编码是否符合utf8。这个检测不一定准确, 跟decode方式检测效果一样。
_utf8_on(STRING) 打开字符串的utf flag
_utf8_off(STRING) 关闭字符串的utf flag
最后两个是内部函数, 不推荐使用。
参考perldoc Encode。
utf8和utf-8
前面我们提到的一直都是utf8。在perl中, utf8和utf-8是不一样的。utf-8是指国际上标准的utf-8定义, 而utf8是perl在国际标准上做了一些扩展, 能兼容的内码要比国际标准的多一些。perl internal form使用的是utf8。另外顺便提一下, 字符集的名称是不区分大小写的并且“_”和“-”是等价的。
EBCDIC
EBCDIC是一套遗留的宽字符解决方案, 不同于unicode, 它不是Ascii的超集。上面介绍的方案并不完全适用于EBCDIC。关于EBCDIC, 请参考perldoc perlebcdic。
发表评论
-
Perl单元测试
2011-02-15 14:47 18311 测试内容和常用模块 ... -
Xpath基本用法
2011-01-04 17:13 1589my $liStr = $tree->findnode ... -
perl ssh scp 操作远程机器进行验证
2010-12-24 18:13 1828#!/usr/bin/perl use strict; ... -
保存cookie到本地,发送请求时带着cookie。
2010-12-10 17:44 1748use Data::Dumper; use LWP:: ... -
How to deal with 'https'
2010-12-08 15:00 970Windows http://johnbokma.com/pe ... -
更具if modified since更新图片,并且删除陈旧的图片
2010-12-03 10:13 1132更具if modified since更新图片,并且删除陈旧的 ... -
Mechanize 模块 可以提交form,实现登录功能
2010-10-26 10:36 1434Mechanize 模块 可以提交form,实现登录功能 : ... -
perl模块推介
2010-10-26 10:07 3117模块推介 取自 PerlChina.org - wiki ... -
WWW::Mechanize使用手册
2010-10-26 09:57 1927Mechanize使用手册(翻译 ... -
用LWP简单编写WEB访问的应用 ----需要登陆的网站,保留服务器返回的cookie
2010-10-25 12:38 2659LWP 是 Library for WWW access ... -
perl高级排序
2010-10-08 14:55 6545高级排序 ... -
【精】LWP与WEB的基本使用
2010-09-25 16:44 1965LWP 与 WEB 的基本使用: http://wiki. ... -
优化 Perl , 榨取代码的最大性能
2010-09-25 11:11 1408转载自:http://www.ibm.com/develope ... -
perl 模拟post提交
2010-08-26 18:05 1578对于post分页的网站,用正常的在url后面加参数的方法已经不 ... -
Perl 的 utf8 与编码处理
2010-08-19 12:48 2930本文基于笔者查阅的 perldoc 和试验结果。鉴于经常有人 ... -
perl 读写文件
2010-08-15 23:52 5883用Open() 函数打开文件 打开文件的常用方法是: op ... -
perl数据结构
2010-08-15 23:12 9721,{}:hash的引用, $product = {'Reta ... -
perl开发环境可以单步调试:eclispe+epic+PadWalker模块
2010-08-15 19:24 2126eclispe+epic+PadWalker模块: 1。假设已 ... -
perl特殊符号
2010-08-13 13:59 11581.$!记录打开文件句柄时的出错信息 2.$@记录eval捕获 ... -
perl的pop跟push操作数组的最右边,shift跟unshift操作数组的最左边
2010-08-13 10:25 3305perl的pop跟push操作数组的最右边,shift跟uns ...
相关推荐
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
在计算机科学领域,Unicode是一个字符编码标准,旨在为世界上所有文字提供一个统一的表示方式。中文转Unicode,顾名思义,就是将中文字符转换成Unicode编码的过程。这个过程对于跨平台、多语言的文本处理至关重要,...
官方离线安装包,亲测可用
"Perl函数全集"是Perl学习者的重要参考资料,它包含了Perl语言中众多内置函数的详细解释和示例,对于深入理解Perl的功能和提升编程技能非常有帮助。 在Perl中,函数是可重用的代码块,用于执行特定的任务。以下是...
Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0...
1. **Unicode和编码的概念**:Unicode是一个字符集,包含全世界大多数语言的字符。而编码是将Unicode字符转换为二进制形式的规则,例如UTF-8、UTF-16等。在Perl中,`Encode`模块提供了处理各种编码的工具。 2. **...
Unicode东亚宽度标准定义了五种宽度类别:全宽(Fullwidth)、全宽符号(Wide)、窄宽(Narrow)、半宽(Halfwidth)和固定宽度(Fixed width)。每个字符都被分配到这五个类别之一,以便于软件开发者在实现文本渲染...
Perl是一种强大的、高级的脚本编程语言,尤其在文本处理、系统管理任务和网络编程方面广泛应用。"perl学习ppt全集"是一份详尽的教程资料,旨在帮助初学者和有经验的程序员深入理解Perl语言的核心概念和高级特性。这...
1. **Unicode增强**:Perl 5.18.2对Unicode的支持进行了加强,包括对Unicode 6.3的全面支持,使处理多语言文本变得更加方便。 2. **数组和哈希的改变**:此版本中,Perl对数组和哈希的操作进行了优化,提高了访问...
4. **正则表达式增强**:包括对Unicode字符类的改进,以及对模式匹配性能的优化。 5. **模块更新**:ActivePerl会包含Perl核心模块的最新版本,这些模块可能包括CGI处理、数据库接口、XML解析等。 安装ActivePerl后...
本全教程将深入讲解Perl5语言的基础和高级特性,帮助你成为一名熟练的Perl5开发者。 1. **Perl5基础** - **变量和数据类型**:Perl5支持多种变量类型,包括标量(scalar)、数组(array)和哈希(hash)。标量用于...
草莓perl安装包下载,新版本 Strawberry Perl是用于MS Windows的perl环境,其中包含运行和开发perl应用程序所需的一切。 它被设计为尽可能接近UNIX系统上的perl环境。 它包括perl二进制文件,编译器(gcc)+相关...
windows Strawberry Perl 5.32最新版本 ,适合调试 perl windows Strawberry Perl 5.32最新版本 ,适合调试 perl windows Strawberry Perl 5.32最新版本 ,适合调试 perl windows Strawberry Perl 5.32最新版本 ...
Perl是一种高级的、通用的、解释型、动态的编程语言,以其强大的文本处理能力和在系统管理领域的广泛应用而著名。"strawberry-perl-5.32.1.1-64bit" 是一个专为Windows平台设计的Perl解释器,它包含了Perl 5.32.1.1...
Perl语言学习 Perl语言是由Larry Wall在20世纪80年代开发的一种开源的高级语言,它结合了低级语言和高级语言的特性,具有速度快、灵活性强和可读性好的特点。Perl语言的产生是为了解决awk语言无法生成报表的问题,...
"Perl开发环境.zip" 提供的是在Windows操作系统上搭建Perl开发环境的资源,具体是"strawberry-perl-5.32.0.1-64bit.msi" 文件,这是一个64位的Perl解释器安装程序。 Strawberry Perl 是Perl在Windows上的一个受欢迎...
Perl语言编程 Perl语言是一种高级的、通用的、脚本语言,它是由Larry Wall在1987年开发的。 Perl语言是一种功能强大、灵活的语言,应用非常广泛,包括文本处理、网络编程、数据库交互、系统管理员等。 Perl语言的...
### Perl 下 Pdk 模块编译 Perl 程序的方法 #### 一、概述 在 Perl 开发中,为了方便部署与分发程序,有时我们需要将 Perl 脚本编译成可执行文件(如 EXE 文件),而不是简单的文本格式源代码文件。Pdk 模块就是...