LC_ALL=en_US.UTF-8 让 awk 慢了 40 倍！

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 3165 次

锁定老帖子主题：LC_ALL=en_US.UTF-8 让 awk 慢了 40 倍！精华帖 (0) :: 良好帖 (1) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
febird 等级: 性别: 文章: 33 积分: 200 来自: 北京	发表时间：2010-01-29 最后修改：2010-01-29 相关推荐: LC_ALL=en_US.UTF-8 让 awk 慢了 40 倍！【转】 linux命令框显示中文乱码_解决Linux终端乱码的两则例子 ubuntu nginx php,Ubuntu安装PHP和PHP Nginx配置方法 linux 手动控制cpu转速,linux下简单的自适应CPU利用率的控制 wsl子系统中安装k8s 更多相关推荐编程综合　　无意中发现，在一台服务器上，非常简单的awk程序，比C的等价物要慢40倍，感觉有点不太正常，还以为的确是awk太慢。不得其解，到另一台服务上试了一下，相同的 awk 程序，相同的测试数据，这台服务器的速度与C相当，也就是说，同样是awk，两台机器速度差了 40 倍，而两台机器配置基本相当。非常困惑，找了两小时的原因，终于发现gawk手册里面有一段话： For other single-character record separators, using ‘`LC_ALL=C` ’ will give you much better performance when reading records. Otherwise, `gawk` has to make several function calls, *per input character* to find the record terminator. 在看两台机器的 locale，结果发现，慢的机器上： [root@slow-server]# locale LANG=en_US.UTF-8 LC_XXXX=en_US.UTF-8 ... LC_ALL=en_US.UTF-8 快的机器上： [root@fast-server]# locale LANG=en_US LC_XXXX=en_US ... LC_ALL= <空> 马上试验，将slow-server的locale改掉： export LC_ALL=C 速度马上快了40倍，与fast-server相当。这应该是awk实现上的一个缺陷，即便是对utf8，也不应该慢这么多，如果缓冲合适，最多慢２～３倍就可以了，为什么非要`gawk` has to make several function calls, *per input character* ？声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

mikeandmore 等级: 初级会员性别: 文章: 589 积分: 0 来自: 沈阳	发表时间：2010-01-30 个人猜测。 utf8是流解码，下标访问要O(n)
返回顶楼	回帖地址 0 0 请登录后投票

febird 等级: 性别: 文章: 33 积分: 200 来自: 北京	发表时间：2010-02-01 可以把utf8转化成utf32，就可以在缓冲区内随机访问任意字符了，而 iconv 的速度是非常快的。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 综合技术版

跳转论坛: