许久没做erlang开发了,最近有网友问到erlang的问题,就抽时间看下。问题是这样的,模块有中文,将中文直接打印出来,shell下显示会出现乱码,但如果先将中文转成binary,就可以正常显示出来。
shell中文乱码问题
这里以一个简单的例子,说明下:
-module(m).
-compile(export_all).
test() ->
io:format("~ts~n", ["中国"]),
io:format("~ts~n", [list_to_binary("中国")]).
以R17之前的erlang版本编译,然后测试下结果:
Eshell V5.10.3 (abort with ^G)
1> c(m).
{ok, m}
2> m:test().
ä¸å½
中国
ok
打印下erlang汇编码,这个test函数实现如下:
{function, test, 0, 2}.
{label,1}.
{line,[{location,"erl.erl",4}]}.
{func_info,{atom,erl},{atom,test},0}.
{label,2}.
{allocate,0,0}.
{move,{literal,[[228,184,173,229,155,189]]},{x,1}}.
{move,{literal,"~ts~n"},{x,0}}.
{line,[{location,"erl.erl",5}]}.
{call_ext,2,{extfunc,io,format,2}}.
{move,{literal,[<<228,184,173,229,155,189>>]},{x,1}}.
{move,{literal,"~ts~n"},{x,0}}.
{line,[{location,"erl.erl",6}]}.
{call_ext_last,2,{extfunc,io,format,2},0}.
实际上,erlang在编译代码时会做优化。数据已知的话,list_to_binary在编译期就被优化掉了。
所以,test函数优化后如下:
test() ->
io:format("~ts~n", [[228,184,173,229,155,189]]),
io:format("~ts~n", [<<228,184,173,229,155,189>>]).
io:format/2 对中文的处理
看了 io:format/2 的实现代码,关键代码为以下两步:
1、格式化数据: io_lib:format/2
2、打印到shell:io:put_chars/1
现在用上面例子中的数据,
3> L = io_lib:format("~ts",[<<228,184,173,229,155,189>>]).
[[20013,22269]]
4> io:put_chars(L).
中国ok
这里分析io_lib:format/2 的代码,说说 ~ts 的处理过程。
%% io_lib.erl
format(Format, Args) ->
case catch io_lib_format:fwrite(Format, Args) of
{'EXIT',_} ->
erlang:error(badarg, [Format, Args]);
Other ->
Other
end.
实现代码在 io_lib_format模块,如下:
%% io_lib_format.erl
fwrite(Format, Args) when is_atom(Format) ->
fwrite(atom_to_list(Format), Args);
fwrite(Format, Args) when is_binary(Format) ->
fwrite(binary_to_list(Format), Args);
fwrite(Format, Args) ->
Cs = collect(Format, Args), %% 收集格式化信息,生成控制结构
Pc = pcount(Cs), %% 计算请求打印的数量
build(Cs, Pc, 0). %% 解析控制结构,生成数据
collect([$~|Fmt0], Args0) -> %% 格式化参数以 ~打头,否则忽略
{C,Fmt1,Args1} = collect_cseq(Fmt0, Args0),
[C|collect(Fmt1, Args1)];
collect([C|Fmt], Args) ->
[C|collect(Fmt, Args)];
collect([], []) -> [].
collect_cseq(Fmt0, Args0) ->
{F,Ad,Fmt1,Args1} = field_width(Fmt0, Args0),
{P,Fmt2,Args2} = precision(Fmt1, Args1),
{Pad,Fmt3,Args3} = pad_char(Fmt2, Args2),
{Encoding,Fmt4,Args4} = encoding(Fmt3, Args3),
{Strings,Fmt5,Args5} = strings(Fmt4, Args4),
{C,As,Fmt6,Args6} = collect_cc(Fmt5, Args5),
{{C,As,F,Ad,P,Pad,Encoding,Strings},Fmt6,Args6}.
%% 检查format 参数含有 t, 然后打标记 unicode,其他记latin1
encoding([$t|Fmt],Args) ->
true = hd(Fmt) =/= $l, %% 确保不是传入 ~tl
{unicode,Fmt,Args};
encoding(Fmt,Args) ->
{latin1,Fmt,Args}.
再看下以上build部分的代码。代码过长,做了删节:
%% io_lib_format.erl
build([{C,As,F,Ad,P,Pad,Enc,Str}|Cs], Pc0, I) ->
S = control(C, As, F, Ad, P, Pad, Enc, Str, I), %% 处理控制结构
Pc1 = decr_pc(C, Pc0),
if
Pc1 > 0 -> [S|build(Cs, Pc1, indentation(S, I))];
true -> [S|build(Cs, Pc1, I)]
end;
build([$\n|Cs], Pc, _I) -> [$\n|build(Cs, Pc, 0)];
build([$\t|Cs], Pc, I) -> [$\t|build(Cs, Pc, ((I + 8) div 8) * 8)];
build([C|Cs], Pc, I) -> [C|build(Cs, Pc, I+1)];
build([], _Pc, _I) -> [].
control($w, [A], F, Adj, P, Pad, _Enc, _Str, _I) ->
term(io_lib:write(A, -1), F, Adj, P, Pad);
control($p, [A], F, Adj, P, Pad, Enc, Str, I) ->
print(A, -1, F, Adj, P, Pad, Enc, Str, I);
control($W, [A,Depth], F, Adj, P, Pad, _Enc, _Str, _I) when is_integer(Depth) ->
term(io_lib:write(A, Depth), F, Adj, P, Pad);
control($P, [A,Depth], F, Adj, P, Pad, Enc, Str, I) when is_integer(Depth) ->
print(A, Depth, F, Adj, P, Pad, Enc, Str, I);
control($s, [A], F, Adj, P, Pad, _Enc, _Str, _I) when is_atom(A) ->
string(atom_to_list(A), F, Adj, P, Pad);
control($s, [L0], F, Adj, P, Pad, latin1, _Str, _I) -> %% 处理 ~s,如果数据标记是 latin1
L = iolist_to_chars(L0),
string(L, F, Adj, P, Pad);
control($s, [L0], F, Adj, P, Pad, unicode, _Str, _I) -> %% 处理 ~s,如果数据标记是 unicode
L = cdata_to_chars(L0),
uniconv(string(L, F, Adj, P, Pad));
control($e, [A], F, Adj, P, Pad, _Enc, _Str, _I) when is_float(A) ->
%% 该函数太长了,不是讨论重点,做了删节
cdata_to_chars([C|Cs]) when is_integer(C), C >= $\000 ->
[C | cdata_to_chars(Cs)];
cdata_to_chars([I|Cs]) ->
[cdata_to_chars(I) | cdata_to_chars(Cs)];
cdata_to_chars([]) ->
[];
cdata_to_chars(B) when is_binary(B) -> %% 如果数据是binary,做一下unicode转换
case catch unicode:characters_to_list(B) of
L when is_list(L) -> L;
_ -> binary_to_list(B)
end.
可想而知,如果没有不是 ~ts,或者不是binary,都不会做转换。
探讨乱码问题
回过头再看前面的乱码问题,相信不少人会有这3个疑问:
1、为什么会有乱码问题
2、为什么latin1能表示中文
3、为什么utf8保存的代码在shell下显示乱码
现在看下这3个问题:
1、为什么会有乱码问题
乱码问题的产生,是因为数据记录的字符集和显示的字符集不一样,就会有乱码问题。好比你用gbk记录,然后试图用utf8去读取。
那为何英文、数字没问题,就中文这些有问题呢?
这是因为,后来出现的字符集都在最早出现的标准字符集(7比特ASCII码)的基础上拓展,沿用了ASCII码对于英文、数字这些字符的编码设定。但是,对于拓展字符集每个语种都有自己的定义方式,同样一段字符数据用不同的字符集就有不同的解释。这就是乱码出现的原因。
所以,再后来就有unicode的出现,unicode 标准涵盖了世界上的所有字符、标点和符号,不论是哪个平台、程序或语言,unicode 都能够进行文本数据的处理、存储和交换。
2、那为什么latin1能表示中文?
在R17前,代码都是默认以latin1方式读取和编译的,生成的字符信息以 latin1形式保存。(这个与shell直接打印中文有本质区别)
实际上,使用latin1无法将中文解读出来,只是latin1读取数据时没有破坏原来的编码信息。如果原文以utf8记录,显示的时候又以utf8表示,就能正常显示。
3、为什么utf8保存的代码在shell下显示乱码
这是因为unicode和utf8是有区别的,shell使用unicode字符集,代码使用utf8保存,如果不做转换,直接显示就会有问题。正是这样,io_lib:format/2 也对编码做了特殊处理,但也局限于前面所述的情况。
顺便提一下,erlang最开始是使用latin1作为字符集,在R13A后开始支持unicode字符集。而对源代码的utf8编码支持,是R16A之后,同时支持以utf8读写文件。直到R17后,erlang才将utf8做为源代码的默认编码,在这之前,源代码都以latin1形式读取和编译的。R17如果想改变默认编码,方法就是在模块首行加 %% coding: latin-1
小结下,将utf8数据转换成unicode编码,方法如下:
utf8_list_to_string(List) ->
unicode:characters_to_list(list_to_binary(List)).
那读写utf8文件呢,怎么避免出现乱码呢?
read_and_write() ->
{ok,Bin} = file:read_file("file.txt"),
MyList = case unicode:characters_to_list(Bin) of
L when is_list(L) -> L;
_ -> binary_to_list(Bin)
end,
{ok,G} = file:open("new_file.txt",[write,{encoding,utf8}]),
io:put_chars(G,MyList),
file:close(G).
问题到这里就告一段落了,当然,erlang中文问题还不止如此,后续会继续讨论。好久没搞erlang了,突然心血来潮,写了这篇文章,希望喜欢。
2016/3/2 补充中文乱码问题的探讨
参考:
http://blog.csdn.net/mycwq/article/details/50762572
http://erlang.org/doc/apps/stdlib/unicode_usage.html
分享到:
相关推荐
要解决Erlang中的中文乱码问题,你需要确保以下几个方面都正确无误: 1. **文件编码**:确认你要处理的文件是以正确的编码(如UTF-8)保存的。可以使用诸如Notepad++之类的文本编辑器检查和转换文件编码。 2. **...
在Erlang中,通过这个库可以方便地在各种编码之间进行转换,避免了因编码不匹配导致的乱码问题。例如,我们可以使用iconv来处理从GBK编码到UTF-8编码的转换,或者从UTF-8到ISO-8859-1的转换。 在Erlang中使用iconv...
4. **解决中文乱码问题**:Sublime Text默认可能无法正确显示中文字符,导致乱码。为了解决这个问题,用户需要设置正确的编码格式。在Sublime Text中,可以在“视图”菜单下选择“编码”,然后选择“简体中文 - GB...
* 具体设置在`application.properties`里修改,如果出现乱码请修改编码 ### 4.修改application.properties * 在`application.properties`配置文件中修改成自己的qq和stmp的密码 * 其他信息可以根据自己需要修改 #...
内容概要:本文详细介绍了如何利用三菱FX3G/FX3S PLC通过485接口控制四台E700变频器的方法。首先,文章讲解了硬件连接的具体步骤,包括485BD扩展板的安装以及变频器之间的线路连接方式。接着,深入探讨了变频器参数的设定,确保各设备能够正确通信。然后,重点阐述了PLC程序的设计,包括MOV指令的应用、CRC校验的实现以及RS指令的使用。此外,还涉及了触摸屏的配置方法,使用户可以通过触摸屏进行频率设定和状态监控。最后,提供了常见问题的解决方案,如超时时间设置不当、CRC校验错误等。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是那些熟悉三菱PLC和变频器操作的人群。 使用场景及目标:适用于需要通过PLC控制多个变频器的工业应用场景,旨在提高系统的响应速度和稳定性,降低开发成本。具体目标包括掌握485接口的硬件连接、参数设置、PLC编程技巧以及故障排查方法。 其他说明:文中提供的方案不仅限于三菱品牌,其他支持Modbus RTU协议的变频器也可以参照此方案进行配置。
最新版kibana-9.0.0-windows-x86_64.zip
内容概要:本文详细介绍了基于STM32的PID温控系统的设计与实现,涵盖硬件选型、PID算法实现、温度传感器驱动、PWM驱动控制以及LCD显示等多个方面。系统采用STM32F103C8T6作为主控芯片,通过PID算法实现精确的温度控制,利用PWM驱动半导体制冷片实现加热和制冷的双向控制。文中提供了详细的代码示例,包括PID初始化、温度采集、PWM输出控制、LCD显示刷新等功能模块。此外,还讨论了常见的调试问题及解决方法,如积分限幅、温度传感器滤波、H桥驱动保护等。 适合人群:具有一定嵌入式开发基础的研发人员,特别是对PID控制算法和温控系统感兴趣的工程师。 使用场景及目标:适用于需要高精度温度控制的应用场合,如实验室设备、工业自动化控制系统等。目标是帮助读者掌握PID温控系统的原理和实现方法,能够独立搭建和调试类似的温控系统。 其他说明:文中提供的Proteus仿真文件可以帮助初学者更好地理解和验证系统的工作原理。完整的工程代码和仿真文件可以在评论区获取。
2303040222橡胶232熊文栋(苯乙烯悬浮聚合)副本.pdf
内容概要:本文详细介绍了如何使用MATLAB及其工具包yalmp和cplex实现含冰蓄冷空调的冷热电联供型微网(CCHP-MG)多时间尺度优化调度模型。主要内容涵盖日前计划和日内调度两大部分,前者通过多场景描述应对可再生能源的不确定性,后者提出双层滚动优化模型以适应冷热负荷变化。文中不仅展示了具体的MATLAB代码实现细节,如场景生成、优化模型构建以及求解方法,还讨论了一些调试过程中遇到的问题及解决方案。 适合人群:从事能源管理和电力系统优化的研究人员和技术人员,尤其是对MATLAB有一定基础并关注冷热电联供系统的从业者。 使用场景及目标:适用于希望深入了解CCHP-MG系统优化调度原理的人群,旨在帮助他们掌握如何利用MATLAB进行此类系统的建模与优化,从而提高能源利用率、降低运营成本。 其他说明:文章强调了冰蓄冷空调在CCHP-MG系统中的重要作用,指出其能够有效协调冷热电之间的关系,同时通过实例演示了如何处理实际运行中的不确定性和复杂性。此外,作者还分享了一些实用的经验教训,如场景削减技术和求解器设置优化等。
nRF-Connect Android源码,开发ble手机app必备
JDBC的Jar包
基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计,个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设计基于Python的天气预测和天气可视化项目(源码+文档说明)高分毕业设
内容概要:本文详细介绍了如何利用MATLAB将预训练的深度学习模型(如ResNet50、YOLOv2和LaneNet)转化为高效的C++代码,并部署到嵌入式系统中。首先,通过ResNet50展示了图像分类任务的代码生成流程,强调了输入图像的预处理和归一化步骤。接着,YOLOv2用于车辆检测,讨论了anchor box的可视化及其优化方法,特别是在Jetson Nano平台上实现了显著的速度提升。最后,LaneNet应用于车道线识别,探讨了实例分割和聚类算法的实现细节,以及如何通过OpenMP和CUDA进行性能优化。文中还提供了多个实用技巧,如选择合适的编译器版本、处理自定义层和支持动态输入等。 适合人群:具有一定MATLAB和深度学习基础的研发人员,尤其是关注嵌入式系统和高性能计算的应用开发者。 使用场景及目标:适用于希望将深度学习模型高效部署到嵌入式设备的研究人员和工程师。主要目标是提高模型推理速度、降低内存占用,并确保代码的可移植性和易维护性。 其他说明:文中不仅提供了详细的代码示例和技术细节,还分享了许多实践经验,帮助读者避免常见的陷阱。此外,还提到了一些高级优化技巧,如SIMD指令集应用和内存管理策略,进一步提升了生成代码的性能。
内容概要:本文详细介绍了利用MATLAB实现CT成像仿真的全过程,特别是滤波反投影(FBP)算法的具体实现。首先,通过radon函数生成投影信号,接着进行傅立叶变换将投影数据映射到频域,在频域中应用Ram-Lak滤波器进行滤波,然后通过逆傅立叶变换回到时域,最后使用iradon函数完成反投影重建。文中不仅提供了完整的代码实现,还分享了许多实用的经验和注意事项,如补零操作、滤波器选择以及插值方法的影响等。 适合人群:从事医学影像处理的研究人员和技术爱好者,尤其是有一定MATLAB基础并希望深入了解CT成像原理的人群。 使用场景及目标:适用于想要深入理解CT成像原理及其具体实现方式的学习者。通过亲手实践,能够更好地掌握滤波反投影算法的工作机制,提高解决实际问题的能力。 其他说明:作者强调了传统FBP算法的重要性,并鼓励读者尝试不同的参数配置以获得更好的重建效果。此外,还提到了未来可以探索的方向,比如使用GPU加速反投影过程。
内容概要:本文详细介绍了ESC(电子稳定控制系统)的标定开发流程,涵盖标定前准备、参数调整实战、验证测试等多个方面。首先,标定前需要搭建控制器与上位机的连接,如编写Python CAN通讯工具。接着,在参数调整过程中,涉及到具体参数的选择与调整,如横摆角速度阈值、滑移率补偿等,并且需要注意数据溢出等问题。验证测试部分则强调了使用MATLAB进行离线数据分析以及处理实车数据中的异常值。此外,文章还讲述了标定工程师在不同环境下的实际工作经验,如极端天气下的标定挑战,以及如何通过调整PID控制器参数来优化车辆表现。最后,文章指出标定工作的终极目标是在确保安全的同时提升驾驶体验。 适合人群:从事汽车电控系统开发的技术人员,尤其是对标定工程师日常工作感兴趣的读者。 使用场景及目标:适用于希望深入了解ESC标定全过程的专业人士,旨在帮助他们掌握从理论到实践的具体方法和技术要点。 其他说明:文中不仅提供了具体的代码示例,还分享了许多宝贵的实际操作经验和教训,对于提高标定效率和准确性具有重要指导意义。
一、环境准备 操作系统 CentOS 7/8 或 Ubuntu 20.04 LTS(推荐)16 确保网络配置正确(IP、网关、DNS)6 关闭SELinux和防火墙(临时关闭命令:setenforce 0,systemctl stop firewalld)8 依赖环境 数据库:MySQL/MariaDB(版本需适配Zabbix)13 Web服务器:Apache/Nginx(需支持PHP)17 PHP版本:≥7.2(建议安装php-gd、php-mysqlnd等扩展)17 硬件要求:2核CPU、4GB内存、20GB磁盘1 二、安装步骤(以CentOS 7为例) 1. 安装Zabbix Server bash Copy Code # 安装YUM源及依赖 rpm -Uvh https://repo.zabbix.com/zabbix/6.0/rhel/7/x86_64/zabbix-release-6.0-1.el7.noarch.rpm yum install -y zabbix-server-mysql zabbix-web-mysql zabbix-agent mariadb-server:ml-citation{ref="7,8" data="citationList"} 2. 配置数据库 bash Copy Code # 启动数据库并创建Zabbix用户 systemctl start mariadb && systemctl enable mariadb mysql -e "CREATE DATABASE zabbix CHARACTER SET utf8 COLLATE utf8_bin" mysql -e "GRANT ALL ON zabbix.* TO 'zabbix'@'localhost' IDENTIFIED BY 'zabb
内容概要:本文档是《星闪创为_XSCW6000模组使用手册》,版本为Rev1.1,由北京星闪创为科技有限公司发布。手册详细介绍了XSCW6000模组的法律声明、安全须知、模块选型、产品综述、应用接口、射频特性、电气性能和可靠性、机械尺寸以及生产及包装信息等内容。XSCW6000模组是一款支持5G ISM频段、80MHz带宽、SLB协议1.0版本的高性能无线通信模组,适用于大带宽音视频业务、网络游戏、智慧家庭、智慧工厂、体育场、演唱会、网络直播、应急等多种场景。手册还提供了详细的引脚分布、电源设计、天线设计要点及射频性能参数,确保用户能够正确使用和集成该模组。 适合人群:从事无线通信模块开发的技术人员、硬件工程师及相关领域的研发人员。 使用场景及目标:①帮助用户了解XSCW6000模组的基础特性、功能框图、引脚分布等信息;②指导用户完成正确的电源设计、天线选择及射频性能优化;③确保用户在实际应用中遵循安全使用规范,保障产品稳定性和可靠性。 其他说明:此手册为受控版本,版权归属于星闪创为,未经许可不得复制或传播。手册内容会根据实际情况进行更新,建议用户定期查阅最新版本。星闪创为提供技术支持与服务,如有疑问可通过指定联系方式咨询。
内容概要:本文详细介绍了利用MATLAB和YALMIP工具包实现两阶段鲁棒优化问题的Benders分解方法。主要内容涵盖主问题和子问题的建模、割平面的生成逻辑以及算法的迭代过程。文中通过具体的代码实例解释了如何定义变量、约束条件、目标函数,并展示了如何通过不断的迭代使上下界逐渐收敛,从而找到最优解。同时,文章还讨论了一些常见的实现细节和潜在的陷阱,如对偶变量的提取、不确定性集合的设计、初始割的添加等。 适合人群:具有一定MATLAB编程基础并希望深入了解优化算法的研究人员和技术爱好者。 使用场景及目标:适用于解决带有不确定性的优化问题,尤其是涉及到资源分配、生产计划等领域的问题。通过学习本文,读者可以掌握Benders分解的基本原理及其在MATLAB环境下的具体实现方法。 其他说明:文章提供了完整的代码示例,并附有详细的注释帮助理解每个步骤的作用。此外,作者还分享了许多实用的小技巧来提高算法效率和稳定性,如采用稀疏矩阵存储、动态调整收敛阈值等。
内容概要:本文深入探讨了在微网环境中,利用改进的二进制粒子群算法(IBPSO)解决含需求响应的机组组合问题。研究背景指出,随着能源结构的变化,微网系统日益重要,而需求响应(DR)的引入为提高微网运行效率提供了新思路。文中详细介绍了机组组合的基本模型及其扩展模型,后者将需求响应纳入考虑范围。接着,重点讲解了改进二进制粒子群算法的具体实现步骤,包括粒子位置和速度的更新规则。此外,还展示了基于MATLAB和CPLEX/Gurobi平台的仿真实验结果,验证了改进算法的有效性。最终,通过详细的代码注释和丰富的可视化工具,使得整个研究过程更加透明易懂。 适合人群:从事电力系统优化、微网管理及相关领域研究的专业人士和技术爱好者。 使用场景及目标:适用于需要优化微网系统运行效率的实际工程应用,特别是在处理大规模机组组合问题时,能够显著降低成本并提高系统稳定性。目标是帮助研究人员理解和掌握改进二进制粒子群算法的应用技巧,促进需求响应机制在电力系统中的广泛应用。 其他说明:本文不仅提供了完整的MATLAB代码实现,还包括详尽的理论推导和实验数据分析,有助于读者全面理解该课题的技术细节。同时,附带的可视化模块可以帮助用户更好地解读求解结果,便于进一步优化和调整参数。