`
linvar
  • 浏览: 260718 次
  • 性别: Icon_minigender_1
  • 来自: 未定
社区版块
存档分类
最新评论

Locale 详解

阅读更多
from : http://www.linuxsky.org/doc/desktop/200704/20.html

locale 是国际化与本土化过程中的一个非常重要的概念,个人认为,对于中文用户来说,通常会涉及到的国际化或者本土化,大致包含三个方面:看中文,写中文,与 window中文系统的兼容和通信。从实际经验上看来,locale的设定与看中文关系不大,但是与写中文,及window分区的挂载方式有很密切的关系。本人认为就像一个纯英文的Windows能够浏览中文,日文或者意大利文网页一样,你不需要设定locale就可以看中文。那么,为什么要设定 locale呢?什么时候会用到locale呢? 

Tags: locale 设定 原因 解释 

一、为什么要设定locale 正如前面我所讲的,设定locale与你能否浏览中文的网页没有直接的关系,即便你把locale设置成en_US.ISO-8859-1这样一个标准的英文locale你照样可以浏览中文的网页,只要你的系统里面有相应的字符集(这个都不一定需要)和合适的字体(如simsun),浏览器就可以把网页翻译成中文给你看。具体的过程是网络把网页传送到你的机器上之后,浏览器会判断相应的编码的字符集,根据网页采用的字符集,去字体库里面找合适的字体,然后由文字渲染工具把相应的文字在屏幕上显示出来。 

在下文本人会偶尔把字符集比喻成密码本,个人觉得对于一些东西比较容易理解,假如你不习惯的话,把全文copy到任何文本编辑器,用字符集替换密码本即可。 

那有时候网页显示乱码或者都是方框是怎么回事呢?个人认为,显示乱码是因为设定的字符集不对(或者没有相应的字符集),例如网页是用UTF-8编码的,你非要用GB2312去看,而系统根据GB2312去找字体,然后在屏幕上显示,当然是一堆的乱码,也就是说你用一个错误的密码本去翻译发给你的电报,当然内容那叫一个乱;至于有些时候浏览的网页能显示一部分汉字,但有很多的地方是方框,能够显示汉字说明浏览器已经正确的判断出了网页的编码,并在字体库里面找到了相应的文字,但是并不是每个字体库都包含某个字符集全部的字体的缘故,有些时候会显示不完全,找一个比较全的支持较多字符集的字体就可以了。 

既然我能够浏览中文网页,那为什么我还要设定locale呢? 

其实你有没有想过这么一个问题,为什么gentoo官方论坛上中文论坛的网页是用UTF-8编码的(虽然大家一直强烈建议用GB2312编码),但是新浪网就是用GB2312编码的呢?而Xorg的官方网页竟然是ISO-8859-15编码的,我没有设定这个locale怎么一样的能浏览呢?这个问题就像是你有所有的密码本,不论某个网站是用什么字符集编码的,你都可以用你手里的密码本把他们翻译过来,但问题是虽然你能浏览中文网页,但是在整个操作系统里面流动的还是英文字符。所以,就像你能听懂英语,也能听懂中文。 最根本的问题是:你不可以写中文。 

当你决定要写什么东西的时候,首先要决定的一件事情是用那种语言,对于计算机来说就是你要是用哪一种字符集,你就必须告诉你的linux系统,你想用那一本密码本去写你想要写的东西。知道为什么需要用GB2312字符集去浏览新浪了吧,因为新浪的网页是用GB2312写的。 

为了让你的Linux能够输入中文,就需要把系统的locale设定成中文的(严格说来是locale中的语言类别LC_CTYPE ),例如zh_CN.GB2312、zh_CN.GB18030或者zh_CN.UTF-8。很多人都不明白这些古里古怪的表达方式。这个外星表达式规定了什么东西呢?这个问题稍后详述,现在只需要知道,这是locale的表达方式就可以了。 

二、到底什么是locale? locale这个单词中文翻译成地区或者地域,其实这个单词包含的意义要宽泛很多。Locale是根据计算机用户所使用的语言,所在国家或者地区,以及当地的文化传统所定义的一个软件运行时的语言环境。 

这个用户环境可以按照所涉及到的文化传统的各个方面分成几个大类,通常包括用户所使用的语言符号及其分类(LC_CTYPE),数字 (LC_NUMERIC),比较和排序习惯(LC_COLLATE),时间显示格式(LC_TIME),货币单位(LC_MONETARY),信息主要是提示信息,错误信息, 状态信息, 标题, 标签, 按钮和菜单等(LC_MESSAGES),姓名书写方式(LC_NAME),地址书写方式(LC_ADDRESS),电话号码书写方式 (LC_TELEPHONE),度量衡表达方式(LC_MEASUREMENT),默认纸张尺寸大小(LC_PAPER)和locale对自身包含信息的概述(LC_IDENTIFICATION)。 

所以说,locale就是某一个地域内的人们的语言习惯和文化传统和生活习惯。一个地区的locale就是根据这几大类的习惯定义的,这些locale定义文件放在/usr/share/i18n/locales目录下面,例如en_US, zh_CN and de_DE@euro都是locale的定义文件,这些文件都是用文本格式书写的,你可以用写字板打开,看看里边的内容,当然出了有限的注释以外,大部分东西可能你都看不懂,因为是用的Unicode的字符索引方式。 

对于de_DE@euro的一点说明,@后边是修正项,也就是说你可以看到两个德国的locale: /usr/share/i18n/locales/de_DE@euro /usr/share/i18n/locales/de_DE 打开这两个locale定义,你就会知道它们的差别在于de_DE@euro使用的是欧洲的排序、比较和缩进习惯,而de_DE用的是德国的标准习惯。 

上面我们说到了zh_CN.GB18030的前半部分,后半部分是什么呢?大部分Linux用户都知道是系统采用的字符集。 

三、什么是字符集? 字符集就是字符,尤其是非英语字符在系统内的编码方式,也就是通常所说的内码,所有的字符集都放在/usr/share/i18n/charmaps,所有的字符集也都是用Unicode编号索引的。Unicode用统一的编号来索引目前已知的全部的符号。而字符集则是这些符号的编码方式,或者说是在网络传输,计算机内部通信的时候,对于不同字符的表达方式,Unicode是一个静态的概念,字符集是一个动态的概念,是每一个字符传递或传输的具体形式。就像 Unicode编号U59D0是代表姐姐的“姐”字,但是具体的这个字是用两个字节表示,三个字节,还是四个字节表示,是字符集的问题。例如:UTF-8字符集就是目前流行的对字符的编码方式,UTF-8用一个字节表示常用的拉丁字母,用两个字节表示常用的符号,包括常用的中文字符,用三个表示不常用的字符,用四个字节表示其他的古灵精怪的字符。而GB2312字符集就是用两个字节表示所有的字符。需要提到一点的是Unicode除了用编号索引全部字符以外,本身是用四个字节存储全部字符,这一点在谈到挂载windows分区的时候是非常重要的一个概念。所以说你也可以把Unicode看作是一种字符集(我不知道它和UTF-32的关系,反正UTF-32就是用四个字节表示所有的字符的),但是这样表述符号是非常浪费资源的,因为在计算机世界绝大部分时候用到的是一个字节就可以搞定的 26个字母而已。所以才会有UTF-8,UTF-16等等,要不然大同世界多好,省了这许多麻烦。
分享到:
评论

相关推荐

    Locale详解

    【Locale详解】 Locale是计算机系统中的一个重要概念,它关乎到软件如何适应不同地区的语言、文化和习惯。在国际化和本土化的过程中,locale起到了桥梁的作用,确保软件可以正确地处理和显示不同区域的语言信息。 ...

    grid.locale-cn.rar

    《jqGrid插件中文提示详解——grid.locale-cn.js的深度剖析》 在Web开发领域,jqGrid是一款广泛应用的JavaScript表格插件,它以其强大的数据管理、分页、排序和过滤功能,深受开发者喜爱。当我们需要为jqGrid提供...

    grid.locale-cn.js

    《Jqgrid中文本地化文件grid.locale-cn.js详解》 Jqgrid是一款广泛应用于Web开发中的强大表格插件,它提供了丰富的数据展示、编辑、排序、分页等功能,深受开发者喜爱。在Jqgrid的使用过程中,为了实现中文界面,就...

    详解Java中用于国际化的locale类

    Java中也有用于转换和划分地区的国际化类java.lang.Locale,国际化在程序中设置语言和时间等时非常有用,下面我们就来详解Java中用于国际化的locale类

    glibc-localedata-2.0.6.tar.gz

    《GNU C 库(glibc)的 localedata-2.0.6 分支详解》 在信息技术领域,GNU C 库(通常称为 glibc)是Linux操作系统和其他类UNIX系统上广泛使用的C语言运行时库。它提供了许多核心的系统调用、标准库函数以及与操作...

    0xc000007b_ADB_api-ms-win-crt-locale-l1-1-0

    **知识点详解:** 1. **ADB(Android Debug Bridge)**:ADB是Android开发者用于调试设备或模拟器的主要工具,它允许开发者通过USB或无线网络连接到设备,进行安装应用、查看设备状态、传输文件以及执行shell命令等...

    fileinput-locale-zh.js

    《fileinput-locale-zh.js:Bootstrap文件上传组件的中文语言包详解》 在Web开发中,用户交互体验是至关重要的,特别是在文件上传这一环节。fileinput-locale-zh.js是一个专门为Bootstrap文件上传组件提供的中文...

    PyPI 官网下载 | Flask-Locale-0.2.tar.gz

    **Flask-Locale 0.2 - Python 库详解** Flask-Locale 是一个用于 Flask 框架的扩展,它提供了对多语言支持的功能,使得开发者能够轻松地为 Flask 应用程序添加国际化(i18n)和本地化(l10n)特性。在 Python 的 ...

    FTP命令详解_及_shell中的使用

    ### FTP命令详解与Shell中的应用 FTP(File Transfer Protocol)是一种用于在网络上进行文件传输的协议。本文将深入解析FTP命令的使用方法及其在Shell环境下的具体应用,旨在为用户提供一份详实的中文版帮助文档。 ...

    android Manifest.xml详解

    ### Android Manifest.xml 文件详解 #### 一、Manifest.xml 文件概览 `Manifest.xml` 是 Android 应用程序的核心配置文件之一,它定义了应用程序的基本结构和行为,包括应用的组件(如 Activity、Service 和 ...

    C语言函数库详解.docx

    C语言函数库详解 C语言函数库是C语言中的一个重要组件,它提供了一组丰富的函数库,帮助开发者快速高效地编写C语言程序。下面是对C语言函数库的详细解释: assert.h:诊断 assert.h头文件提供了一个名为assert的...

    C语言函数库详解(收藏版).docx

    ### C语言函数库详解 #### 第一章:C标准库概览 本章节将详细介绍C语言标准库中的各个部分,包括但不限于诊断、字符类别测试、错误处理等方面的基础知识及其应用场景。 ### 1. `<assert.h>`:诊断 - **定义**:`...

    python模块详解

    python模块详解 各个模块的详解 核心模块 1.1. 介绍 1.2. _ _builtin_ _ 模块 1.3. exceptions 模块 1.4. os 模块 1.5. os.path 模块 1.6. stat 模块 1.7. string 模块 1.8. re 模块 1.9. math 模块 1.10....

    C语言函数库详解

    ### C语言函数库详解 #### 第一章:C标准库概览 本章节将详细介绍C语言中的标准库函数,这是所有C程序员都应该了解的核心部分。这些库提供了丰富的功能,覆盖了从基本的数据类型操作到复杂的数学计算等多个领域。 ...

    C语言标准函数库详解.pdf

    C语言标准函数库详解 C语言标准函数库是C语言中提供的一组预定义的函数,用于实现各种常见的操作,如输入输出、数学运算、字符串处理、时间日期处理等。这些函数库是C语言的基础组件,掌握这些函数库的使用是C语言...

    Linux下中文文件名乱码问题的详解 - CSDN博客1

    在Linux中,可以通过修改locale设置来实现这一点,如使用`locale-gen`命令来生成或更新locale。同时,还需要确保终端或shell环境变量(如LANG、LC_ALL等)设置为支持中文的locale。 此外,当在不同编码之间进行转换...

    VB中format函数参数详解

    VB 中 format 函数参数详解 VB 中的 Format 函数是一个强大的字符串格式化工具,用于将各种数据类型转换为字符串 输出。Format 函数的参数有四个,分别是 expression、format、firstdayofweek 和 firstweekofyear。...

    struts2常量详解

    - **struts.locale**: 设定Web应用的默认区域设置,影响日期、货币和数字格式等。 - **struts.i18n.encoding**: 指定Web应用的默认字符编码,对处理中文请求参数至关重要。 - **struts.objectFactory**: 选择...

    SSH整合_-简单登录过程详解

    ### SSH整合_-简单登录过程详解 #### 一、概述 SSH框架是指由Struts、Spring和Hibernate三个开源框架组成的轻量级Java企业级应用开发框架。这三个框架在Java Web开发中各自扮演着重要的角色:Struts负责MVC设计...

    Struts2属性文件详解

    ### Struts2属性文件详解 #### struts.configuration 该属性用于指定加载Struts 2配置文件的配置文件管理器,默认值为`org.apache.struts2.config.DefaultConfiguration`,这是Struts 2默认的配置文件管理器。若...

Global site tag (gtag.js) - Google Analytics