`

BiDi 排版算法

阅读更多

  BiDi 排版算法 收藏


--------------------------------------------------------------------------------


说明
本文内容参考 The Bidiretional Algorithm:http://unicode.org/reports/tr9/tr9-17.html

本文并不是对The Bidirection Algorithm的翻译,而是将比较常碰到的问题摘录下来。同时从比较简单的例子来说明这个算法是应用的。因此也并没有覆盖里面所讲的每一个细节。同时比较可以借鉴的是我对算法的理解(当然,也有可能因理解的不准确而有偏差)。

目前网页的排版基本上分成LTR(从左到右,left-to-right)和RTL(从右到左,right-to-left)。比较多的语言默认的排版是LTR,比较典型的RTL有阿拉伯文和希伯来文。这里就是介绍如果两种不同的排版的文字在同一段文章里面是如何排版的。本文主要基于网页的排版,当然,很多其他软件的排版也是基于这种算法来排版的。

以下的例子都以阿拉伯文和英文来举例。其中大写字母表示阿拉伯文,比如AB C。小写字母表示英文,比如abc。同时因为LTR的排版比较简单,将基本上以RTL为例子。


--------------------------------------------------------------------------------

术语介绍
首先是RLE和LRE。RLE是指嵌入在一段LTR文字中的RTL文字。例如 english text "I AM ARABIC" at the end,其中的"I AM ARABIC"就可以认为是RLE。反之为LRE。RLE和LRE是用来把一段文章分成不同层次的句子来处理的。比如刚才的句子中,在算法的处理过程中,会分成三个句子来分别处理,english text作为第0层的句子,I AM ARABIC作为第1层的句子,at the end 作为第2层的句子。

上面谈到的层是算法中比较关键的一个概念。其中分成嵌入层次(Embedding Level)和算法处理得将要结束的时候得到的每个字符的层次(Resolved Implicit Level)。嵌入层次由上面提到的RLE和LRE决定。

然后是RLM和LRM。英文里面叫Right-to-Left-Mark和Left-to-Right-Mark,是不可见的特殊字符。RLM可以认为是RTL排版的语言里面的一个强字符,而LRM可以认为是LTR排版的语言里面的一个强字符。

上面提到的强字符是也是一种很关键的概念。所谓强字符表示排版的系统知道这个字符是RTL的字符,任何一个阿拉伯的字符和希伯来的字符都可以认为是强字符(其类型为RTL),其他LTR语言的字母,文字也是强字符(其类型为LTR)。相对应的是弱字符,即排版系统不知道这个字符属于RTL还是LTR的字符,这种字符的排版取决于很多的因素(就是下面的算法的关键了)。比如数字 - 1,2,3...。还有一种是中性字符,比如标点符号 - 括号,逗号,句号...;空格。注意:引号并不总是(其实我还不太确定不成双成对的引号的处理办法,但如果引号是成双成对的话,那肯定是作为嵌入句子的分符号)代表中性字符,因为引号用来区分开不同的各个不同层的句子,以后会出现回各个不同句子的分割处。

排版最后要区分出来的是每个字符的方向,分成R和L两种。R表示向右,L表示想左。RTL强字符的方向是R,LTR强字符的方向是L。


--------------------------------------------------------------------------------

算法步骤
1. 拆分文章成一行一行
排版的开始需要将一段话分配到不同的行,不管是从左到右,还是从右到左,每行能够容纳的字符的数量是定的。因此系统会从第一个字符开始,一个一个字符计算宽度,当累积的宽度超过一行时,就从当前的字符断开,将之前所有的字符作为下面处理的基础。根据断行的不同,最终的排版的效果可能会有很根本的区别。
比如:

abc "I AM ARABIC" 2 ARABIC

如果到2的时候就断行,则abc "I AM ARABIC" 2会作为一行句子处理,这时候2会认为是前面I AM ARABIC" 2 的一部分,第一行会分成abc 和 I AM ARABIC" 2两句话(注意第一个引号作为嵌入的标志而移出了,第二个引号因为后面跟的是2,并不认为是嵌入的结束,因此作为句子的一部分进行处理了);而如果是到2前面断行,则第一行会分成 abc 和 I AM ARABIC两句(两个引号都认为是嵌入的标志)。

2. 拆分一行为不同层次的句子
根据引号(包括单双引号),把句子分成不同层次的句子。

比如:

abc "ARABIC english text" HEBREW TEXT

分成三个句子,

abc
ARABIC english text
HEBREW TEXT

3. 决定每个句子的层次和方向
首先要从段落的初次层次说起。段落的初始层次可以是0和1,取决于当前段落的基本方向,如果基本方向是L,则为0,或者为1。当前段落的基本方向由段落中第一个强字符的方向决定,比如abc ARABIC 的初始层次为0,而(23) A abc的初始层次为1。但是如果在段落的更高层次的地方声明了段落的方向,则由声明的方向决定。

比如HTML中的dir属性,就可以定义段落的方向。<div dir="rtl">abc</div>将段落的方向定义为R,其初始层次为1。
然后每个句子的初始层次分别递增。

比如以上abc "ARABIC english text" HEBREW TEXT会分层以下的层次

0: abc
1: ARABIC english text
2: HEBREW TEXT

4.确定一行中每个句子开始的方向和结束的方向
句子开始的方向和结束的方向是用来决定句子的开头或者结尾没有的弱字符。如123ab()这里的123就要根据句子开始的方向来决定(如何决定下面会提到),()则要根据句子结束的方向辅助来判断。
算法大概是这样的,一行最开始的句子的方向为段落的方向,结束的方向与开始的方向相反,以此类推下去。但一行最后一个句子结束的方向也和段落的方向一样。
我们用sor (start of level run)来表示句子的开始的方向,eor表示句子结束的方向。

比如abc "ARABIC english text" HEBREW TEXT如果段落的方向为R,则

sor=R      abc                                        eor=L
sor=L      ARABIC english text               eor=R
sor=R      text                                        eor=R

最后一个eor=R是因为段落的方向为R。

5. 标记每个句子中每个强字符的方向
强字符的方向是很容易确定的,RTL强字符的方向是R,LTR强字符的方向是L。
比如:

步骤    0   b   c   空格   1   2   3    空格  A   (  4   d   5    )   B   C  6   .    
第5步后   L L           R     L     R R      
                                       


6. 标记弱字符的方向
弱字符主要是数字。从弱字符往前面查抄,知道找到上一步标记的L,R或sor为止。如果找到L(如果sor为L,也算),则将弱字符标记成L。
比如 (当前句子的sor为R)

步骤    0   b   c   空格   1   2   3    空格  A   (  4   d   5   )   B   C  6   .    
第5步后   L L           R     L     R R      
第6步后   L L   L L L   R     L L   R R      


上面例子中,0找到的sor(为R),不标记。1,2,3都找到字符c,其为L,因此标记为L。5找到d,也为L。4找到A(为R),不标记。6找到C(为R),不标记。

7. 标记中性字符的方向
 两个R之间的中性字符标记成R,两个L之间的中性字符标记成L。注意,因为在第6步的时候所有的数字,如果表现为L的话,都已经标记成了L了,所以现在剩下的所有的数字都表现(这里用表现表示其行为上一致,但因为后面有和R不同的行为,所以不标记成R)为R,我们可以将数字表示成EN(European Number)(实际上有AN和EN之分,AN表示Arabic Number,为现在阿拉伯文字中用的数字-不同于我们熟悉的阿拉伯数字;EN表示欧洲标准的数字,其实就是我们熟悉的阿拉伯数字。但因为这两者没有排版上的根本区别,这里都用EN表示)。同时在这一步的时候,sor作为第一个字符的相邻字符,eor作为最后一个字符的相邻字符。
在上面的步骤之后,其他剩下的与sor的方向一样。

比如 (当前句子的sor为R)

步骤    0   b   c   空格   1   2   3    空格  A   (  4   d   5   )   B   C  6   .    
第5步后   L L           R     L     R R      
第6步后   L L   L L L   R     L L   R R      
第7步后  R L L L L L L R R R EN L L R R R EN R  


0因为相邻的sor和b分别为R和L,取sor方向。第一个空格因为相邻的都为L,方向为L。第二个空格相邻的3和A分别为L和R,取sor方向。"("相邻的A和4都为R(4也认为是R),方向为R。")"相邻的5和B分别为L和R,取sor方向。"."相邻为6和eor,都为R,取R。

8.标记每个字符的层次
根据当前句子的层次(用EL表示),标记每个字符的层次:

字符的

方向(类型)
 句子的层次
偶数 奇数
L EL EL+1
R EL+1 EL
EN EL+2 EL+1

如果当前的层次为1,则

步骤    0   b   c   空格   1   2   3    空格  A   (  4   d   5   )   B   C  6   .    
第5步后   L L           R     L     R R      
第6步后   L L   L L L   R     L L   R R      
第7步后  R L L L L L L R R R EN L L R R R EN R  
第8步后 1 2 2 2 2 2 2 1 1 1 2 2 2 1 1 1 2 1  


如果当前的层次为0,则

步骤    0   b   c   空格   1   2   3    空格  A   (  4   d   5   )   B   C  6   .    
第5步后   L L           R     L     R R      
第6步后   L L   L L L   R     L L   R R      
第7步后  R L L L L L L R R R EN L L R R R EN R  
第8步后 1 0 0 0 0 0 0 1 1 1 2 0 0 1 1 1 2 1  


9. 根据层次反转字符
从当前句子的最高的层次开始,反转当前和以上层的字符。一直到第1层为止。

比如
如果当前的层次为1,则

步骤    0   b   c   空格   1   2   3    空格  A   (  4   d   5   )   B   C  6   .    
第5步后   L L           R     L     R R      
第6步后   L L   L L L   R     L L   R R      
第7步后  R L L L L L L R R R EN L L R R R EN R  
第8步后 1 2 2 2 2 2 2 1 1 1 2 2 2 1 1 1 2 1  


开始 0bc 123 A(4d5)BC6.
反转第2层 0321 cb A(5d4)BC6.
反转第1层以上 .6CB(4d5)A bc 1230


 如果当前的层次为0,则

步骤    0   b   c   空格   1   2   3    空格  A   (  4   d   5   )   B   C  6   .    
第5步后   L L           R     L     R R      
第6步后   L L   L L L   R     L L   R R      
第7步后  R L L L L L L R R R EN L L R R R EN R  
第8步后 1 0 0 0 0 0 0 1 1 1 2 0 0 1 1 1 2 1  


开始 0bc 123 A(4d5)BC6.
反转第2层 0bc 123 A(4d5)BC6.
反转第1层以上 0bc 1234(A d5.6CB)

 

--------------------------------------------------------------------------------

 例子及修正方法
1. 例子一
注意:一下的例子中大写字母不再表示阿拉伯文,这种字符 ينمتم 才是阿拉伯文
在阿拉伯的网页中,我们有以下的文字要显示 English (UK),因为当前的网页由以下的声明<div dir="rtl">,因此我们的段落的基本方向为R,这句直接作为一个句子进行处理。其sor为R,eor为R。

步骤    E   n   g   l   i   s   h    空格  (   U  K   )  
第5步后 L  L  L  L  L  L  L      L  L 
第6步后 L  L  L  L  L  L  L      L  L 
第7步后 L L L L L L L L L L L R
第8步后 2 2 2 2 2 2 2 2 2 2 2 1


开始 English (UK)
反转第2层 KU( hsilgnE)
反转第1层以上 )English (UK


因此字符会显示成 ")English (UK" (实际上会显示成 "(English (UK" 因为显示的时候会根据字符的特性作一些自身的反转,比如")"会被反转成"(").

如何修正呢?

我们可以在左括号的前面几上一个RLM字符(&#x200F),右括号的后面加上一个RLM字符。RLM字符并不会显示。这样计算就变成

步骤    E   n   g   l   i   s   h    空格  RLM (  U   K   )  RLM 
第5步后 L  L  L  L  L  L  L     R   L  L    R 
第6步后 L  L  L  L  L  L  L     R   L  L    R 
第7步后 L L L L L L L R R R   L L R   R 
第8步后 2 2 2 2 2 2 2 1 1 1 2 2 1  1 


开始 English (UK)
反转第2层 hsilgnE (KU)
反转第1层以上 (UK) English


因此字符会显示成 (UK) English,就是我们在RTL里面想要的排版。


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/wind_zsu/archive/2009/01/15/3792055.aspx

分享到:
评论

相关推荐

    Unicode编码和双向算法(bidi)详解.pdf

    在Unicode编码中,双向算法(BiDi,bidi)是处理从右至左书写的语言(如阿拉伯语、希伯来语等)的特殊机制。这一算法的主要目的是确保在视觉上,文本的排列顺序能够正确地反映出语言的书写习惯。例如,在希伯来语中...

    context-bidi:ConTeXt MkIV 的 Unicode BiDi 算法实现

    总之,ConTeXt MkIV的Unicode BiDi算法实现为排版工作带来了便利,特别是对于处理多语言和混合方向的文本。尽管存在一定的风险,但其lua实现提供了强大的可定制性和灵活性。对于那些热衷于排版技术的开发者来说,...

    python-bidi:BIDI算法相关功能

    该算法从单个入口点bidi.algorithm.get_display开始。 必选参数: unicode_or_str :原始的unicode或字符串(即:存储)。 如果是字符串,请使用可选的参数encoding来指定其编码。 可选参数: encoding :如果...

    ICU4C-Sample.rar_4c理论案例_BiDi算法_IBM ICU4C_ICU4C_阿拉伯语

    ICU4C 应用实例。关于ICU4C介绍如下: ICU4C是ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于 IBM公共...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持。

    排序算法,用C语言来做的

    用C做了个排序,代码很少,可以把排序结果依次输出来,好东西~~

    Demo_bidi-0.1.15.rar_DEMO_bidi

    2. **Fribidi库**:Fribidi是一个遵循Unicode BiDi算法的开源库,用于计算和应用双向文本的显示顺序。这个库可以被各种编程语言的绑定使用,如C、Java、Python等,以支持在应用程序中实现BIDI。 3. **DEMO代码**:...

    Python库 | python-bidi-0.3.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:python-bidi-0.3.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    webdriver-bidi:用于浏览器自动化的双向WebDriver协议

    WebDriver BiDi WebDriver BiDi是针对浏览器自动化而提出的双向协议,它建立在之上并对其进行扩展。 WebDriver BiDi尚未准备好。 到目前为止,这里是: 一个有更多的背景和目标 初始协议的详细 一份等待充实

    irssi-bidi:irssi的bidi插件

    irssi 的bidi 插件。 正确显示包含 RTL 文本的消息,例如希伯来语、阿拉伯语等。 用法 安装“fribidi”并确保路径中有 fribidi 可执行文件。 按照的说明安装和启用插件。 笔记 我在 2012 年年中首次编写并开始使用...

    dbidi:用于 JavaScriptAMDDojo 应用程序的 Bidi 实用程序

    #dbidi 该项目为 JavaScript/AMD/Dojo 应用程序提供了 bidi 实用程序地位最新的预发布版本是 0.3.0。移民将“dojox/string/BidiEngine” AMD 模块的任何使用替换为“dbidi/TextLayoutEngine”。许可该项目由 Dojo ...

    光通信 IEEE 802.3cp 协议 关于10G/25G/50G BIDI 模块

    光通信 IEEE 802.3cp 协议 关于10G/25G/50G BIDI 模块

    什么是单纤双向光模块?BIDI单纤双向光模块概述

    今日,易飞扬通信就为大家讲解BIDI单纤双向光模块。  什么是单纤双向光模块?  BiDi光模块结构紧凑,主要用于光通信领域,包括电信和双向数据通信。单纤双向即BiDi,是指在一根光纤里可以同时...

    iText中文问题

    `iTextAsian.jar` 可能包含了针对这些需求的特定实现,例如更全面的字体资源、优化的中文排版算法以及对中文字符集的增强支持。如果你在使用过程中遇到问题,可以通过博客链接...

    icu4c-50_1_2-src

    ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, 用于支持软件...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持

    icu4c-51_rc-src

    ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, 用于支持...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持。

    ICU4C国际化问题

    ICU4C是ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, 用于...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持

    icu4c-51_rc-data

    ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, 用于支持...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持。

    icu4c-3_8_1-src

    ICU4C是ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, ...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持。

    icu4c-4_6-src

    ICU4C是ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, ...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持。

    icu4c-4_8-src

    ICU4C是ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, ...必须一提的是,ICU4C提供了强大的BIDI算法,对阿拉伯语等BIDI语言提供了完善的支持。

Global site tag (gtag.js) - Google Analytics