建立了一个文本文件内容为空,分别另存为ANSI 编码,Unicode编码, UTF-8 编码, 结果它们的大小和占用空间分别为:(2个字节,4kb),(0个字节,0kb),(3个字节,4kb)好玩,看看到底咋整的吧!于是把word文件也狂转换开始,玩玩
问题: word文件保存为 xml格式 怎么打开?双击跳出保存对话框,保存后,再双击,再跳出保存对话框,我非打开不可,于是研究下如下格式:
rtf格式:RTF格式是由Microsoft创建的,同时它也是微软公司的WordPad采
用的标准格式.RTF是Rich Text Format的缩写,中文译名有丰富文本格式或富文本格式等 沟通WPS与Word的一种文件格式──RTF格式:写字板
现在大部分机器上装的字处理软件不是微软的word就是金山的wps,这两个软件默认的文件格式不一样,一个是.doc格式,一个是.wps格式,彼此之间不能实现很好的互访。现在很多人采用的方法就是把文件存为纯文本.txt格式,但是会因此丢失文件原有的编排格式,很可惜!
这里我们介绍另一种文件格式──.RTF格式,RTF是一种非常流行的文件结构,很多文字编辑器都支持它。一般的格式设置,比如字体和段落设置,页面设置等等信息都可以存在RTF格式中,它能在一定程度上实现word与wps文件之间的互访。下面以word为例,说明具体的操作方法如下:
1.单击“文件”菜单中的“另存为”选项,弹出的“另存为”对话框。
2.在“保存位置”输入框中选择文件保存的位置,在“文件名”输入框中输入文件名。
3.单击保存类型输入框中的下拉按钮,在弹出的列表中选择“RTF类型”。
4.单击“确定”按钮即可。
这样,当你用wps打开这个文件时,就会发现,基本的编排格式都还在,比如页眉、页脚、标题等,也许字体型号、表格等会有所变化,但稍稍加工就可以了。你不妨试一试!
另外,我发现写字板也可以打开doc文件和RTF文件,当然记事本不能。
xml格式:
xml到xsl转换:
mht格式:
html格式:
相对于ASCII,Unicode为双字节长的字符集,到目前已定义了世界上绝大多数文字的常用字,ASCII字符集是它的子集,即Unicode字符集兼容ASCII字符集。使用Unicode最大的好处是可以使应用程序方便地实现多语言支持,不再基于CODEPAGE。微软的IE 5.0、WINDOWS 2000,OFFICE 97以上版都是基于UICODE的。
关于使用UNICODE的问题:因WINDOWS 95、98 不支持UNICODE,WINDOWS NT、2000,完全支持,若要使基于UNICODE的应用程序在上述OS上运行,那是个较麻烦的问题,请参考微软经典书籍:<<DEVELOPING INTERNATIONAL SOFTWARE FOR WINDOWS 95 AND WINDOWS NT>> --- NADINE KANO
UNICODE每个字符占两个字节。
ASCII占一个。
从Win2K开始,操作系统所有的内部函数都是用UNICODE实现的。
Unicode简介
---- 由于在计算机应用领域中存在着几十种互不相同的字符集,当在使用不同字符集的计算机系统之间进行信息交换时,人们可能会得到一些莫名其妙的东西(那些经常上网,经常不得不在各种字符编码之间来回切换的人对此可能深有感触)。紊乱的字符编码给信息交换以及软件开发商等带来了极大的不便。人们急需一种得到大家认可的并且涵盖了全世界各种文字的字符集。显然,建立这样的一种字符集是十分困难的。不过,这方面的努力一直在进行,Unicode就是这种努力的结果之一。
---- 为了将成千上万的文字统一到同一个编码机制之下,在兼顾经济的原则下,不管是东方文字还是西方文字,在Unicode中一律用两个字节来表示。也就是说,Unicode是一种双字节编码机制的字符集,使用0-65535之间的双字节无符号整数对每个字符进行编码。这样,在Unicode字符集中,至少可以定义65536个不同的字符,足以应付目前绝大多数场合的需要。
---- 目前,常用的Unicode编码方式有两种:UTF-8以及UTF-16。
---- UTF-8 是一种不等幅的编码方式,UTF-8编码的字节长度取决于所要编码的字符在ISO 10646中的编码值。在UTF-8中,不同的字符,可能需要1-6个字节来进行编码。对于单字节的UTF-8编码,该字节的最高位为0,其余7位用来对字符进行编码(等同于ASCII码)。对于多字节的UTF-8编码,如果编码包含n个字节,那么第一个字节的前n位为1,第一个字节的第n+1位为0,该字节的剩余各位用来对字符进行编码。在第一个字节之后的所有的字节,都是最高两位为"10",其余6位用来对字符进行编码。
---- UTF-16也是Unicode的变形表示方式的一种。它的目的是维持双八位的编码方式,同时也用一些特殊的双八位来表示ISO 10646中非基本多文种平面(BMP)中的一些字符。这种用来表示非BMP字符的方法在Unicode中称作代理对机制。
---- 代理对的编码机制以及原先不需要代理对的六万三千多个基本 Unicode 码,合起来叫做UTF-16。也就是说UTF-16 基本上就是 Unicode双字节编码的实现,再加上一个应付未来扩充需要的编码机制。
---- UTF-16编码遵循下述原则:
对于字符编码值小于0x10000的字符,则直接把编码值转化为一个相等的16位整数。
对于字符编码值在0x10000到0x10FFFF之间的字符,将用一个0xD800到0xDBFF(代理高部)之间的16位数,后面紧跟一个0xDC00到0xDFFF(代理低部)之间的16位数来表示。
字符编码值大于0x10FFFF的字符将不能用UTF-16来表示。
Unicode文本文件和ASCII的区别
用程序写了一段unicode编码的文本写到文件中,用记事本打开一看文本是乱的,而且记事本将其认定是ASCII文本。而自己用记事本写了一段文字,保存为unicode文本却正常。 后来无意中发现,用记事本保存的一个unicode空文本文件是2个字节的,而ASCII的空文本文件是0字节的。于是用utrl edit打开了空的unicode文本文件发现,两个字节的内容是FFFE, 而unicode big endian是FEFF, 原来所有unicode文本文件都有一个两字节的文件头。而ASCII的文本文件是没有文件头的,所以unicode编码写成ASCII文件后是乱的。 于是我按照上面描述的,将文本文件前面加上了FFFE两个字节,后面再写自己的字符串,一个unicode的文本文件便成功地写好了。
分享到:
相关推荐
通过学习ASCII和UNICODE,我们可以更好地理解和处理各种编码问题,提高软件的兼容性和国际化程度。对于IT从业者来说,掌握这些基础知识能够帮助他们在面对复杂的字符编码问题时,更从容地找到解决方案。而提供的...
在本压缩包"TharConvert.zip_arc_ascii_ascii to unicode_unicode_unicode ascii"中,包含的源程序和文档可能涉及了将ASCII编码转换为Unicode编码,以及反过来将Unicode转换为ASCII的过程。下面将详细解释这些概念和...
在"易语言4行代码实现ASCII转Unicode"的项目中,我们关注的核心知识点是如何在易语言中用极少量的代码实现字符编码的转换。 ASCII(美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,最初只使用7位二进制...
标题中的“16进制ascii码Unicode转换工具”是指一种软件或在线服务,它能够帮助用户将16进制表示的ASCII编码转换为Unicode编码,反之亦然。这个工具的独特之处在于它支持同步输入和批量转换,使得处理大量数据变得...
UTF-8的优势在于其与ASCII的兼容性,前128个Unicode字符与ASCII编码相同,这使得许多ASCII处理的库和工具可以无缝地处理UTF-8编码的文本。 在C++中进行这些编码间的转换,通常需要使用一些库函数或者自定义的实现。...
本文将深入探讨ASCII与Unicode编码以及如何在易语言中进行转换。 ASCII编码,全称美国标准信息交换代码,是最早的字符编码标准,它只包含了128个基本的西文字符,如字母、数字、标点符号等。每个字符用一个7位的二...
JavaScript的`String`对象提供了与字符编码相关的函数,如`charCodeAt()`用于获取指定位置字符的Unicode码位,`fromCharCode()`则可以根据Unicode码位创建字符串。 在处理特殊字符时,可能会遇到ASCII和Unicode的...
ASCII和Unicode是两种常见的字符编码标准。本教程将详细解释如何使用易语言,一种面向初学者的编程语言,通过四行代码实现ASCII到Unicode的转换。 ASCII(American Standard Code for Information Interchange,...
描述中提到的“生成20902个Unicode汉字,并利用UltrEdit打开,执行Unicode转ASCII,即可得到Unicode转换表”,说明这个过程是为了解决Unicode字符(主要指汉字)与ASCII编码间的互转问题。UltrEdit是一个强大的文本...
运行这段代码后,输出的`unicodeStr`将保持不变,因为ASCII字符在Unicode中与原样表示。 在提供的压缩包文件`dyEY6oRX.e`中,可能包含了易语言的源码文件或示例,你可以解压后打开查看更详细的实现。学习和理解这个...
Unicode的实现之一就是UTF-8编码,它是一种变长编码,可以使用1到4个字节来表示一个字符,对于ASCII字符,UTF-8使用相同的1字节编码,这就保证了与ASCII的兼容性。对于其他语言,UTF-8使用更多字节,使得所有语言都...
本文主要探讨了在Qt中如何进行UTF8、Unicode、GBK、ASCII、16进制字符和16进制数值之间的转换。 首先,让我们简单回顾一下各种编码格式: - ASCII:美国信息交换标准代码,包含128个字符,主要用于英文和西欧语言,...
在本案例中,我们关注的是ASCII编码与Unicode编码之间的转换,这是一个常见的编程问题,特别是在处理多语言文本时。让我们深入了解一下ASCII和Unicode,以及如何在C语言中进行这两种编码的转换。 首先,ASCII(美国...
2. **国际化数据库应用**:对于需要存储非ASCII字符的数据,TMS Unicode组件可以帮助开发者轻松地与Unicode兼容的数据库进行交互。 3. **文本处理工具**:如文本编辑器、翻译软件等,这些应用需要处理大量和多种...
标题中的“易语言脚本组件转换Ascii编码与Unicode编码源码”指的是使用易语言编写的一种脚本组件,这个组件的主要功能是进行ASCII编码和Unicode编码之间的转换。 ASCII编码,全称美国标准信息交换代码,是基于拉丁...
在《计算机编码与Unicode》的PPT课件中,深入探讨了字符编码的各个方面,特别是Unicode编码体系,这对于理解多语言环境下的信息处理至关重要。 首先,我们需要明白计算机编码的必要性。计算机本身只能理解和处理...
此外,ASCII码与字符编码的其他标准如Unicode(包括UTF-8)的关系也值得了解。Unicode包含更多语言的字符,但ASCII是Unicode的一个子集,所有的ASCII字符在Unicode中都有相同的位置。因此,ASCII兼容性是许多现代...
总之,ASCII编码是计算机科学的基础之一,这个"ASCII与字符互转"的程序提供了便捷的方式来查询和操作ASCII码,对于学习和工作都有很大帮助。通过"ASCII.exe"和可能的扩展"ASCII.uzy",用户可以更有效地处理与ASCII码...
通过对“HEXtoASCII”这个主题的学习,你可以进一步深入到更复杂的编码和解码问题,比如Unicode编码、Base64编码等。随着你不断积累经验,这些知识将构成你编程技能的重要组成部分,助你在IT行业中稳步前行。
而A2W则是ASCII To Wide Char的缩写,它的功能正好相反,将ASCII编码的字符串转换为UNICODE编码的字符串。这两个函数在处理跨平台或者与不同编码系统交互的程序中非常有用,因为不同的系统可能使用不同的字符编码...