Oraclcle字符集计算汉字长度问题总结

wdmcln

浏览: 139128 次

最近访客更多访客>>

CheungGQ

fengzy001

fengbin2005

闪客行

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Oracle

Oracle 数据结构 SQL Server DOS SQL

前言

　　在历史数据转换项目中遇到中文字符插入问题：

1. 字符的长度明明是正常，可是偏偏提示不能插入，列值过大

　　　　　通过寻找问题，理解问题，上网查找等等，终于找到了问题的根源所在：

US7ASCII编码英文字符一般是以一个字节来存储的，7位的编码方案最多只能
  代表128个字符
ASCII编码可以表示的最大字符数是256，其实英文字符并没有那么多，一般只
 用前128个（最高位为0），其中包括了控制字符、数字、大小写字母和其他
 一些符号,而最高位为1的另128个字符被成为“扩展ASCII”，一般用来存放
 英文的制表符、部分音标字符等等的一些其他符号．用来处理英文没有什么问
 题前128个（最高位为0），其中包括了控制字符、数字、大小写字母和其他
 一些符号 而最高位为1的另128个字符被成为“扩展ASCII”，一般用来存放
 英文的制表符、部分音标字符等等的一些其他符号．用来处理英文没有什么问
 题

１．１　汉字占用2个字节（GB2312）
１．２　汉字占用3个字节（AL32UTF8）
     UTF= UCS Transformation Format UCS转换格式 
     UTF-8定义了一种“区间规则”，可以和ASCII编码保持最大程度的兼容 　   UTF-8有点类似于Haffman编码，它将Unicode编码为
     00000000-0000007F的字符，用单个字节来表示；
     00000080-000007FF的字符用两个字节表示 
　　 00000800-0000FFFF的字符用3字节表示 
     Unicode-16规范没有指定FFFF以上的字符，
     UTF-8最多是使用3个字节来表示一个字符。
     但理论上来说，UTF-8最多需要用6字节表示一个字符

　　 2. clob字段，clob长度设为2g，但在插入时，提示不能插入

一、什么是oracle字符集

Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货币，数字，和日历自动适应本地化语言和平台。

影响oracle数据库字符集最重要的参数是NLS_LANG参数。它的格式如下:

NLS_LANG = language_territory.charset

它有三个组成部分(语言、地域和字符集)，每个成分控制了NLS子集的特性。其中

Language 指定服务器消息的语言，territory 指定服务器的日期和数字格式，charset 指定字符集。如:AMERICAN _ AMERICA. ZHS16GBK

1、查询oracle server端的字符集

select userenv(‘language’) from dual;

2、如何查询dmp文件的字符集

用oracle的exp工具导出的dmp文件也包含了字符集信息，dmp文件的第2和第3个字节记录了dmp文件的字符集。如果dmp文件不大，比如只有几M或几十M，可以用UltraEdit打开(16进制方式)，看第2第3个字节的内容，如0354，然后用以下SQL查出它对应的字符集:

select nls_charset_name(to_number('0354','xxxx')) from dual;
Result:ZHS16GBK

如果dmp文件很大，比如有2G以上(这也是最常见的情况)，用文本编辑器打开很慢或者完全打不开，可以用以下命令(在unix主机上):

cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6

3、查询oracle client端的字符集

dos窗口里面自己设置，比如:

set nls_lang=AMERICAN_AMERICA.ZHS16GBK

这样就只影响这个窗口里面的环境变量

oracle的字符集有互相的包容关系。如us7ascii就是zhs16gbk的子集,从us7ascii到zhs16gbk不会有数据解释上的问题,不会有数据丢失。在所有的字符集中utf8应该是最大,因为它基于unicode,双字节保存字符(也因此在存储空间上占用更多)。

1
顶

1
踩

分享到：

页面等待提示信息实现 | org.hibernate.NonUniqueObjectException学 ...

2008-01-11 09:52
浏览 3527
评论(2)
查看更多

2 楼 wdmcln 2008-07-04

@nieydzy
呵,不好意思!由于最近忙项目很少到这里来看!没及时回复你的信息不好意思!
具体问题具体分析:
大于4000的能插入,可能半角,全角,编码等等,oracle对这些的处理方式是不一样的
有按正常处理的两个字节,有可能也会出错三个字节,四个字节,都有可能出现

还有一种情况,就是oracle9i的处理blob,clob的方式是不一样的
9i必须选建一张空白的blob,clob字段类型,再插入内容
就OK
呵呵,至于别的原因,也有可能

1 楼 nieydzy 2008-03-25

我的程序，有的大于4000个汉字都能插入，可是有的才2000多就不能了，不知道为什么？用的oracle驱动是ojdbc14，能帮帮我么？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论