`

(转)论 LOAD 与 IMPORT 中的 codepage 转换

    博客分类:
  • DB2
 
阅读更多

武翠霞, 软件工程师, IBM
刘安琼, 软件工程师, IBM
王勇, 软件工程师, IBM  

 

简介: 本文介绍了 DB2 中进行 LOAD, IMPORT 时可能的 codepage 转换,在 DB2 V9.7 中进行了一些实例分析,使大家能更清晰的了解 codepage 转换。

本文的标签:  关于产品管理调试迁移配置

 

 

发布日期: 2010 年 7 月 22 日 
级别: 初级 
访问情况 1174 次浏览 
建议: 1 (查看或添加评论)

1 star2 stars3 stars4 stars5 stars 平均分 (共 1 个评分 )

 

引言

在 DB2 中,LOAD 与 IMPORT 作为重要的导入数据的工具,有着很重要的作用。理想情况下,为了获得最佳性能,应用程序与从该应用程序调用的语句始终应使用相同的代码页。在一些场景中,我们需要导入一些和数据库本身的 codepage 不一致的数据,这个时候就需要 codepage 转换了。DB2 产品支持代码页转换,从而允许应用程序和数据库使用不同的代码页。那么什么是 codepage ? DB2 支持那些 codepage 转化? 如何进行 codepage 转换呢?

Codepage 介绍

计算机处理文本时,把一门语言中每个字符都赋以特定的值,这种字符与数值的对照表就叫 codepage( 代码页 ) 。例如 ASCII 就是把英文字母表和一些控制字符映射到一些特定的数值上去。

DB2 支持的 codepage 列表

关于 DB2 支持的 codepage 可以在 DB2 信息中心中查看:

http://publib.boulder.ibm.com/infocenter/db2luw/v9r7/index.jsp?topic=/com.ibm.db2.luw.admin.nls.doc/doc/r0004565.html

在表中,每个 codepage 都有相对应的组,地域代码,代码集等。如果两个 codepage 属于同一个组,则它们可以互相转换,否则不可以互相转换。值得注意的是单字节(S)组可以转换成中性(N)组,双字节(D)组也可以转换为中性(N)组。但是 N 组不一定能转成 S 组,N 组也不一定成转成 D 组。

制造不同 CODEPAGE 数据的方式

制造不同 codepage 数据的方法有很多种。以下列出 4 种:

1. 使用 db2 export。DB2 本身 EXPORT 支持导出各种不同 codepage 的 DEL 格式的文件,例如导出 codepage 为 819 和 1386 的文件,如清单 1 所示。


清单 1. 导出 codepage 为 819 和 1386 的文件
				
 db2 "export to data819.del of del modified by codepage=819 
 select * from tab1"
 
 db2 "export to data1386.del of del modified by codepage=1386 
 select * from tab1"
 

注意 export 不能直接导出 asc 格式的文件。

2. 使用 UltraEdit 来编辑,先得到各种不同 codepage 数据的十六进制代码(可以从网上搜索或者 GVT 网站上查取),然后编辑保存就可以了。

例如: “你” 在 GBK(1386) 中是 X ’ C4E3 ’ , 在 UTF-8(1208)中是 X ’ E4BDA0 ’


图 1. 编辑‘你’的 GBK 代码
图 1. 编辑‘你’的 GBK 代码 

3. 使用 Windows 操作系统下的 Microsoft Word 来制作数据,方式如下

设置 –〉控制面板—〉区域和语言选项,设置你需要的语言,然后可以使用 WORD 来另存为纯文本,选择其它编码来指定其编码。

4. 使用 vi 来设置 fileencoding 来达到目的

例如准备 codepage 为 1208 的数据:

 set fileencoding=utf-8 
  


图 2. 设定 fileencoding
图 2. 设定 fileencoding 

提示:准备数字和字母这些比较方便,但是准备中文,日文等就不是很方便了。建议使用 UltraEdit 来准备这些诸如中文,日文语言的 codepage。

LOAD 与 IMPORT 不同转换方式

缺省情况下,LOAD 认为输入文件是用数据库代码页编码的,直接将文件转化为数据库 codepage 编码。如果输入文件不是以数据库 codepage 编码的,可以通过 codepage 修饰符来导入正确文件。而缺省情况下 DB2 IMPORT 实用程序认为输入文件中的数据是用当前系统的代码页编码的。当将数据文件导入到数据库时,DB2 会自动将数据文件从当前系统代码页转换成数据库代码页。如果输入文件不是当前系统的代码页编码的。也可以通过 codepage 修饰符来轻松导入正确文件。

所以一般来说,LOAD 直接把源数据的 codepage 转化为数据库的 codepage,而 IMPORT 则先将源数据的 codepage 转换为应用程序的 codepage,然后将应用程序的 codepage 再转换为数据库的 codepage。

LOAD 实例分析

这些例子都是在 DB2 V97 中实现的,以下实例用的是同一个数据库 db1386, 两个数据文件 data1386.del,data1208.del。

data1386.del 和 data1208.del 包含同样的数据第一列为 1,第二列为你,第三列为繜。但是编码方式不同。data1386.del 以 codepage 1386 编码,而 data1208 以 codepage 1208 编码。

字符 GBK(1386) 代码点 UTF-8(1208) 代码点
X'C4E3' X'E4BDA0'
X'BF9F' X' E 7B99C'

Linux 上当前系统代码页可以通过 db2set db2codepage 来设置。另外需要 db2 terminate,使设置生效。

db codepage 是建 DB 时由 codeset,territory 决定的。例如:

 db2 create db db1386 using codeset GBK territory CN 
 

可以通过以下命令查看 db 的 codepage。

 db2 get db cfg for dbname |grep 'Database code page'
  

数据 codepage 和 db codepage 一致时的 LOAD

缺省情况下 LOAD 认为数据 codepage 和 db codepage 一致,在这个例子中,导入成功。


清单 2. LOAD 清单 1
				
 db2 create db db1386 using codeset GBK territory CN 
 db2set db2codepage=1386 
 db2 terminate 
 db2 connect to db1386 
 db2 "create table t1(a int, b varchar(7),c varchar(10))"
 db2 load from data1386.del of del replace into t1 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 3 所示。


图 3. 查询结果 1
图 3. 查询结果 1 

数据 codepage 和 db codepage 不一致时的 LOAD

这个例子属于不正确的 LOAD,没有做 codepage 转换,data1208.del 被当成 db codepage 编码存进了 db。


清单 3. LOAD 清单 2
				
 db2set db2codepage=1386 
 db2 terminate 
 db2 connect to db1386 
 db2 load from data1208.del of del replace into t1 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 4 所示。


图 4. 查询结果 2
图 4. 查询结果 2 

LOAD 时数据 codepage 不会转成应用程序的 codepage

data1208.del 不会转成应用程序的 codepage,而是直接当成 db codepage 编码存进 db。


清单 4. LOAD 清单 3
				
 db2set db2codepage=1208 
 db2 terminate 
 db2 connect to db1386 
 db2 load from data1208.del of del replace into t1 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 5 所示。


图 5. 查询结果 3
图 5. 查询结果 3 

数据 codepage 和 db codepage 不一致时正确的 LOAD

在这种情况下正确的 load,数据的 codepage 和 modified by codepage 一致,如清单 5 所示。


清单 5. LOAD 清单 4
				
 db2set db2codepage=1208 
 db2 terminate
 db2 connect to db1386 
 db2 load from data1208.del of del modified by codepage=1208 
 replace into t1
 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 6 所示。


图 6. 查询结果 4
图 6. 查询结果 4 

LMPORT 实例分析

以下例子所用数据同上面 load 实例数据。

数据 codepage 和应用程序 codepage, db codepage 一致时的 IMPORT

缺省情况下认为应用程序 codepage 就是数据的 codepage。


清单 6. IMPORT 清单 1
				
 db2set db2codepage=1386 
 db2 terminate 
 db2 connect to db1386 
 db2 import from data1386.del of del replace into t1 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 7 所示。


图 7. 查询结果 5
图 7. 查询结果 5 

数据 codepage 和应用程序 codepage 一致 , 但和 db codepage 不一致时的 IMPORT

缺省情况下认为应用程序 codepage 就是数据的 codepage,可以正确的导入。


清单 7. IMPORT 清单 2
				
 db2set db2codepage=1208 
 db2 terminate 
 db2 connect to db1386 
 db2 import from data1208.del of del replace into t1 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 8 所示。


图 8. 查询结果 6
图 8. 查询结果 6 

数据 codepage 和应用程序 codepage 不一致时利用 modified by codepage 成功实现 import 的 codepage 转换


清单 8. IMPORT 清单 3
				
 db2set db2codepage=1386 
 db2 terminate 
 db2 connect to db1386 
 db2 import from data1208.del of del modified by codepage=1208 
 replace into t1 
 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 9 所示。


图 9. 查询结果 7
图 9. 查询结果 7 

数据 codepage 和应用程序 codepage 不一致时不正确的 import,没有实现 codepage 转换

把 data1208.del 当成应用程序 codepage 1386 编码的,数据库 codepage 也是 1386,不进行 codepage 转换。


清单 9. IMPORT 清单 4
				
 db2set db2codepage=1386 
 db2 terminate 
 db2 connect to db1386 
 db2 import from data1208.del of del replace into t1 
 db2 "select hex(b) as b ,hex(c) as c from t1"
  

结果如图 10 所示。


图 10. 查询结果 8    
图 10. 查询结果 8     

结束语

本文介绍了 LOAD,IMPORT 在不同情况下的 codepage 转换,以便使用户更好的理解 codepage 转换。


参考资料

学习

获得产品和技术

  • 使用可直接从 developerWorks 下载的 IBM 产品评估试用软件 构建您的下一个开发项目。

  • 现在可以免费使用 DB2。下载 DB2 Express-C,这是为社区提供的 DB2 Express Edition 的免费版本,它提供了与 DB2 Express Edition 相同的核心数据特性,为构建和部署应用程序奠定了坚实的基础。

讨论

分享到:
评论

相关推荐

    Python实战代码:PDF转换为图片

    接下来,让我们看看`code.py`脚本中的实现。在Python中,通常会使用`pypoppler-qt5`库来读取PDF,并利用`QPainter`和`QImage`来绘制PDF页面到图片。以下是一个基本的示例: ```python from PySide2.QtWidgets ...

    Db2 文件导入导出常见命令总结

    - 当涉及到不同字符集时,使用MODIFIED BY CODEPAGE指定目标代码页,确保数据正确转换。 - 时间字段可以通过TIMESTAMPFORMAT选项格式化,以适应不同的日期和时间表示。 - 在Import和Load操作中,需要根据业务需求...

    db2_导入导出

    除了IMPORT命令外,DB2还提供了LOAD命令,其主要功能与IMPORT相似,但具体使用方法略有不同。LOAD命令同样支持多种文件类型,并且可以根据需要选择不同的导入模式。在大多数情况下,IMPORT和LOAD可以互换使用,但在...

    DB2常用命令大全.pdf

    12. db2setdb2codepage=1208:修改页编码为1208。 查看和管理数据库对象 1. db2describetable<表名>:查看指定表的结构。 2. db2listtables:查看数据库中所有表结构。 3. listtablesforsystem:列出所有系统表。 4...

    java初学者或开发者查询手册.pdf

    **定义**: JDOM是一个用于处理XML文档的Java库,与DOM4J类似。 **应用场景**: 当需要简单、快速地处理XML文档时,JDOM是一个很好的选择。 **核心概念**: - **Document**: 表示整个XML文档。 - **Element**: 表示...

    db2数据库运维常用命令集 数据库运维.docx

    - `db2setdb2codepage=1208`:修改页面编码为1208。 **11. 查看表结构与列表** - `db2describetable<表名>`:查看指定表的结构。 - `db2listtables`:列出数据库中的所有表。 - `db2listtablesforsystem`:列出...

    使用用python语言编写网络爬虫的相关知识

    print(response.status_code) # 输出状态码 print(response.text) # 输出响应内容 ``` #### 解析HTML和JSON 一旦接收到响应,通常需要解析其中的数据。对于HTML文档,`BeautifulSoup`是一个非常有用的库。它能够...

    springmybatis

    其实还有更简单的方法,而且是更好的方法,使用合理描述参数和SQL语句返回值的接口(比如IUserOperation.class),这样现在就可以至此那个更简单,更安全的代码,没有容易发生的字符串文字和转换的错误.下面是详细...

    python 识别登录验证码图片功能的实现代码(完整代码)

    在Python编程中,识别登录验证码图片是一项常见的任务,特别是在自动化测试和数据抓取等领域。本文将详细介绍如何使用Python实现这一功能,主要涉及的库包括`re`、`PIL`(Python Imaging Library)、`pytesseract`、...

    python识别验证码图片实例详解

    创建一个名为`VerificationCode`的类,并在`__init__`方法中初始化WebDriver。 ```python class VerificationCode: def __init__(self): self.driver = webdriver.Firefox() self.find_element = self.driver....

Global site tag (gtag.js) - Google Analytics