`
xdw1626
  • 浏览: 175284 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

探讨Oracle数据库的数据导入方法

阅读更多

http://tech.163.com/school · 2005-07-08 11:19:56 · 来源: csdn

 

前言

  每个数据库管理员都会面临数据导入的问题,这有可能发生在数据库的新老移植过程中,或者是在数据库崩溃后的恢复重建过程中,还有可能是在创建测试数据库的模拟环境过程中,总之作为一名合格的数据库管理员,你应该做好接受各种数据导入请求的技术储备,同时还要尽量满足人本能的对导入速度的苛求。本文仅针对 Oracle 数据库所提供的加速数据导入的各种特性和技术进行探讨,其中的一些方法也可以转化应用于其他数据库。以下七种数据导入方法哪个最适用需要针对具体情况具体分析,我也附带列举了影响导入速度的各种因素供斟酌。为了比较各种数据导入方法的效果,我创建了示例表和数据集,并用各种方法导入示例数据集来计算总体导入时间和导入进程占用 CPU 时间,这里得出的时间仅供参考。需要说明的是,建议你使用 Oracle 9i 企业版数据库,当然你也可以尝试使用 Oracle 7.3 以上的标准版数据库。本文使用的机器配置为:CPU Intel P4,内存 256M,数据库 Oracle 9i 企业版。

  示例表结构和数据集

  为了演示和比较各种数据导入方法,我假定数据导入任务是将外部文件数据导入到 Oracle 数据库的CALLS表中,外部数据文件包含十万条呼叫中心记录,将近 6MB 的文件大小,具体的数据示例如下:

82302284384,2003-04-18:13:18:58,5001,投诉,手机三包维修质量
82302284385,2003-04-18:13:18:59,3352,咨询,供水热线的号码
82302284386,2003-04-18:13:19:01,3142,建议,增设公交线路

  接受导入数据的表名是 CALLS,表结构如下:

Name Null? Type Comment
------------ --------- ------------- -----------------
CALL_ID NOT NULL NUMBER Primary key
CALL_DATE NOT NULL DATE Non-unique index
EMP_ID NOT NULL NUMBER
CALL_TYPE NOT NULL VARCHAR2(12)
DETAILS VARCHAR2(25)


   逐条数据插入INSERT

  数据导入的最简单方法就是编写 INSERT 语句,将数据逐条插入数据库。这种方法只适合导入少量数据,如 SQL*Plus 脚本创建某个表的种子数据。该方法的最大缺点就是导入速度缓慢,占用了大量的 CPU 处理时间,不适合大批量数据的导入;而其主要优点就是导入构思简单又有修改完善的弹性,不需要多做其它的准备就可以使用。如果你有很多时间没法打发,又想折磨一下数据库和 CPU,那这种方法正适合你。

  为了与其它方法做比较,现将十万条记录通过此方法导入到 CALLS 表中,总共消耗 172 秒,其中导入进程占用 CPU 时间为 52 秒。

  逐条数据插入 INSERT,表暂无索引

  为什么上一种方法占用了较多的 CPU 处理时间,关键是 CALLS 表中已创建了索引,当一条数据插入到表中时,Oracle 需要判别新数据与老数据在索引方面是否有冲突,同时要更新表中的所有索引,重复更新索引会消耗一定的时间。因此提高导入速度的好办法就是在创建表时先不创建索引或者在导入数据之前删除所有索引,在外部文件数据逐条插入到表中后再统一创建表的索引。这样导入速度会提高,同时创建的索引也很紧凑而有效,这一原则同样适用于位图索引(Bitmap Index)。对于主要的和唯一的关键约束(key constraints),可以使之先暂时失效(disabling)或者删除约束来获得同样的效果,当然这些做法会对已经存在的表的外键约束产生相关的影响,在删除前需要通盘斟酌。

  需要说明的是,这种方法在表中已存在很多数据的情况下不太合适。例如表中已有九千万条数据,而此时需要追加插入一千万条数据,实际导入数据节省的时间将会被重新创建一亿条数据的索引所消耗殆尽,这是我们不希望得到的结果。但是,如果要导入数据的表是空的或导入的数据量比已有的数据量要大得多,那么导入数据节省的时间将会少量用于重新创建索引,这时该方法才可以考虑使用。 加快索引创建是另一个需要考虑的问题。为了减少索引创建中排序的工作时间,可以在当前会话中增加 SORT_AREA_SIZE 参数的大小,该参数允许当前会话在内存的索引创建过程中执行更多的排序操作。同样还可以使用 NOLOGGING 关键字来减少因创建索引而生成的 REDO 日志量,NOLOGGING 关键字会对数据库的恢复和 Standby 备用数据库产生明显的影响,所以在使用之前要仔细斟酌,到底是速度优先还是稳定优先。

  运用这种方法,先删除 CALLS 表的主键和不唯一的索引,然后逐条导入数据,完成后重新创建索引( 表在导入数据前是空的)。该方法总共消耗 130 秒,包括重建索引的时间,其中导入进程占用 CPU 时间为 35秒。

  这种方法的优点是可以加快导入的速度并使索引更加紧凑有效;缺点是缺乏通用性,当你对表增加新的复杂的模式元素(索引、外键等)时你需要添加代码、修改导入执行程序。另外针对 7*24 在线要求的数据库在线导入操作时,删除表的索引会对在线用户的查询有很大的性能影响,同时也要考虑,主要或唯一的关键约束条件的删除或失效可能会影响到引用它们的外键的使用。

  批量插入,表暂无索引

  在Oracle V6 中 OCI 编程接口加入了数组接口特性。数组操作允许导入程序读取外部文件数据并解析后,向数据库提交SQL语句,批量插入 SQL 语句检索出的数据。Oracle 仅需要执行一次 SQL 语句,然后在内存中批量解析提供的数据。批量导入操作比逐行插入重复操作更有效率,这是因为只需一次解析 SQL 语句,一些数据绑订操作以及程序与数据库之间来回的操作都显著减少,而且数据库对每一条数据的操作都是重复可知的,这给数据库提供了优化执行的可能。其优点是数据导入的总体时间明显减少,特别是进程占用 CPU 的时间。

  需要提醒的是,通过 OCI 接口确实可以执行数据批量导入操作,但是许多工具和脚本语言却不支持使用此功能。如果要使用该方法,需要研究你所使用的开发工具是否支持 OCI 批量操作功能。导入程序需要进行复杂的编码并可能存在错误的风险,缺乏一定的弹性。

  运用上述方法,程序将外部数据提取到内存中的数组里,并执行批量插入操作(100行/次),保留了表的删除/重建索引操作,总的导入时间下降到 14 秒,而进程占用 CPU 的时间下降到7秒,可见实际导入数据所花费的时间显著下降了 95%。

  CREATE TABLE AS SELECT,使用Oracle9i的External Table

   Oracle 9i 的一项新特性就是 External Table,它就象通常的数据库表一样,拥有字段和数据类型约束,并且可以查询,但是表中的数据却不存储在数据库中,而是在与数据库相关联的普通外部文件里。当你查询 External Table 时,Oracle 将解析该文件并返回符合条件的数据,就象该数据存储在数据库表中一样。

   需要注意的是,你可以在查询语句中将 External Table 与数据库中其他表进行连接(Join),但是不能给 External Table 加上索引,并且不能插入/更新/删除数据,毕竟它不是真正的数据库表。另外,如果与数据库相关联的外部文件被改变或者被删除,这会影响到 External Table 返回查询结果,所以在变动前要先跟数据库打招呼。

这种方法为导入数据打开了新的一扇门。你可以很容易的将外部文件与数据库相关联,并且在数据库中创建对应的 External Table,然后就可以立即查询数据,就象外部数据已经导入到数据库表中一样。唯一的不足需要明确,数据并未真正导入到数据库中,当外部文件被删除或覆盖时,数据库将不能访问 External Table 里的数据,而且索引没有被创建,访问数据速度将有所缓慢。创建 CALLS_EXTERNAL(External Table表)如下,使之与外部数据文件关联:

CREATE TABLE calls_external
(call_id NUMBER,
call_date DATE,
emp_id NUMBER,
call_type VARCHAR2(12),
details VARCHAR2(25))
ORGANIZATION EXTERNAL
( TYPE oracle_loader
DEFAULT DIRECTORY extract_files_dir
ACCESS PARAMETERS
(
RECORDS DELIMITED BY NEWLINE
FIELDS TERMINATED BY ’,’
MISSING FIELD VALUES ARE NULL
(
call_id, call_date CHAR DATE_FORMAT DATE MASK
"yyyy-mm-dd:hh24:mi:ss",
emp_id, call_type, details
)
)
LOCATION (’calls.dat’)
);

  然后将 External Table 与真正被使用的表 CALLS 关联同步,删除 CALLS 表并重建它:

CREATE TABLE calls
(
call_id NUMBER NOT NULL,
call_date DATE NOT NULL,
emp_id NUMBER NOT NULL,
call_type VARCHAR2(12) NOT NULL,
details VARCHAR2(25)
)
TABLESPACE tbs1 NOLOGGING
AS
SELECT call_id, call_date, emp_id, call_type, details
FROM calls_external;

  因为 CALLS 表是真正的数据库表,可以创建索引来加快访问,表中的数据将被保留,即使外部数据文件被更新或被删除。在建表语句中NOLOGGING关键字用于加快索引重建。

  运用这种方法导入数据,总的导入时间为 15 秒,进程占用 CPU 的时间为8秒,这比前一种方法稍微慢些,但不能就此认为使用 External Table 导入数据一定比 OCI 批量插入慢。

  这种方法的优点是,未经进行大量的编写代码就取得了不错的结果,不象 OCI 批量插入存在编码错误风险,它还可以使用 dbms_job 包调度数据导入进程,实现数据导入的自动化。其缺点是目标表必须先删除后重建,如果只需要导入增量数据时此方法就不合适了,另外用户在表的重建过程中访问数据时会遇到 "table or view does not exist" 的错误,它仅适用于 Oracle 9i 以上版本的数据库。

  INSERT Append as SELECT,使用 Oracle9i 的 External Table

  上一种方法演示了如何创建与外部数据文件关联的数据库表,其表的数据是由外部数据文件映射过来。缺点是数据库表需要被先删除再重建来保持与外部数据文件的一致和同步,对导入增量的数据而不需要删除已有数据的情况不合适。针对这种需求,Oracle 提供了 INSERT 语句外带 APPEND 提示来满足。

INSERT /*+ APPEND */ INTO calls
(call_id, call_date, emp_id, call_type, details)
SELECT call_id, call_date, emp_id, call_type, details
FROM calls_external;

  该语句读取引用外部数据文件的 CALLS_EXTERNAL 表中内容,并将之增加到表 CALLS 中。Append 提示告诉 Oracle 使用快速机制来插入数据,同时可以配合使用表的 NOLOGGING 关键字。

  可以预见这种方法与前一方法消耗了相同的时间,毕竟它们是使用 External Table 特性导入数据的不同阶段解决方法。如果目标表不是空的,那将会消耗稍微长的时间(因为要重建更长的索引),而前一 CREATE TABLE as SELECT 方法是整体创建索引。

  SQL*Loader的强大功能

  SQL*Loader 是 Oracle 提供的导入实用程序,特别针对从外部文件导入大批量数据进入数据库表。该工具已经有多年的历史,每一次版本升级都使其更加强大、灵活和快捷,但遗憾的是它的语法却是神秘而不直观,并且只能从命令行窗口处进行调用。

  尽管它有不直观的缺点,但却是最快最有效的导入数据方法。缺省情况下它使用 "conventional path" 常规选项来批量导入数据,其性能提高度并不明显。我建议使用更快速的导入参数选项,在命令行添加"direct=true" 选项调用 "direct path" 导入选项。在 "direct path" 导入实现中,程序在数据库表的新数据块的 high water mark 处直接写入导入数据,缩短了数据插入的处理时间,同时优化使用了非常有效的B+二叉树方法来更新表的索引。

  运用这种方法,如果使用缺省的 conventional path 导入选项,总的导入时间是 81 秒,进程占用 CPU 时间大约是 12 秒,这包括了更新表的索引时间。如果使用 direct path 导入选项,总的导入时间竟是 9 秒,进程占用 CPU 时间也仅仅是 3 秒,也包括了更新表的索引时间。

  由此可见,尽管表中的索引在数据导入之前并没有被删除,使用SQL*Loader的direct path 导入选项仍然是快速和有效的。当然它也有缺点,就像NOLOGGING关键字一样该方法不生成REDO日志数据,导入进程出错后将无法恢复到先前状态;在数据导入过程中表的索引是不起作用的,用户此时访问该表时将出现迟缓,当然在数据导入的过程中最好不要让用户访问表。

  分区交换 (Partition Exchange)

  以上讨论的数据导入方法都有一个限制,就是要求用户在导入数据完成之后才可以访问数据库表。面对7×24不间断访问数据库来说,如果我们只是导入需要增加的数据时,这种限制将对用户的实时访问产生影响。Oracle在这方面提供了表分区功能,它可以减少导入数据操作对用户实时访问数据的影响,操作模式就象使用可热插拔的硬盘一样,只不过这里的硬盘换成了分区(Partition)而已。需要声明的是 Partitioning 分区功能只有在企业版数据库中才提供。

  在一个被分区过的表中,呈现给用户的表是多个分区段(segments)的集合。分区可以在需要时被添加,在维护时被卸载或删除,分区表可以和数据库中的表交换数据,只要它们的表结构和字段类型是一致的,交换后的分区表将拥有与之互动的表的数据。需要注意的是,这种交换只是在Oracle数据库的数据字典层面上进行,并没有数据被实际移动,所以分区表交换是极其快速的。

  为了创建实验环境,先假设CALLS表是个分区表,要创建一个空的分区PART_01012004,用来保存2004年1月1日的呼叫数据。然后需要再创建一临时表为CALLS_TEMP,该表与CALLS表拥有相同的字段和数据类型。

  我们使用先前介绍的导入方法将十万条数据导入到CALLS_TEMP表中,可以耐心等待数据完全导入到CALLS_TEMP表中,并且创建好索引和相关约束条件,所有这一切操作并不影响用户实时访问CALLS表,因为我们只对CALLS_TEMP临时表进行了操作。一旦数据导入完成,CALLS_TEMP表就存有2004年1月1日的呼叫数据。同时利用CALLS表中名为PART_01012004的空分区,使用如下语句执行分区交换:

ALTER TABLE calls
EXCHANGE PARTITION part_01012004 WITH TABLE calls_temp
INCLUDING INDEXES WITHOUT VALIDATION;

  分区交换操作将非常快速地只更新CALLS表的数据字典,PART_01012004分区表即刻拥有CALLS_TEMP表的所有数据,而CALLS_TEMP表变为空表。假定CALLS表使用局部索引而非全局索引,上述语句中的INCLUDING INDEXES将保证分区交换包括索引的可用性,WITHOUT VALIDATION 指明不检查交替表中数据的匹配,加快了交换的速度。

  结论

  以上探讨了Oracle数据库的多种数据导入方法,每种方法都有其优缺点和适用环境,能够满足你不同的导入需求,当然你需要在了解了这些方法后,在速度、简易性、灵活性、可恢复性和数据可用性之间寻求最佳导入方案。

  为了对比各种方法的效果,我们创建了一个实例来展示各种方法的导入效率和效果,从中你可以选择最适合的方法用于今后的数据导入工作。同时请记住,本文并未囊括所有的ORACLE数据导入技术(比如并行数据导入技术),这需要我们继续不懈的探索和尝试。

 

数据导入方法 总体导入时间(秒) 导入进程占用CPU时间(秒)
逐条数据插入INSERT 172 52
逐条数据插入INSERT,表暂无索引 130 35
批量插入,表暂无索引 14 7
Create As Select,使用Oracle9i的External Table 15 8
INSERT Append as SELECT,使用Oracle9i的External Table 15 8
SQL*Loader conventional path 缺省导入选项 81 12
SQL*Loader direct path 导入选项 9 3

 

分享到:
评论

相关推荐

    oracle数据库导入数据以及创建用户

    以下是对标题"Oracle数据库导入数据以及创建用户"的详细解读: 1. 数据导入: - **SQL*Loader**:Oracle提供的一种强大的工具,能够快速地将大量数据从文本文件或CSV文件加载到数据库中。SQL*Loader读取控制文件,...

    往oracle数据库导入数据(tsv)

    本主题将探讨如何将TSV(Tab Separated Values,制表符分隔值)文件导入到Oracle数据库中,这是一个常见的数据迁移或数据加载任务。TSV文件是一种简单格式的数据文件,通常用于数据交换,其内容由列名和行数据组成,...

    oracle 数据库导入导出

    本篇文章将深入探讨Oracle数据库的导入导出过程,以及处理“process挂起”问题的方法。 首先,Oracle数据库提供了两种主要的工具来实现数据的导入导出:EXPDP(Export Data Pump)和IMPDP(Import Data Pump)。...

    Oracle数据库之间数据传输方法探讨.pdf

    "Oracle数据库之间数据传输方法探讨" Oracle 数据库之间数据传输方法探讨是指在不同的 Oracle 数据库之间传输数据的方法。这些方法包括数据导出、数据泵、表空间传输等。这些方法可以解决不同版本、不同平台下的 ...

    Ecxel数据导入Oracle 数据库中

    本文将深入探讨如何将Excel数据导入到Oracle数据库中,以及涉及到的相关技术点。 首先,我们要理解Excel文件的基本结构。Excel文件通常以.xlsx或.xls格式存储,其中包含了工作簿(Workbook)、工作表(Worksheet)...

    对比Oracle数据库中多种导入数据方法

    Oracle 数据库提供了多种...总结来说,Oracle数据库提供了多种数据导入策略,适用于不同的业务需求和环境条件。数据库管理员应当根据实际情况选择最合适的方法,同时注意优化数据库设置,以实现数据导入的高效和安全。

    Oracle导入CSV格式数据

    本篇文章将深入探讨如何在Oracle数据库中导入CSV格式的数据。 一、Oracle数据导入基础 在Oracle中,我们通常使用SQL*Loader工具来批量导入数据。SQL*Loader是一个高效的数据加载程序,能够快速地将数据从外部文件...

    sql数据库数据导入到oracle

    本案例中,"sql数据库数据导入到oracle"的主题涉及从SQL Server数据库将数据转换并导入到Oracle数据库的过程。下面我们将详细探讨这一过程涉及的知识点。 1. **SQL Server和Oracle概述**: SQL Server是由...

    Oracle大数据量导入(CSV导入)

    Oracle数据库在处理大数据量导入时,常常需要高效且可靠的方法,以确保数据的快速加载和系统的稳定运行。这篇博文“Oracle大数据量导入(CSV导入)”将深入探讨如何使用Oracle的各种工具和技术来导入CSV(逗号分隔值)...

    ORACLE数据库 ORACLE数据库

    本篇文章将深入探讨Oracle数据库的核心概念、特点、主要组件以及一些关键操作。 1. **核心概念** - **SQL**:结构化查询语言,是用于管理关系数据库的标准语言,Oracle数据库支持SQL的多种扩展。 - **表空间**:...

    Oracle数据库导入导出(备份与恢复)[参考].pdf

    在本文中,我们将深入探讨Oracle数据库的导出(Export)和导入(Import)操作,以及如何利用这些工具进行备份与恢复。 1. **Oracle数据库导出(Export)** - **获取帮助**:使用`exp help=y`可以查看导出命令的...

    oracle数据库导入导出命令! 更改字符集

    本文将深入探讨Oracle数据库的导入导出命令,特别是如何更改字符集的相关知识。 首先,Oracle数据库提供了两种主要的数据导入导出工具:`expdp`(Export Data Pump)和`impdp`(Import Data Pump)。这两个实用程序...

    geoserver2.14.0 oracle 数据库连接

    本文将深入探讨如何使用GeoServer 2.14版本与Oracle数据库进行集成,以及如何在GeoServer中读取并显示Oracle数据库内的Shapefile数据。 首先,Oracle数据库是全球领先的大型企业级数据库管理系统,广泛应用于数据...

    Oracle数据库导入导出方法

    Oracle数据库的导入导出是数据库管理中常见的操作,主要用于数据迁移、备份恢复或者数据库环境间的同步。Oracle提供了多种工具来实现这一目标,如SQL*Loader、exp和imp等。下面我们将详细探讨这些方法。 首先,SQL*...

    oracle导入表导入数据实例

    在Oracle数据库管理中,数据导入是一项常见的操作,用于将外部数据加载到数据库中。本实例主要探讨如何使用Oracle的数据导入工具——SQL*Loader,通过控制文件(`.ctl`)来执行这一过程。以下是对"oracle导入表导入...

    oracle数据导入到Mysq库

    首先,我们来探讨Oracle数据导入到MySQL的原理。数据迁移通常涉及数据抽取、转换和加载(ETL)过程。在本例中,"oracle2mysql"工具可能通过以下步骤工作: 1. **数据抽取**:工具连接到Oracle数据库,通过SQL查询...

    异构数据导入oracle方法

    5. **Oracle数据库导入Oracle**: 在同构数据库环境下,数据迁移较为直接。DBLink是Oracle提供的一个功能,可以直接在数据库间进行数据传输。ETL工具、ODBC以及Java也可以用于数据导入,特别是处理大对象时,Java...

    导入Excel表格插入Oracle数据库

    本主题聚焦于如何通过JavaScript(JS)前端交互和后端处理,将Excel表格数据导入Oracle数据库。这是一个常见的需求,特别是在数据分析、报表生成以及系统集成等场景。 首先,让我们详细了解标题“导入Excel表格插入...

    Oracle经典教程7——数据库导入导出

    本章节将深入探讨Oracle数据库的导入导出机制,涵盖其基本概念、操作流程以及常见应用场景。 #### Oracle数据库导入导出概述 Oracle提供了多种方式来备份数据库,包括逻辑备份、物理文件备份以及使用RMAN的增量...

Global site tag (gtag.js) - Google Analytics