进行数据解析的理由不计其数,相关的工具和技巧也同样如此。但是,当您需要用这些数据做一些新的事情时,即使有“合适的”工具可能也是不够的。这一担心对于异类数据源的集成同样存在。用来做这项工作的合适工具迟早应该是一种编程语言。
Oracle 提供了一些非常强大的实用程序来加载、处理和卸载数据。SQL*Loader、Data Pump、外部表、Oracle Text、正则表达式都能提供这些功能。然而人们常常会需要在数据库外做一些事情(或者,说得琐碎些,可能您还没有获得必要的数据库权限)。
利用 Python 可以进行高水平的、有效的数据解析。而利用互联网上免费提供的大量标准库和众多模块可以处理数据逻辑,不必手动剖析字节。
字符串理论
文 本解析的最低级别是字符串。Python 并不把字符区分为单独的数据类型,但却区分普通字符串和 Unicode 字符串类型。字符串可以括在单引号、双引号或三引号中,并且是 Python 的一种不可变对象 — 一旦创建就不能对其进行修改。每一个操作都会创建一个新的字符串对象。对于具有静态类型语言经验的编程人员而言,乍听上去这可能真得很奇怪,但此类实现有 一些特定的原因,多数与性能有关。
因为 Python 完全支持 Unicode,所以处理多语言信息不存在问题。手动创建 Unicode 字符串时,您可以选择直接在字符串前使用 u 前缀(如 u"Unicode text")或者使用内置的 unicode() 函数。可以使用 unicode() 或 encode() 方法在任何支持的字符集中对字符串进行编码。有关支持的编码列表,请查阅 Python 库参考 的标准编码部分或使用导入编码;输出 encodings._aliases.keys()。
您可以放心地使用 UTF-8 编写 Python 程序,记住仅变量名必须是有效的 ASCII 字符串。注释可以是希腊文、汉字或任意内容。不过,这样的文件或者要求使用附加字节顺序标记 (BOM) 的编辑器来保存,或者,需要您编写第一行代码:
# -*- coding: utf-8 -*-
字符串提供有一组方法可用于进行大多数有用的文本操作,如 find()、split()、rjust() 或 upper()。它们在内置的 str 类型上实现,该类型可以表示普通字符串和原始字符串。(原始字符串与普通字符串对反斜线的解释不同。)
>>> zen = "Explicit is better than implicit." >>> print zen.title() 'Explicit Is Better Than Implicit.' >>> zen.split(' ') ['Explicit', 'is', 'better', 'than', 'implicit.'] >>> zen.rstrip('.').lower().replace('is', 'is always') 'explicit is always better than implicit'
Python 的可迭代类型的最棒的一个特性是索引方法。普通索引以 0 开始而负索引向后计数,所以 [-1] 表示最后一个字符,[:5] 表示前 5 个字符,而 [5:-5] 表示前 5 个和后 5 个字符组成的字符串。
>>> sample = "Oracle Database" >>> sample[0] 'O' >>> sample[0:6], sample[7:15] ('Oracle', 'Database') >>> sample[-8:] 'Database' >>> sample[sample.index('Data')+4:] 'base'
正则表达式
Python 当然支持正则表达式。事实上,Python 的正则表达式 re 模块支持 Unicode、匹配、搜索、拆分、替换和分组。如果您熟悉 Oracle 对正则表达式的实现方式,您就不会对 Python 的函数感到陌生。
在详细比较 Python 和 Oracle 对正则表达式的实现时,值得注意的差异包括:
-
当关系设计要求一种不同于编程语言 1 的方法时,re.search() 可用于代替 Oracle 的 REGEXP_LIKE、REGEXP_INSTR 和 REGEXP_SUBSTR。
-
对 Python 语法改写后,re.sub() 的使用方式可以与 REGEXP_REPLACE 完全相同。不过,要注意 Oracle 的位置参数从 1 开始,而 Python 编制任何索引时都从 0 开始。
-
Oracle 的 match_parameter 表示正则表达式的一组标志,方式与 Python 在搜索模式或模式对象编译属性中使用 (?iLmsux) 语法的方式相同。要获得有效标志的列表,请比较 Python 库参考 的 4.2.3 节和 Oracle 数据库 SQL 语言参考 中 match_parameter 的有效值列表。
Python 的 re.search() 函数非常灵活,这归功于正则表达式这一基本概念。re 模块的最底层有一个对象,它表示匹配模式的方式允许以多种不同的方法对源字符串进行剖析。re.compile() 函数返回一个采用某一模式和若干可选标志的编译模式对象,如 re.I,它表示不区分大小写的匹配。
>>> import re >>> p = re.compile("^a.*", re.I) >>> print p <_sre.SRE_Pattern object at 0x011CA660>
您无须显式编译正则表达式。re 模块中的函数以透明方式完成此工作。如果代码中多处用到编译模式,使用该模式非常有益,但是如果该模式仅使用一次,则不需要这样的编码开销。
Python 中有六个正则表达式编译标志:
-
I (IGNORECASE) 用于不区分大小写的匹配
-
L (LOCALE) 使得特殊的序列(如词和空格)与语言设置相关
-
M (MULTILINE) 意味着在多行中搜索该模式,这样 ˆ 可以匹配字符串的开始位置和每一个换行符后面的位置,$ 可以匹配每一个换行符前面的位置和字符串的结束位置
-
S (DOTALL) 强制使用点专用字符 (.) 匹配任意字符,包括换行符
-
U (UNICODE) 使得特殊的序列可以识别 Unicode
-
X (VERBOSE) 可以增强您编写的正则表达式的可读性。
要 一次使用多个标志,只需将它们加在一起即可 — 如 re.compile("Oracle", re.I+re.S+re.M)。另一种方式是使用 (?iLmsux) 语法将使用所需数量的标志选项作为搜索模式的前缀。这样,前一表达式可写作 re.compile("(?ism)Oracle")。
有关使用正则表达式的最好建议是尽可能地避免使用它们。在将它们嵌入代码前,请确定没有字符串方法可以完成相同的工作,因为字符串方法更快且不会带来导入以及正则表达式处理这些额外的开销。在字符串对象上使用 dir() 就可以看到可用的内容。
下例展示了在 Python 这样一种动态语言中看待正则表达式的方式。解析 tnsnames.ora 文件以便为每个网络别名创建简单连接字符串(将 file() 函数指向您的 tnsnames.ora 文件的位置):
>>> import re
>>> tnsnames = file(r'tnsnames.ora').read()
>>> easy_connects = {}
>>> tns_re = "^(\w+?)\s?=.*?HOST\s?=\s?(.+?)\).*?PORT\s?=\s?(\d+?)\).
*?SERVICE_NAME\s?=\s?(.+?)\)"
>>> for match in re.finditer(tns_re, tnsnames, re.M+re.S):
... t = match.groups()
... easy_connects[t[0]] = "%s:%s/%s" % t[1:]
>>> print easy_connects
此程序在 Oracle Database XE 默认的 tnsnames.ora 文件上的输出是:
{'XE': 'localhost:1521/XE'}
请注意,此正则表达式非常愚钝,会被 IPC 条目所阻塞,因此需要将这些条目放在文件的结尾处。解析匹配圆括号是一个 NP 完成问题。
因为提供有多种公开方法,Python 匹配对象的功能非常强大,这些方法包括 span()(它可以返回匹配范围)、group()(它可以按给定的索引返回匹配组)以及 groupdict()(它可以在模式含有命名的组时以字典形式返回匹配组)。
逗号分隔值
CSV 格式因其简洁性和跨平台设计常用于组织间的信息交换。使用正则表达式通常可以轻松地解析逗号分隔值,但使用 Python 的 csv 模块可以使此任务变得更为容易。
使 用该模块要求开发人员熟悉该模块所采用的逻辑。有关 CSV 文件的最重要的信息是它的“方言”,它包含分隔符、引号字符、行终止符等相关信息。Python 2.5 中目前可用的方言是 excel 和 excel-tab。内置的嗅探器总是试图猜测正确的格式。写入器与阅读器对象支持 CSV 数据的输入和输出。
就本例而言,我用的是 HR 模式的 JOBS_HISTORY 表中的数据。它演示了如何直接从一个 SQL 查询创建 CSV 文件 job_history.csv。
>>> import csv
>>> import cx_Oracle
>>> db = cx_Oracle.connect('hr/hrpwd@localhost:1521/XE')
>>> cursor = db.cursor()
>>> f = open("job_history.csv", "w")
>>> writer = csv.writer(f, lineterminator="\n", quoting=csv.QUOTE_NONNUMERIC)
>>> r = cursor.execute(" "SELECT * FROM job_history ORDER BY employee_id, start_date")
>>> for row in cursor:
... writer.writerow(row)
...
>>> f.close()
该文件包含:
101,"1989-09-21 00:00:00","1993-10-27 00:00:00","AC_ACCOUNT",110 101,"1993-10-28 00:00:00","1997-03-15 00:00:00","AC_MGR",110 102,"1993-01-13 00:00:00","1998-07-24 00:00:00","IT_PROG",60 114,"1998-03-24 00:00:00","1999-12-31 00:00:00","ST_CLERK",50 122,"1999-01-01 00:00:00","1999-12-31 00:00:00","ST_CLERK",50 176,"1998-03-24 00:00:00","1998-12-31 00:00:00","SA_REP",80 176,"1999-01-01 00:00:00","1999-12-31 00:00:00","SA_MAN",80 200,"1987-09-17 00:00:00","1993-06-17 00:00:00","AD_ASST",90 200,"1994-07-01 00:00:00","1998-12-31 00:00:00","AC_ACCOUNT",90 201,"1996-02-17 00:00:00","1999-12-19 00:00:00","MK_REP",20
或者,您也可以使用 Oracle SQL Developer 以 CSV 格式导出数据。
可以通过以下方式读取该 CSV 文件:
>>> reader = csv.reader(open("job_history.csv", "r"))
>>> for employee_id, start_date, end_date, job_id, department_id in reader:
... print job_id,
...
JOB_ID IT_PROG AC_ACCOUNT AC_MGR MK_REP ST_CLERK ST_CLERK
AD_ASST SA_REP SA_MAN AC_ACCOUNT
注意我不必在上面显式指定方言,它是自动推断出的。我只是输出了 job_id 列,但对这样经过解析的文件我确实可以做的是将其插入数据库中。为确保日期得到正确处理,在批量插入前对 NLS_DATE_FORMAT 进行手动设置。
SQL> CREATE TABLE job_his ( 2 employee_id NUMBER(6) NOT NULL, 3 start_date DATE NOT NULL, 4 end_date DATE NOT NULL, 5 job_id VARCHAR2(10) NOT NULL, 6 department_id NUMBER(4) 7 ); >>> reader = csv.reader(open("job_history.csv", "r")) >>> lines = [] >>> for line in reader: ... lines.append(line) ... >>> cursor.execute("ALTER SESSION SET NLS_DATE_FORMAT = 'YYYY-MM-DD HH24:MI:SS'") >>> cursor.executemany("INSERT INTO job_his VALUES(:1,:2,:3,:4,:5)", lines) >>> db.commit()
如果您使用 SQL Developer 创建该 CSV 文件,则可能需要修改日期格式,如下所示:
>>> cursor.execute("ALTER SESSION SET NLS_DATE_FORMAT = 'YY/MM/DD'")
csv 模块美中不足的地方是缺乏原生 Unicode 支持。有关解决方案和使用 CSV 文件的更多示例,请参见 Python 库参考 的 9.1.5 示例部分。
URL
urlparse 模块使您可以将统一资源定位器字符串分解为各个组成部分,分别表示 URL 模式、网络位置、路径、参数、查询字符串、碎片标识符、用户名、口令、主机名和/或端口。Python 2.5 支持 24 个最常用的模式,包括 svn+ssh、sftp 和 mms。下例显示了 urlparse 模块的一些特性:
>>> from urlparse import urlparse >>> url = "http://www.oracle.com/technology/index.html?rssid=rss_otn_news#section5" >>> pr = urlparse(url) >>> print type(pr) <class 'urlparse.ParseResult'> >>> print pr.hostname www.oracle.com >>> print pr.query rssid=rss_otn_news >>> print url==pr.geturl() True
RSS 信源
RSS 基于一个非常简单的概念:您在事件发生时获得它的最新消息,而不是碰巧发现。整合许多不同来源的 RSS 信源是开发领域的一个流行趋势,对新闻信源聚合器和 Web 2.0 混搭尤其如此。
RSS 是 XML 的一种方言,因此使用 Python 提供的一种 XML 解析器可轻松地对其进行处理。Python 标准库本身还没有提供用于解析信源的模块。不过,feedparser.org 免费提供一个稳定的、经过广泛检验的通用信源解析器。由于它没有外部依赖性,因此这是快速熟悉模块安装概念的一个很好的机会。
下载 feedparser 模块的最新版本(撰写此文时为 4.1)后,对其进行解压缩并将工作目录修改为 feedparser-4.1。在控制台/命令提示符下,运行 python setup.py install。此命令将模块放入 Python 文件夹,使其立即可供使用。就是这样。
了解一下 Oracle 的动态如何?
>>> import feedparser
>>> import time
>>> rss_oracle = feedparser.parse("http://www.oracle.com/technology/syndication/rss_otn_news.xml")
>>> for e in rss_oracle.entries[:5]:
.. t = time.strftime("%Y/%m/%d", e.updated_parsed)
.. print t, e.title
2007/07/23 Integrating Oracle Spatial with Google Earth
2007/07/11 Oracle Database 11g Technical Product Information Now Available
2007/07/11 Explore the Oracle Secure Enterprise Search Training Center
2007/07/09 Implementing Row-Level Security in Java Applications
2007/06/29 Build Your Own Oracle RAC Cluster on Oracle Enterprise Linux and iSCSI
feedparser 模块具有足够的智能,可以正确解析日期、处理 HTML 标记、规范内容以便可以针对所有支持的 RSS 和 ATOM 变体使用一致的 API、解析相对链接、检测有效字符编码等。
接下来解析什么?
有了正则表达式工具箱,您可以搜索几乎所有的纯文本内容。至于解析文本数据,Python 有很多其他特性,包括:
- email.parse,用于解析电子邮件消息
- ConfigParser,用于解析从 Windows 系统中获得的 INI 配置文件
- robotparser 模块,用于解析您 Web 站点的 robots.txt
- optparse 模块,用于进行强大的命令行参数解析
- HTMLParse 模块中的 HTMLParse 类,用于有效地解析 HTML 和 XHTML(类似于 SAX)
- 若干 XML 解析器(xml.dom、xml.sax、xml.parsers.expat、xml.etree.ElementTree)
对于二进制数据,您可以利用 binascii 模块,它包含一组函数可用于在二进制编码数据和 ASCII 编码数据之间转换,并附带了分别用于 base64 和 uuencode 转换的 base64 和 uu 模块。
总结
这篇方法文档介绍了在 Python 中进行数据解析所采用的一些基本和高级的技巧。您现在应当已经认识到了 Python 附带的标准库的威力。在开始制作您自己的解析器之前,首先检查一下所需的功能是否已可供导入。
字符串操作比正则表达式操作速度快,同时足以满足很多的编程需要。但是到底选用 Python 还是 Oracle 正则表达式函数取决于您的应用程序逻辑和业务需要。
参考至:http://www.oracle.com/technetwork/cn/articles/dsl/prez-python-dataparsing-087750-zhs.html
如有错误,欢迎指正
邮箱:czmcj@163.com
相关推荐
### Python岗位要求详解 #### 一、Python技能与框架掌握 **1.1 定时任务框架** ...以上是对2019年Python岗位要求的详细解析,涵盖了从基础技能到高级技术要求的各个方面,为求职者提供了全面的参考指南。
SQLServer与Oracle作为两大主流关系数据库系统,各有优势和特色,它们不仅是数据存储的基石,也是现代企业信息化建设的重要组成部分。通过深入学习和掌握这两个系统的特性和功能,可以极大地提升数据库管理能力和...
1. **基础技能**:精通常用算法和数据结构,熟练掌握至少一种编程语言(C++/Python)。 2. **逻辑思维与数据分析能力**:良好的逻辑思维能力,对数据敏感,能准确把握关键数据和核心问题。 3. **专业知识**:熟悉主流...
9. **XML与数据库**: XML可以用于存储非结构化的数据,许多数据库系统如SQL Server、Oracle都支持XML数据类型,使得数据交换更加灵活。 10. **XML与编程语言的结合**: XML广泛应用于各种编程语言,如Java、Python、...
- 负责底层测试数据的解析开发。 - 设计与开发数据挖掘需求模型。 - 负责分布式部署及其调优工作。 5. **用户特征挖掘的职责**: - 负责用户特征、车辆特征等挖掘工作,并结合应用场景进行抽象建模。 - 构建...
- **SQL总览**:概览了SQL语言的基本组成部分,如数据定义语言(DDL)、数据操纵语言(DML)、数据查询语言(DQL)和数据控制语言(DCL)。 - **流行的SQL开发工具**:列举了一些常用的SQL开发工具,如MySQL ...
\第3章 基础窗口部件——QWidget 35 \3.1 Qt设计器绘制窗口部件 35 \3.1.1 Qt设计器基础 35 \3.1.2 绘制窗口部件 40 \3.2 程序中引入自定义窗口部件 47 \3.2.1 直接使用方式 47 \3.2.2 单一继承方式 49 \...
\第3章 基础窗口部件——QWidget 35 \3.1 Qt设计器绘制窗口部件 35 \3.1.1 Qt设计器基础 35 \3.1.2 绘制窗口部件 40 \3.2 程序中引入自定义窗口部件 47 \3.2.1 直接使用方式 47 \3.2.2 单一继承方式 49 \3.2.3 多...
5. **数据结构与算法**:数据结构(如数组、链表、树、图)和算法(排序、搜索、动态规划)是解决复杂问题的核心。理解并能灵活运用它们,可以编写出更优化的代码,提高程序运行效率。 6. **开发工具**:开发工具如...
1. **编程语言**:求职者可能精通多种编程语言,如Java、Python、C++或JavaScript等,这些都是IT行业常用的开发语言,不同的项目可能使用了不同的语言来实现。 2. **项目框架**:如果项目基于某种框架,比如Spring ...
4. **工具运用**:精通Git版本控制工具,熟悉Linux操作系统,以及MySQL/Oracle等数据库的使用。 5. **沟通协作**:具备较强的表达和沟通能力,注重团队合作,细心负责,有强烈的责任感。 **附加技能要求:** 对于...
- **Perl/CGI脚本语言**、**Python语言**、**Ruby/Ruby on Rails**等:提供了电子书和视频教程,覆盖了从入门到精通的各个阶段。 #### 数据库管理系统(DBMS) 包括MySQL、SQL Server和Oracle三大主流数据库系统的...
3. **系统维护与监控**:负责系统的日常维护,包括监控系统性能、日志分析、数据备份和恢复,以及系统的性能调优。 4. **自动化运维**:参与自动化部署和测试的研发,利用shell或Python脚本提高工作效率,实现大...
4. 编程语言:精通至少一种编程语言,如Java、C++、Python等,了解语言的特性和应用场景,并掌握面向对象的编程思想。 5. 数据库技术:掌握关系型数据库管理系统如MySQL、Oracle的使用,了解数据库的设计、优化以及...
下面将详细解析如何根据提供的信息构建一个专业且适合普通外企的英文简历,并强调其中的关键知识点。 首先,简历的构成部分通常包括以下几个核心板块: 1. **基本信息**:这部分包含求职者的姓名、性别以及背景。...
3. **数据分析**:数据分析包括数据清洗、预处理、建模和解释结果。常用工具有Excel、Python(Pandas, NumPy, Matplotlib)、R语言和SQL。统计学基础和机器学习算法(如线性回归、决策树、神经网络)也是关键。 4. ...
3. **专业技能**:列出掌握的技术语言和框架,如Java、Python、C++、JavaScript、React、Vue.js等,并可以按熟练程度划分等级,如精通、熟悉、了解。 4. **项目经验**:列举具有代表性的项目,包括项目名称、角色、...
3. **SQL语言基础**:讲解SQL语言的基本语法,包括数据查询、插入、更新、删除操作,以及更复杂的联接、子查询、聚合函数等。 4. **数据库设计**:讨论数据库设计原则,如范式理论,如何创建表、索引、视图,以及...
3. **系统备份与恢复策略**:制定系统和数据备份策略,定期进行灾难恢复演练,设置冗余系统,以保证信息系统在异常情况下的可靠性和可恢复性。 4. **技术要求**:运维经理通常需要计算机相关专业背景,本科及以上...