文本数据分析的价值
文本数据在我们的生活中无处不在:在微信朋友圈、微博中发表的感想;在论坛上发表的评价商品的帖子;由应用后台自动生成的机器日志等。这类数据本身包含了大量有用的信息,但由于文本表达方式可以很灵活,在不需要严格遵循语法的情况下也能准确表达信息。比如下图中表达人物年龄就有三种不同的说法。
例子中,关于年龄最重要的信息是姓名和岁数,图中右侧的的结构化数据才是表达这些核心信息、应用可以处理的主要形式。怎样把非结构化文本数据转换成可以准确表达信息的结构化数据是文本数据分析的一大难题。
文本数据分析的办法
通常实现文本数据分析主要有两种模式:基于语法分析的模式,和基于语义关联的模式(完全抛开语法,通过文字的上下文关联进行分析)。
基于语法的分析需要根据语言语法,将文本数据拆分成语法要素,如主谓宾等,再根据语法和语义规则生成目标信息,这种方式适用与文字内容比较规范的场景。
基于语义关联的模式,则是大量采用分词、字典等综合技术对文本数据进行标记(打标签),再根据特定规则或组合生成最终信息,其实现方式大致包括如下步骤:
常用的文本分析工具:
目前有很多工具可用于文本数据分析,常见的几种及其特点如下:
Pig: 包含高层语法的数据处理工具,便于编程和扩展,底层利用MapReduce进行数据并行处理。
JAQL:针对JOSN数据的数据处理工具,非常适合于处理JOSN数据。
AQL:一种标记性的文本数据处理工具,语法类似于SQL,容易上手,内置多种数据抽取器。
Python Natural Language Toolkit:Python提供的文本分析工具,可进行词性标注,句法分析,关键词提取,文本分类,情感分析等。
BigInsights中的文本数据分析工具: IBM企业级大数据产品BigInsights中集成了AQL进行文本分析,在此之上开发了图形化文本分析工具Text Analytics,为使用者提供了极大的便利。
AQL介绍:
AQL框架中对文本数据进行处理要经过三个主要步骤:
1. 数据打标签:使用字典、正则表达式等技术,把要分析的文本数据进行标签处理,这一步是通过定义各种数据抽取器来实现的。
2. 按规则生成数据:将打好标签后的数据进行分片、分组、定义关联规则等,并根据这些规则生成候选的数据列表。
3. 数据合并和过滤:将候选数据进行最终的处理,如将重复数据合并、筛选和过滤等,形成最终的结果。
AQL数据处理过程如下图所示:
使用AQL处理数据,需要学习AQL语法、熟悉新的环境,最重要的是还需要通过写代码来完成各种文本分析任务,因此使用AQL处理数据其实并不简单。下图展示了要从文本中提取数字,需要编写的一段AQL代码:
Text Analytics工具介绍:
IBM基于AQL开发了全图形化界面的文本分析工具Text Analytics,让分析人员不需要编写底层代码,而是使用图形化界面工具方便快捷地完成文本数据分析任务,极大的拔高了平台的文本数据分析能力。
Text Analytics工具界面与Eclipse类似,整个工具分为如下几个区域:
1. 项目管理区:可以通过不同项目实现对不同文本分析任务的划分。
2. 文档浏览区:显示正在处理的文本数据文档,处理的结果通过不同背景颜色标记出不同标签的内容。
3. 画布区域:在该区域中通过拖拽、鼠标操作完成文本数据处理规则的创建和修改。
4. 属性区域:显示当前选中对象的属性,可以设置不同的属性值。
5. 结果区域:显示根据当前文本处理规则处理之后的结果。
通过Text Analytics进行文本数据分析,所有的工作都是在该界面完成,用户不需要关心具体的AQL细节和代码,也不用关心后台的处理作业,Text Analytics自动将文本处理规则生成AQL并提交作业到Hadoop集群中完成数据处理。
下面的简单示例,演示了如何从纯文本的财报数据中提取出盈利数字。
三步轻松搞定文本分析
步骤1:导入数据
新建项目后,单击项目区域中的加号按钮,可添加文本数据源。工具支持从本地文件系统或HDFS中添加文件,支持.zip, .tar, .tgz, .gz等多种格式的数据。
步骤2:编辑文本数据规则
根据数据处理的需要,从“Extractor”菜单中拖拉出需要的抽取器至画布区中,并定义属性和抽取器中的规则。
本例中我们仅仅抽取简单的财务数据,因此只需要将字符"$",数字抽取器Number和货币单位Currency三个抽取器拼接即可,如下图所示:
若要抽取包含部门名称的盈利数据,需要定义如下规则:
步骤3:运行和结果导出
点击画布区中的运行按钮,文本分析结果会直接显示在结果列表中,可以将结果导出处理和使用。
另外运行之后,在文档区域还根据不同规则命中的结果,显示为不同背景色的文字,方便检查。
总结:
BigInsights中的Text Analytics工具通过全图形化界面实现零编程的文本分析,并通过与Hadoop的集成扩展了文本处理的应用范围,可以帮助企业客户快速实现多种文本数据分析应用,例如对互联网文本数据分析,机器日志分析等。
Text Analytics的文本分析结果,可以进行深入加工和分析,例如可以在Cognos中通过图表展现,也可以做为SPSS的分析数据源使用。更多细节请参考慧都大数据。
相关推荐
BigInsights提供了一个名为InfoSphere BigInsights的环境,它整合了Hadoop生态系统中的多种工具,如Hive(用于数据仓库和SQL查询)、Pig(用于数据处理)、HBase(NoSQL数据库)、Zookeeper(协调服务)等,以及IBM...
IBM为应对企业日益增长的海量数据处理需求,推出了基于Hadoop的数据分析平台——BigInsights。这个平台旨在帮助企业管理和分析非结构化的海量数据,从而挖掘出有价值的洞察,支持业务决策和市场趋势预测。以下是IBM ...
IBM InfoSphere BigInsights Version 2.1 Installation Guide
IBM InfoSphere BigInsights Version 3.0.0是一款由IBM公司开发的大型数据处理和分析软件,它是基于Hadoop平台的企业级产品。通过该软件,用户能够处理各种规模的非结构化数据,包括社交媒体数据、机器日志、传感器...
IBM的PowerLinux Big Data Solutions通过Apache Hadoop和IBM InfoSphere BigInsights软件分析静态数据,通过InfoSphere Streams软件分析动态数据,实现了深度集成和优化,使企业能够并行处理成千上万的任务,加速...
IBM InfoSphere大数据分析平台是IBM为了应对大数据挑战而推出的一款集成化解决方案,尤其强调其基于Hadoop的BigInsights组件。随着Gartner的预测,2015年,大部分财富500强企业在大数据竞赛中可能面临劣势,反映出...
其中,“Meeting the challenge of big data analytics with IBM InfoSphere BigInsights”表明IBM通过其InfoSphere BigInsights产品来应对大数据分析的挑战。接下来的几段分别概述了IBM InfoSphere BigInsights的...
- **工具集成**:介绍了BigSheets和Text Analytics等工具的使用方法。 - **企业级集成**:探讨如何将BigInsights与其他企业级产品和服务进行集成,实现更高效的数据处理流程。 ##### 4. IBM InfoSphere Streams入门...
在构建大数据分析平台时,IBM提供了专业的架构设计指导,旨在帮助企业和组织高效处理、存储和分析海量数据。这种架构设计不仅关注技术层面,也强调业务需求与数据分析的结合,以实现价值最大化。以下是对这个主题的...
IBM Watson Analytics和IBM Streams提供了实时数据分析能力,可以处理持续流入的实时数据流,帮助企业即时响应市场变化。这对于金融交易、社交媒体分析、物联网(IoT)数据处理等场景尤其重要。 5. 集成与协作: IBM ...
"2.4 - Text Analytics Overview.pdf"涵盖了文本分析,这是大数据分析的一个重要领域,用于从非结构化文本数据中提取有价值的信息。IBM可能提供了其在文本挖掘和自然语言处理方面的工具和技术。 "1.9 - BigSheets....
其中,BigSheets作为BigInsights的一部分,提供了直观的数据查看和分析界面。 四、FlexScheduler:一种灵活的作业调度器 FlexScheduler是IBM为优化Hadoop作业调度而设计的一种新型调度器。它在传统的FIFO(先进先...
- **IBM BigInsights**:基于Hadoop的平台,用于大规模数据存储和分析,支持结构化和非结构化数据。 - **IBM Streams**:实时流计算平台,能够快速处理和分析大量流式数据,如传感器数据或交通流数据。 - **...
5. **Watson Analytics**:IBM的高级数据分析服务,结合了人工智能和机器学习技术,能自动进行数据探索、预测建模和自然语言理解。 6. **Netezza**:IBM的高性能数据仓库系统,适合处理大量实时分析任务,尤其在...
IBM大數據技术是当前信息技术领域中的重要组成部分,它涉及到数据的采集、存储、处理、分析以及可视化等多个环节。本培训资料旨在帮助学习者全面理解IBM在大数据领域的解决方案和技术优势。 一、IBM Big Data架构 ...
You’ll get a primer on Hadoop and how IBM is hardening it for the enterprise, and learn when to leverage IBM InfoSphere BigInsights (Big Data at rest) and IBM InfoSphere Streams (Big Data in motion)...
IBM Watson系统整合了多项技术和平台,包括UIMA(Unstructured Information Management Architecture)自然语言处理和内容分析技术、InfoSphere BigInsights大数据分析工具,以及高性能计算集群IBMPowerSystems。...
- 提供全面的数据集成、分析和管控解决方案,包括InfoSphere BigInsights、IBM Streams、pureData系统等。 - 应用加速器:加速数据分析应用的开发,提高业务效率。 - 可视化与发现:通过可视化工具帮助用户理解...