`

文本数据分析神器—— IBM BigInsights Text Analytics

阅读更多

文本数据分析的价值

文本数据在我们的生活中无处不在:在微信朋友圈、微博中发表的感想;在论坛上发表的评价商品的帖子;由应用后台自动生成的机器日志等。这类数据本身包含了大量有用的信息,但由于文本表达方式可以很灵活,在不需要严格遵循语法的情况下也能准确表达信息。比如下图中表达人物年龄就有三种不同的说法。

例子中,关于年龄最重要的信息是姓名和岁数,图中右侧的的结构化数据才是表达这些核心信息、应用可以处理的主要形式。怎样把非结构化文本数据转换成可以准确表达信息的结构化数据是文本数据分析的一大难题。 

文本数据分析的办法

通常实现文本数据分析主要有两种模式:基于语法分析的模式,和基于语义关联的模式(完全抛开语法,通过文字的上下文关联进行分析)。 

基于语法的分析需要根据语言语法,将文本数据拆分成语法要素,如主谓宾等,再根据语法和语义规则生成目标信息,这种方式适用与文字内容比较规范的场景。

基于语义关联的模式,则是大量采用分词、字典等综合技术对文本数据进行标记(打标签),再根据特定规则或组合生成最终信息,其实现方式大致包括如下步骤:

常用的文本分析工具:

目前有很多工具可用于文本数据分析,常见的几种及其特点如下:

Pig: 包含高层语法的数据处理工具,便于编程和扩展,底层利用MapReduce进行数据并行处理。

JAQL:针对JOSN数据的数据处理工具,非常适合于处理JOSN数据。

AQL:一种标记性的文本数据处理工具,语法类似于SQL,容易上手,内置多种数据抽取器。

Python Natural Language Toolkit:Python提供的文本分析工具,可进行词性标注,句法分析,关键词提取,文本分类,情感分析等。

BigInsights中的文本数据分析工具: IBM企业级大数据产品BigInsights中集成了AQL进行文本分析,在此之上开发了图形化文本分析工具Text Analytics,为使用者提供了极大的便利。

AQL介绍:

AQL框架中对文本数据进行处理要经过三个主要步骤:

1. 数据打标签:使用字典、正则表达式等技术,把要分析的文本数据进行标签处理,这一步是通过定义各种数据抽取器来实现的。

2. 按规则生成数据:将打好标签后的数据进行分片、分组、定义关联规则等,并根据这些规则生成候选的数据列表。

3. 数据合并和过滤:将候选数据进行最终的处理,如将重复数据合并、筛选和过滤等,形成最终的结果。

AQL数据处理过程如下图所示:

BigInsights

使用AQL处理数据,需要学习AQL语法、熟悉新的环境,最重要的是还需要通过写代码来完成各种文本分析任务,因此使用AQL处理数据其实并不简单。下图展示了要从文本中提取数字,需要编写的一段AQL代码:

BigInsights

Text Analytics工具介绍:

IBM基于AQL开发了全图形化界面的文本分析工具Text Analytics,让分析人员不需要编写底层代码,而是使用图形化界面工具方便快捷地完成文本数据分析任务,极大的拔高了平台的文本数据分析能力。

Text Analytics工具界面与Eclipse类似,整个工具分为如下几个区域:

1. 项目管理区:可以通过不同项目实现对不同文本分析任务的划分。

2. 文档浏览区:显示正在处理的文本数据文档,处理的结果通过不同背景颜色标记出不同标签的内容。

3. 画布区域:在该区域中通过拖拽、鼠标操作完成文本数据处理规则的创建和修改。

4. 属性区域:显示当前选中对象的属性,可以设置不同的属性值。

5. 结果区域:显示根据当前文本处理规则处理之后的结果。

BigInsights

通过Text Analytics进行文本数据分析,所有的工作都是在该界面完成,用户不需要关心具体的AQL细节和代码,也不用关心后台的处理作业,Text Analytics自动将文本处理规则生成AQL并提交作业到Hadoop集群中完成数据处理。

下面的简单示例,演示了如何从纯文本的财报数据中提取出盈利数字。

三步轻松搞定文本分析

步骤1:导入数据

新建项目后,单击项目区域中的加号按钮,可添加文本数据源。工具支持从本地文件系统或HDFS中添加文件,支持.zip, .tar, .tgz, .gz等多种格式的数据。

BigInsights

步骤2:编辑文本数据规则

根据数据处理的需要,从“Extractor”菜单中拖拉出需要的抽取器至画布区中,并定义属性和抽取器中的规则。

本例中我们仅仅抽取简单的财务数据,因此只需要将字符"$",数字抽取器Number和货币单位Currency三个抽取器拼接即可,如下图所示:

BigInsights

若要抽取包含部门名称的盈利数据,需要定义如下规则:

BigInsights

步骤3:运行和结果导出

点击画布区中的运行按钮,文本分析结果会直接显示在结果列表中,可以将结果导出处理和使用。

BigInsights

另外运行之后,在文档区域还根据不同规则命中的结果,显示为不同背景色的文字,方便检查。

BigInsights

总结:

BigInsights中的Text Analytics工具通过全图形化界面实现零编程的文本分析,并通过与Hadoop的集成扩展了文本处理的应用范围,可以帮助企业客户快速实现多种文本数据分析应用,例如对互联网文本数据分析,机器日志分析等。

Text Analytics的文本分析结果,可以进行深入加工和分析,例如可以在Cognos中通过图表展现,也可以做为SPSS的分析数据源使用。更多细节请参考慧都大数据。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

0
0
分享到:
评论

相关推荐

    biginsights基于hadoop的数据分析平台共7页

    BigInsights提供了一个名为InfoSphere BigInsights的环境,它整合了Hadoop生态系统中的多种工具,如Hive(用于数据仓库和SQL查询)、Pig(用于数据处理)、HBase(NoSQL数据库)、Zookeeper(协调服务)等,以及IBM...

    IBM BigInsights Overview _CSDN -v11.pdf

    由CSDN主办的“大数据时代,如何建立适合自己的数据体系架构”分享沙龙圆满落幕,我们提供讲师的PDF文件供参会者学习。

    IBM数据分析平台方案

    IBM为应对企业日益增长的海量数据处理需求,推出了基于Hadoop的数据分析平台——BigInsights。这个平台旨在帮助企业管理和分析非结构化的海量数据,从而挖掘出有价值的洞察,支持业务决策和市场趋势预测。以下是IBM ...

    IBM InfoSphere BigInsights Version 2.1 Installation Guide

    IBM InfoSphere BigInsights Version 2.1 Installation Guide

    IBM InfoSphere BigInsights Version 3.0.0安装手册

    IBM的BigInsights安装手册,英文版,对应版本为3.0.0

    解读IBM InfoSphere大数据分析平台

    IBM InfoSphere大数据分析平台是IBM为了应对大数据挑战而推出的一款集成化解决方案,尤其强调其基于Hadoop的BigInsights组件。随着Gartner的预测,2015年,大部分财富500强企业在大数据竞赛中可能面临劣势,反映出...

    IBM -- 设计用于分析大数据平台的架构

    在构建大数据分析平台时,IBM提供了专业的架构设计指导,旨在帮助企业和组织高效处理、存储和分析海量数据。这种架构设计不仅关注技术层面,也强调业务需求与数据分析的结合,以实现价值最大化。以下是对这个主题的...

    IBM商业智能解决方案

    IBM Watson Analytics和IBM Streams提供了实时数据分析能力,可以处理持续流入的实时数据流,帮助企业即时响应市场变化。这对于金融交易、社交媒体分析、物联网(IoT)数据处理等场景尤其重要。 5. 集成与协作: IBM ...

    IBM Big Data

    "2.4 - Text Analytics Overview.pdf"涵盖了文本分析,这是大数据分析的一个重要领域,用于从非结构化文本数据中提取有价值的信息。IBM可能提供了其在文本挖掘和自然语言处理方面的工具和技术。 "1.9 - BigSheets....

    新一代数据分析利器助力业务创新.pdf

    - **IBM BigInsights**:基于Hadoop的平台,用于大规模数据存储和分析,支持结构化和非结构化数据。 - **IBM Streams**:实时流计算平台,能够快速处理和分析大量流式数据,如传感器数据或交通流数据。 - **...

    IBM 大数据解决方案

    5. **Watson Analytics**:IBM的高级数据分析服务,结合了人工智能和机器学习技术,能自动进行数据探索、预测建模和自然语言理解。 6. **Netezza**:IBM的高性能数据仓库系统,适合处理大量实时分析任务,尤其在...

    IBM big data 培训资料

    IBM大數據技术是当前信息技术领域中的重要组成部分,它涉及到数据的采集、存储、处理、分析以及可视化等多个环节。本培训资料旨在帮助学习者全面理解IBM在大数据领域的解决方案和技术优势。 一、IBM Big Data架构 ...

    Understanding Big Data

    You’ll get a primer on Hadoop and how IBM is hardening it for the enterprise, and learn when to leverage IBM InfoSphere BigInsights (Big Data at rest) and IBM InfoSphere Streams (Big Data in motion)...

    大数据技术交流.pptx

    - 提供全面的数据集成、分析和管控解决方案,包括InfoSphere BigInsights、IBM Streams、pureData系统等。 - 应用加速器:加速数据分析应用的开发,提高业务效率。 - 可视化与发现:通过可视化工具帮助用户理解...

    Big Data Networked Storage Solution for Hadoop - Redpaper - IBM

    11 Meeting the challenge of big data analytics with IBM InfoSphere BigInsights 2 111 The value of the IBM InfoSphere BigInsights analytics 2 112 Analysis and discovery 2 113 Enterprise software ...

    movie-recommender-demo:该项目逐步介绍了如何使用Apache Spark机器学习创建推荐。 您可以在IBM Data Science Experience上运行许多jupyter笔记本,并且可以与电影推荐Web应用程序进行实时演示。 该演示还使用IBM Message Hub(kafka)将应用程序事件推送到主题,在IBM BigInsights(hadoop)上运行的Spark Streaming作业将这些事件消耗掉

    该演示还使用IBM Message Hub(kafka)将应用程序事件推送到主题,在IBM BigInsights(hadoop)上运行的Spark Streaming作业将其消费。 快速开始 如果您想尝试该Web应用程序的实时演示,请访问。 这也是的概述视频...

    IBM大数据平台方案.pptx

    这个方案的核心在于IBM InfoSphere BigInsights,它是一个基于开源Hadoop技术的企业级大数据分析平台,旨在帮助企业快速获取数据洞察,推动业务创新,并确保数据安全。 IBM大数据平台的主要特点包括: 1. **数据...

    Understanding Big Data - Analytics for Enterprise Class Hadoop

    CONTENTS AT A GLANCE PART I Big Data: From the Business Perspective ...5 InfoSphere BigInsights: Analytics for Big Data At Rest 81 6 IBM InfoSphere Streams: Analytics for Big Data in Motion

    藏经阁-FROM SINGLE-TENANT HADOOP TO 3.pdf

    该解决方案包括多个组件,例如 Cognos BI、Text Analytics、BigInsights、DB2 等。 知识点 2:单租户 Hadoop 架构 之前的架构是一个单租户的“大数据”ETL批处理管道,其中包括数据收集、数据处理、数据存储等步骤...

    IBM test 222

    IBM Watson Analytics和IBM SPSS等工具可以帮助用户处理和分析大量数据,实现预测性分析和决策支持。课程可能涵盖数据集成、数据治理和大数据平台如IBM BigInsights的使用。 再者,IBM在人工智能领域有着深厚的基础...

Global site tag (gtag.js) - Google Analytics