`
liss
  • 浏览: 842777 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

文本挖掘抢占商业智能掘金制高点

阅读更多

某业内人士对商业智能在现代社会的重要性曾做过如下比喻,《世说新语》中讲: “盲人骑瞎马,夜半临深池。” 这短短十个字隐藏了四个危险:由无知的经理人来经营企业,就如同“盲人骑马”,这是第一个危险;依赖无知的员工,就如同“骑瞎马”,这是第二个危险;参与激烈的市场竞争,就如同“临深池”,这是第三个危险;在全球经济不景气的时候参与激烈的市场竞争,就如同“夜半临深池”,这是第四个危险。所以“无知”,已成为企业最大的威胁。

互联网时代,网络中充斥着海量信息,企业需要对它们进行合理及有效地利用,从而帮助企业在业务管理及发展上做出及时、正确的判断,然后采取明智的行动,做到在竞争中占据主动权。互联网上流传着这样一个“尿布和啤酒”的经典故事:美国一家大型超市利用数据挖掘技术来分析他们的销售纪录,发现尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查,找到了产生这个现象的原因,在美国负责为孩子购买尿布的年轻父亲们,很多时候会顺带给自己买些啤酒,于是超市采取措施将尿布和啤酒放在一起,结果两种产品的销售量都得到了增长。由此可见,数据爆炸时代,“商业智能”(BI)能够摒弃企业的无知,为企业发展创造出巨大的价值。

另外,我们也应了解在信息社会,信息并不是单一的,而是分为两大类:一类信息为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,我们称之为非结构化数据。目前,随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,非结构化数据的数量日趋增大。据统计,现今企业中80%的数据是以非结构化的形式存在,如WEB页面、技术文档、电子邮件等。因此,商业智能除了要面对结构化数据外,更多时候是需要处理无序的非结构化数据。于是,一个从非结构化文本信息中获取用户感兴趣或有用信息的技术——“文本挖掘技术”发展起来,人们常说的文本驱动的商业智能,就是指的文本挖掘技术。

文本挖掘是数据挖掘技术的分支,它能够使人们从大量冗余的信息中迅速发现对自己有用的信息,并在一定程度上揭示信息与信息之间的关联。有人说文本挖掘是互联网时代,继门户、搜索引擎和Web2.0之后最重要的技术之一,纽约时报甚至称它为Web3.0。

文本挖掘作为人们挑战信息爆炸式增长与信息有效利用之间矛盾的重要武器,受到世界的广泛认可,目前国际上许多企业都在进行文本挖掘技术的研究,并取得一定成绩。但在我国,文本挖掘技术发展历史比较短。某一业内人士说:“虽然我国文本挖掘技术的发展研究还处于初级阶段,但想把国外的文本挖掘技术直接在我国进行利用,可以说是一件比较困难的事情,因为中文与西方文字是不同。如我要搜索‘可乐’一词,国外的技术可能会把‘太可乐了’等众多不相关词语搜索出来。”

比较而言,国内本土的软件企业在发展文本挖掘技术上却具有先天优势,如在中文分词,习惯用语理解等方面。另外,做好中文文本挖掘技术还需要超越绝大多数现有搜索引擎所采用的单纯基于特定关键字的查找匹配方式,而要在一定程度上去实现基于语义的搜索,即无论文中出现的是“笔记本”,“本本”,还是“laptop”,当我们在查找“笔记本”时,这篇文章都应该作为结果返回。但满足以上要求并不是容易的事情,它需要在数据库和信息检索技术等方面具有长期的积累、也需要算法的高效,系统的稳定和可扩展性。

据了解,在数量众多的拥有文本挖掘技术的厂商中,北京拓尔思(TRS)信息技术股份有限公司是国内第一家拥有真正实用化文本挖掘产品的企业。TRS文本挖掘技术有效结合自然语言处理技术、统计分析和机器学习技术及语言知识库,实现了中文文本挖掘技术的商业化应用,并在外交部、新华社、宝钢等多家政府、媒体和企业项目中经受住了海量信息和复杂环境的考验。

根据2007-2008中国商业智能市场发展报告统计:从全球范围来看,商业智能已经成为最具有前景的信息化领域;从国内来看,商业智能是企业信息化中最重要的组成部分。但在我国,文本挖掘毕竟是一门新兴的前沿技术,还有诸多问题等待研究、解决,同时也需要对人才进行储备。为了推动文本挖掘技术整体水平向前发展;寻找、发现、选拔更多的高知识型专业挖掘技术人才投入到文本挖掘事业中来,为文本挖掘技术的前进提供有力的后续保障,“数据挖掘研究院”联手TRS公司共同举办了“2008 TRS杯中国首届文本挖掘智能大赛”。

商业智能提升了企业对市场的洞察力,文本挖掘成就了商业智能在互联时代的重要作用。不难想象,随着社会经济的快速发展,文本挖掘技术的应用将越来越广泛,商业智能也必将成为企业在竞争中克敌制胜的有效武器之一。这里,笔者衷心祝愿大赛的举办取得圆满成功,同时也希望此赛事能真正为致力于文本挖掘事业的人们搭起一座沟通的桥梁和相互学习的园地,让中文文本挖掘技术取得更快的进步。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics