`
文章列表
  大数据技术的应用与发展正在让我们的生活经历一场深刻的“变革”,而且这种变革几乎让所有人都感觉非常舒服,自然而然的就完成了这样的一个变化。最根本的原因其实是大数据技术的应用真正帮助我们解决了问题。 我想也正是基于大数据技术的超强实用性吧,它才会被上升到国家战略层面的高度得以出现在政府工作报告中。大数据技术的应用于,对于建设智慧政务平台的可谓功不可没。智慧政务云平台的建设技术以及方案,可以说是比较成熟了,当然前提是必须与大的、开发团队强的大数据公司或者机构合作(不过,一般做大数据的都是有一定实力的技术团队)。 关于政务大数据平台的建设方案以及实施的项目案例,曾经给大家分享过一些。今天想给 ...
hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 其核心词典形式如下:   自定义词典 自定义词典有多种添加模式,首先 ...
  大数据、区块链可以说近几年互联网非常火爆的风口了,发展真可谓是蓬勃向上。围绕大数据进行的行业变革、创新已经不仅仅是趋势,而是真实在进行中。大数据技术对各行业的重要性不言而喻,15年政府下发关于推进大数据技术发展的重要文件,紧接着又将大数据上升到了国家战略层面。所有这一系列重要举措,都证明了一件事情——当下,正是大数据的风口! 在互联网技术高速发展的今天,对企业而言掌握数据资源就掌握了出奇制胜的关键。越来越多的企业开始重视大数据战略布局,并重新定义了自己的核心竞争力。这里就给大家整理一些国内的站在大数据风口的公司。如果在网络上查一下“国内大数据公司”,你就会发现各式各样的排行版都有。本文 ...
  大数据技术的发展与应用已经在深刻地改变和影响我们的日常生活与工作,可以预见的是在大数据提升为国家战略层面后,未来的几年里大数据技术将会被更多的行业应用。 相信很多人对于大数据技术的应用还是处于一个非常陌生的阶段,可能在很多地方听说过大数据,但具体应用在哪方面可能就并不清楚了。举个最简单的的例子,前段时间新闻报道说警方在某明星的演唱会上抓捕了一名在逃嫌犯,而这名嫌犯是在进入现场时被监控识别出来的。这种就是大数据技术的一种具体的应用表现。这个案例可能不是很贴切,但应该很好理解了吧!   企业对大数据技术的需求尤其是在移动互联网进入到井喷式发展阶段后变得尤为强烈。当然,我们这里探讨的仅是 ...
  大数据作为当下最为热门的事件之一,其实已经不算是很新鲜的事情了。如果是三五年前在讨论大数据,那可能会给人一种很新鲜的感觉。大数据作为当下最为重要的一项战略资源,已经是越来越得到国家和企业的高度重视 ...
  HanLP方法封装类: 1. # -*- coding:utf-8 -*- 2. # Filename: main.py 3. 4.from jpype import * 5.  5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.3.2.jar;C:\hanlp", "-Xms1g", "-Xmx1g") # 启动JVM,Linux需替换分号;为冒号: 7. 8.print("="*30+"HanL ...
  在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: <!--[if !supportLists]-->u <!--[endif]-->u名字识别的问题 #387 <!--[if !supportLists]-->u <!--[endif]-->u机构名识别错误 <!--[if !supportLists]-->u <!--[endif]-->u关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi角 ...
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。 如何界定分词   中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程;在英文中,单词之间是以空格作为自然分界符,汉语中词没有一个形式上的分界符。(见百度百科) 正因为缺乏形式上的分界符,导致我们对词的认定会出现很大的偏差。1996 年 Sproat 等通过对 6 个母语为汉语的人进行调研 ...
从事大数据行业的朋友应该都知道大数据已经上升到了国家战略高度,2015年8月31日,国务院印发了《促进大数据发展行动纲要》。旨在通过建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策。 目前,我国每年善生并被存储的数据总量超过800EB,相当于全人类讲过的话160倍。我国的电子政务发展指数为0.6071,排名第63位。经过这几年的发展的,已经偶
  这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒 ...
  大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门、火爆!而这要得益于互联网信息技术的快速发展,网络改变世界、改变生活,大数据技术的应用让这样的改变更为深刻。 关注大数据或者是互联网方面新闻的人应该知道,大数据已经上升到了国家战略的高度。可以说这是时代发展的必然趋势,从国家战略层面推进大数据技术的普及与应用,一个至关重要且非常核心的问题——数据安全问题就非常突出。解决数据安全问题,必然要回归到大数据开发所使用的框架!   国内的大数据开发起步较晚于国外,所有关于大数据大开发的各种标准和规则都是采用国外的那一套。国内做大数据开发的企业或者机构组织所推出的大部分商业发行 ...
  与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。 开源项目 本文代码已集成到HanLP中开源:
  生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。 本文主要利用了词汇+词性生成联合概率模型,使用最大生成树Prim算法搜索最终结果,得到了一个简单的汉语依存句法分析器。 开源项目 本文代码已集成到HanLP中开源:http://hanlp.dksou.com/ 基本思路 统计词语WordA与词语WordB构成依存关系DrC的频次,词语WordA与词性TagB构成依存关系DrD的频次,词性TagA与词语WordB构成依存 ...
  近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。 目前国内的hadoop商业发行版也是比较多,这些hadoop商业版大部分都是由国外发行的,
  前言: 文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。 一、使用介绍 hanLP是一个用java语 ...
Global site tag (gtag.js) - Google Analytics