自然语言处理之分词器ansj和hanlp介绍

博客分类：

自然语言处理

1.ansjansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)文件读取分词每秒钟大约30万字准确率能达到96%以上目前实现了: 1.中文分词 2.中文姓名识别 3.用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目. 源码下载：https://github.com/ansjsun/ansj_seg/文档说明:http://ansjsun.github.io/ansj_seg/在线演示:http ...

2016-05-11 12:56
浏览 4769
评论(0)
分类:开源软件

基于自然语言关键词的打分器

博客分类：

自然语言处理

自然语言处理关键词打分器

最近在做自然语言处理，当句子中有多个关键字时，就无法简单的通过关键字进行分类，需要筛选出句子的核心关键字，基于这个思想，自己开发了一个打分器，得分多高的关键词，即为该句的核心关键词该打分器主要是为自然句子中的关键字进行打分，通过分数的高低选举出关键字的重要度下面通过简单的例子说明,如句子: 电脑异响，怀疑是硬盘有问题，查为风扇的故障，更换风扇后正常. 其中筛选出和电脑相关的词汇设置为关键字:硬盘,风扇再筛选出来加分词:故障减分词:正常然后通过公式score = d/(distance+1) * weight 其中d为调节因子，distance为关键字到加(减)分词的距离 ...

2016-05-10 16:44
浏览 1511
评论(0)
分类:开源软件

常用git命令积累汇总

博客分类：

git

Git

以下是最近用git cmd常用到的命令项目目录：cd Project_Dir #初始化gitgit init #添加要提交的文件如README.md,'.'代表当前目录的所有文件git add README.mdgit add . #查看文件修改状态 git status #git提交代码带上注释git commit -m "update readme.md commit" #git从服务的master下pull下来代码git pull https://github.com/yourGitHubName/yourReposi ...

2016-03-25 11:33
浏览 987
评论(0)
分类:研发管理

zookeeper注册服务与netty的简单结合应用

博客分类：

zookeeper

zookeeper netty ha

简单介绍一下zookeeper和nettyNetty:流行的NIO Socket通信框架，很多开源软件如hadoop tachyon spark都使用Netty作为底层通信框架Zookeeper:分布式的，开放源码的分布式应用程序协调服务,hadoop hbase等开源分布式系统的重要组件应用场景描述:利用Zookeeper的服务注册与发现功能，实现Netty通信集群的简单高可用。首先NettyServer端需要将服务注册到zookeeper中，代码如下 package com.zookeeper; import java.util.concurrent.CountDo ...

2016-02-15 10:36
浏览 10051
评论(0)
分类:开源软件

开启google人工智能学习Tensorflow之旅(一)

博客分类：

机器学习

机器学习人工智能

简介TensorFlow TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。 Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，这和当前很多主流机器学习框架类似，如spark，。 TensorFlow为张量从图象的一端流动到另一端计算过程。 TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统，目前已被谷歌开源，不过当前版本是单机版。开始构建TensorFlow的环境由于TensorFlow是基于Python2.7版本的，建议大家在centos7上部署，如果想在centos6上搭建 ...

2016-01-29 13:47
浏览 2322
评论(0)
分类:开源软件

Spark1.6新特性简介及个人的理解

博客分类：

Spark

大数据 Spark SparkSQL

新的Spark1.6版本发布了，之前使用Spark1.4版本的SparkSQL，这次发布后主要关注了1.6版本的SparkSQL特性参阅了官方的Release Note和jira issue detail以及之前在使用1.4.0中的经验，跟大家分享一下Spark1.6部分新加的几个特性。 1. Dataset API� ...

2016-01-11 10:48
浏览 2957
评论(0)
分类:开源软件

Maven构建SpringMVC项目详解

博客分类：

Maven

Eclipse版本： Eclipse Java EE IDE for Web Developers. Version: Kepler Service Release 2 上述版本的Eclipse中已经包含了基本的maven插件，如果你使用的eclipse中没有，可以通过下面的地址在Eclipse Help->Install New Software 中安装: http://m2eclipse.sonatype.org/sites/m2e 安装WTP(Web Tools Project)

2015-12-22 15:39
浏览 1849
评论(0)
分类:研发管理

CXF集成Spring

博客分类：

cxf

webservice cxf spring

最近调研了对webservice实现比较好的框架，觉得Apache的CXF不错.做了一个简单的技术预研，其中主要包括2方面:1.与Spring的集成，2.安全性方面即WS-Security首先与Spring的集成可以通过ContextLoaderListener去装配bean在WS-Security方面可以与WSS4J集成WSS4J支持多种模式：XML Security:1.XML Signature 2.XML EncryptionTokens:1.Username Tokens 2.Timestamps 3.SAML Tokens 做个了小的集成demo项目，项目的包结构如下: ...

2015-12-09 10:11
浏览 1487
评论(1)
分类:开源软件

记一次Spark集群查询速度变慢的问题调查

博客分类：

Spark

Spark SparkSQL Spark问题调查

现象:针对某张表(下文中用A表代替)的查询速度慢了6s 简单介绍一下系统的架构:Spark + Tachyon + glusterfs+mesos,其中glusterfs负责tachyon数据的持久化，Spark从tachyon上加载数据，mesos负责Spark任务调度通过对比分析Spark:4040

2015-11-24 10:50
浏览 2711
评论(0)
分类:开源软件

SparkSQL Driver ClassNotFoundException的解决方案

博客分类：

Spark

Spark SparkSQL SparkSQL操作关系型数据库

在使用SparkSQL连接关系型数据库时，需要通过JDBC来加载对应数据库的驱动，如SQLServer JDBC连接用到的sqljdbc4.jar，处理时经常会遇到sparksql抛出jdbc的驱动程序ClassNotFoundException，类似下面的错误提示 Exception in thread "main&q ...

2015-11-18 10:57
浏览 3038
评论(0)
分类:开源软件

SparkSQL操作sqlserver和postgresql示例

博客分类：

Spark

Spark SparkSQL 大数据

def main(agrs: Array[String]){ //configuration and new Spark Context val conf = new SparkConf().setAppName("SparkSQL_Select_Table") .set("spark.driver.allowMultipleContexts", "true") .set("spark.sql.shuffle.partitions","12 ...

2015-11-03 20:15
浏览 4788
评论(0)
分类:开源软件

quartz中设置Job不并发执行

博客分类：

quartz

quartz 定时任务

System.out.println("不知道该怎么删除这个Java代码框了"); 使用quartz框架可以完成定时任务处理即Job，比如有时候我们设置1个Job每隔5分钟执行1次，后来会发现当前Job启动的时候上一个Job还没有运行结束，这显然不是我们期望的，此时可以设置quartz中的参数，来确保Job不并发执行 1. quartz未与Spring结合 //可以通过在实现Job接口的类上加注解的方式@DisallowConcurrentExecutionpublic class TestJob implements Job{ @Override publi ...

2015-10-29 20:07
浏览 13098
评论(0)
分类:开源软件

SparkSQL中DataFrame registerTempTable源码浅析

博客分类：

Spark

大数据实时计算 SparkSQL

dataFrame.registerTempTable(tableName); 最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时，效率上是否会有很大的差距，也对DataFrame注册成临时表到底做了哪些比较好奇，拿来源码拜读了下相关部分，记录一� ...

2015-10-09 13:56
浏览 7162
评论(0)
分类:开源软件

使用Maven为代码构建依赖包

博客分类：

Maven

maven

用Maven来管理代码的依赖包，这种方式还是不错的，jar包的依赖关系及下载都由Maven替我们完成，很方便用Maven构建依赖包的主要步骤: 1.双击Pom.xml 在Dependencies选项卡中点击add, 输入对应信息后点击确定 2. 切换到Dependencies Hierarchy会发现自动下载了json-lib的依赖包 3. 在项目的build path中点击添加库，选择Maven Managed Dependencies，下一步，点击Maven Project Setting 在Active Maven Profi ...

2015-09-07 20:40
浏览 2275
评论(2)
分类:研发管理

sqoop1.4.5将mysql中的数据导入到HBase中

博客分类：

HBase

什么是sqoop？关于发音，困扰了我很久，一番类比之后，决定读为“丝库坡”，英语老师看见了会不会疯掉，呵呵，我就是这样一个逗x。书归正传：Sqoop【SQL-To-Hadoop】是将关系型数据库的数据(MySQL or Oracle or Postgre)导入到HDFS及其子系统中(Hive, HBase)的工具 sqoop有两个版本，sqoop1和sqoop2，两者特性不同，本文仅介绍sqoop1的使用，其实是精力有限 sqoop1.4.5的搭建过程如下： 1. 软件的版本: hadoop-1.0.3zookeeper-3.4.4hbase-0.94.0s ...

2015-04-20 10:44
浏览 1394
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自然语言处理之分词器ansj和hanlp介绍

基于自然语言关键词的打分器

常用git命令积累汇总

zookeeper注册服务与netty的简单结合应用

开启google人工智能学习Tensorflow之旅(一)

Spark1.6新特性简介及个人的理解

Maven构建SpringMVC项目详解

CXF集成Spring

记一次Spark集群查询速度变慢的问题调查

SparkSQL Driver ClassNotFoundException的解决方案

SparkSQL操作sqlserver和postgresql示例

quartz中设置Job不并发执行

SparkSQL中DataFrame registerTempTable源码浅析

使用Maven为代码构建依赖包

sqoop1.4.5将mysql中的数据导入到HBase中

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>