`
zhao_rock
  • 浏览: 192464 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论
文章列表
1.ansjansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)文件读取分词每秒钟大约30万字准确率能达到96%以上目前实现了: 1.中文分词 2.中文姓名识别 3.用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.   源码下载:https://github.com/ansjsun/ansj_seg/文档说明:http://ansjsun.github.io/ansj_seg/在线演示:http ...
最近在做自然语言处理,当句子中有多个关键字时,就无法简单的通过关键字进行分类,需要筛选出句子的核心关键字,基于这个思想,自己开发了一个打分器,得分多高的关键词,即为该句的核心关键词   该打分器主要是为自然句子中的关键字进行打分,通过分数的高低选举出关键字的重要度 下面通过简单的例子说明,如句子: 电脑异响,怀疑是硬盘有问题,查为风扇的故障,更换风扇后正常. 其中筛选出和电脑相关的词汇设置为关键字:硬盘,风扇 再筛选出来加分词:故障 减分词:正常 然后通过公式score = d/(distance+1) * weight 其中d为调节因子,distance为关键字到加(减)分词的距离 ...
以下是最近用git cmd常用到的命令 项目目录:cd Project_Dir   #初始化gitgit init   #添加要提交的文件如README.md,'.'代表当前目录的所有文件git add README.mdgit add .   #查看文件修改状态 git status   #git提交代码 带上注释git commit -m "update readme.md commit"   #git从服务的master下pull下来代码git pull https://github.com/yourGitHubName/yourReposi ...
简单介绍一下zookeeper和nettyNetty:流行的NIO Socket通信框架,很多开源软件如hadoop tachyon spark都使用Netty作为底层通信框架Zookeeper:分布式的,开放源码的分布式应用程序协调服务,hadoop hbase等开源分布式系统的重要组件   应用场景描述:利用Zookeeper的服务注册与发现功能,实现Netty通信集群的简单高可用。   首先NettyServer端需要将服务注册到zookeeper中,代码如下 package com.zookeeper; import java.util.concurrent.CountDo ...
简介TensorFlow TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。 Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,这和当前很多主流机器学习框架类似,如spark,。 TensorFlow为张量从图象的一端流动到另一端计算过程。 TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统,目前已被谷歌开源,不过当前版本是单机版。   开始构建TensorFlow的环境 由于TensorFlow是基于Python2.7版本的,建议大家在centos7上部署,如果想在centos6上搭建 ...
新的Spark1.6版本发布了,之前使用Spark1.4版本的SparkSQL,这次发布后主要关注了1.6版本的SparkSQL特性参阅了官方的Release Note和jira issue detail以及之前在使用1.4.0中的经验,跟大家分享一下Spark1.6部分新加的几个特性。   1. Dataset API ...
Eclipse版本:   Eclipse Java EE IDE for Web Developers.   Version: Kepler Service Release 2       上述版本的Eclipse中已经包含了基本的maven插件,如果你使用的eclipse中没有,可以通过下面的地址在Eclipse Help->Install New Software 中安装:   http://m2eclipse.sonatype.org/sites/m2e       安装WTP(Web Tools Project)
最近调研了对webservice实现比较好的框架,觉得Apache的CXF不错.做了一个简单的技术预研,其中主要包括2方面:1.与Spring的集成,2.安全性方面即WS-Security首先与Spring的集成可以通过ContextLoaderListener去装配bean在WS-Security方面可以与WSS4J集成WSS4J支持多种模式:XML Security:1.XML Signature 2.XML EncryptionTokens:1.Username Tokens 2.Timestamps 3.SAML Tokens 做个了小的集成demo项目,项目的包结构如下:   ...
现象:针对某张表(下文中用A表代替)的查询速度慢了6s       简单介绍一下系统的架构:Spark + Tachyon + glusterfs+mesos,其中glusterfs负责tachyon数据的持久化,Spark从tachyon上加载数据,mesos负责Spark任务调度   通过对比分析Spark:4040
在使用SparkSQL连接关系型数据库时,需要通过JDBC来加载对应数据库的驱动,如SQLServer JDBC连接用到的sqljdbc4.jar,处理时经常会遇到sparksql抛出jdbc的驱动程序ClassNotFoundException,类似下面的错误提示       Exception in thread "main&q ...
def main(agrs: Array[String]){ //configuration and new Spark Context val conf = new SparkConf().setAppName("SparkSQL_Select_Table") .set("spark.driver.allowMultipleContexts", "true") .set("spark.sql.shuffle.partitions","12 ...
System.out.println("不知道该怎么删除这个Java代码框了"); 使用quartz框架可以完成定时任务处理即Job,比如有时候我们设置1个Job每隔5分钟执行1次,后来会发现当前Job启动的时候上一个Job还没有运行结束,这显然不是我们期望的,此时可以设置quartz中的参数,来确保Job不并发执行   1. quartz未与Spring结合 //可以通过在实现Job接口的类上加注解的方式@DisallowConcurrentExecutionpublic class TestJob implements Job{ @Override publi ...
dataFrame.registerTempTable(tableName);  最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时,效率上是否会有很大的差距,也对DataFrame注册成临时表到底做了哪些比较好奇,拿来源码拜读了下相关部分,记录一 ...
用Maven来管理代码的依赖包,这种方式还是不错的,jar包的依赖关系及下载都由Maven替我们完成,很方便   用Maven构建依赖包的主要步骤: 1.双击Pom.xml 在Dependencies选项卡中点击add, 输入对应信息后点击确定     2. 切换到Dependencies Hierarchy会发现自动下载了json-lib的依赖包       3. 在项目的build path中点击添加库,选择Maven Managed Dependencies,下一步, 点击Maven Project Setting  在Active Maven Profi ...
什么是sqoop? 关于发音,困扰了我很久,一番类比之后,决定读为“丝库坡”,英语老师看见了会不会疯掉,呵呵,我就是这样一个逗x。   书归正传:Sqoop【SQL-To-Hadoop】是将关系型数据库的数据(MySQL or Oracle or Postgre)导入到HDFS及其子系统中(Hive, HBase)的工具   sqoop有两个版本,sqoop1和sqoop2,两者特性不同,本文仅介绍sqoop1的使用,其实是精力有限   sqoop1.4.5的搭建过程如下: 1. 软件的版本: hadoop-1.0.3zookeeper-3.4.4hbase-0.94.0s ...
Global site tag (gtag.js) - Google Analytics