`
zhousheng29
  • 浏览: 150894 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表

2014年总结

今天是2014年最后一天,年三十,做个总结,总结一下2014年做过的事。 1.数据仓库计算平台升级 a.将数据表格式改为LZO压缩模式,历史数据压缩,数据压缩比为30%,节省了大量的存储空间 b.Hive整体升级至0.11版本 c.数据仓库服务 ...
背景     在这个项目之前,也做过一个准实时的项目,大约延时10分钟左右,但是对业务单位的数据有要求,需要提供数据变化表,采用批量方式抽取,通过仓库调度系统控制任务顺序和数据流向。存在的问题:需要业务方做配 ...
1. 多线程程序插入,可以根据服务器情况开启多个线程index 速度可以提高n倍, n>=2 2. 如果有多台机器,可以以每台设置n个shards的方式,根据业务情况,可以考虑取消replias curl -XPUT 'http://10.1.*.*:9200/dw-search/' -d '{     "settings& ...
      最近有点空,又看了看之前写的ES导入的测试记录,干脆整理一下,看是否能给大家一点参考和借鉴。       采用的是bulkindex方式,实际上就是把index操作作为prepareIndex,扔到bulkRquest中,等积累到一定数量的时候再统一提交,这样的目的无非就是为了效率。       测试服务器       4*2 = 8核 2.13G, 4G*4=16G, 硬盘6T 一共4台。       测试用例       1. Case 1       Index:5shards, 复制一份数据       数据:200万数据,每条数据200个字节       A: 200 ...

迟来的2013总结

春节后上班第一天,总结一下2013年做的事情。 1.Hadoop平台 2013Q1 HADOOP集群做了一次升级,增加一批机器,计算能力增加100%,存储能力增加70%; 2013Q2精简了之前的冗余的分区方式,之前不知道什么原因,hdfs除了按日期分partition, 还有两级目录,导致namenode内存有些吃紧,经过精简这两级目录之后,减少了约60%目录、文件,内存占用减少了70%,增强了平台稳定性 优化了调度策略,平台调度能力增强60%,内存占用减少为原来的20%,报表统计计算提早5小时完成 Hive增加权限管理,普通用户只有只读权限, 增加了平台数据安全性; 文件压缩完成了一部分, ...
系统上线两年多了,最近发现任务积压严重,当然与任务越来越多有关系,但也不能放任不管。 然后开始找原因,通过看日志,发现JT占用的内存挺大,虽然我内存给的20g,但也不能吃住不放啊,导致服务器LOAD值也有点偏高,所以断定是出在JT这里。 1.mapred.jobtracker.completeuserjobs.maximum 默认100 The maximum number of complete jobs per user to keep around before delegating them to the job history. 任务被扔到历史作业文件之前完成的任务最大数,也就是说每 ...
Shark本地安装 1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/shark-0.7.0-hadoop1-bin.tgz (cdh3) tar xvfz shark-0.7.0-*-bin.tgz 3. 配置环境变量 cd shark-0.7.0/conf cp shark-env.sh.tem ...
Shark大数据实时查询分析利器 Shark SQL查询比Hive快100倍,机器学习比Hadoop快100倍 作者是Ben Lorica  2012-07-27 Ben Lorica的是O'Reilly Media公司的首席数据科学家,他致力于包括直销,消费者和市场的研究,有针对性的广告,文本挖掘,金 ...
内容来自Reynold Xin Berkeley的博士,此人领导了Shark的开发(在加州伯克利分校AMP实验室)。 本文只做翻译,不对两个系统的优劣做评价。 总体上 Shark扩展了Apache Hive,大大加快在内存和磁盘上的查询。而Impala是企业级数据仓库系统, 可以很好地使用Hive/ HDFS,从架构层来说,类似于传统的并行数据库。这两个系统有着很多共同的目标,但也有很大差异。 与现有系统的兼容性 Shark直接建立在Apache/Hive代码库上,所以它自然支持几乎所有Hive特点。它支持现有的Hive SQL语言,Hive数据格式(SerDes),用户自定义函数(UDF) ...
当facet时数据返回数字不对,或者出现异常,不做facet不报错,百思不得其解,在独立的index下建index type,facet也不报错。 QueryPhaseExecutionException[[dn][2]: query[ConstantScore(NotDeleted(cache(_type:dn_character_glory)))],from[0],size[1]: Query Failed [Failed to execute main query]]; nested: NumberFormatException[Invalid shift value in prefixC ...
1. ik 现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3 在elasticsearch/plugins目录下建analysis-ik目录 然后直接下载安装包 https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/analysis-ik cd plugins mkdir analysis-ik cd analysis-ik wget https://github.com/medcl/elasticsearch-rt ...
重新启动之前坏掉的一个节点的Datanode,发现进程没有启动成功。查看相应日志, ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOException: verifyNodeRegistration: unknown datanode wh-9-132:50010 at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.verifyNodeRegistration(FSNames ...
集群出现大面积任务失败,表现为mapreduce刚启动不久,就抛出异常,查看log可以看到, Status : FAILED java.lang.Throwable: Child Error at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271) Caused by: java.io.IOException: Task process exit with nonzero status of 1. at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258) ...
用hadoop0.20版本做hbase的bulk load测试,发现importtsv的过程出现些问题,关于importtsv网上有很多资料,这里不待言表。 先大概表述出现的问题, 当使用两步的方式导入数据时, 第一步,生成hfile hadoop jar hbase-version.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,c1,c2 -Dimporttsv.bulk.output=tmp hbase_table hdfs_file 这一步提醒两个地方,c1,c2列是需要指明列族和列名,例如:cf:1,cf:2,              ...
测试环境 Redis测试版本:2.2.12 使用Java Jedis客户端进行测试 测试数据量:50万, 超过2亿 速度 1) mset函数插入效率最高,插入Redis的速度达到20万条数据/秒。但是该函数所耗内存较高,对于我们实际应用一表每天2.4亿的数据量来说,需要消耗近32G内存; 2) mset函数中当m值达到200以上时,插入速度接近饱和,因此实际应用中,应设定该值 >= 200,以达到最高的插入效率; 3) set函数除非特定应用场景需求,否则应尽量不要使用,其插入效率为mset函数的1/20; 4) 尽管不同的函数都有string与byte[]两种不同的形式,但是对于Red ...
Global site tag (gtag.js) - Google Analytics