- 浏览: 150894 次
- 性别:
- 来自: 上海
最新评论
-
luyee2010:
每个doc多大?多少个字段?
ElasticSearch导入测试 -
zhanlanlubai921:
楼主你优化后,索引速度最高能达到每秒多少记录
ElasticSearch优化的一些方法 -
weiwei566716:
做成公共服务的话,别的应用调用的话,应该怎么设计?如果通过接口 ...
一个实时数据服务平台的设计和实现 -
di1984HIT:
写的不错~~~
Hadoop 启动节点Datanode失败 -
zhuxiaoxiaoup:
你好,看您讲解的很专业,现在遇到了几个问题,您若知道的话还请不 ...
Shark: Real-time queries and analytics for big data
文章列表
今天是2014年最后一天,年三十,做个总结,总结一下2014年做过的事。
1.数据仓库计算平台升级
a.将数据表格式改为LZO压缩模式,历史数据压缩,数据压缩比为30%,节省了大量的存储空间
b.Hive整体升级至0.11版本
c.数据仓库服务 ...
背景
在这个项目之前,也做过一个准实时的项目,大约延时10分钟左右,但是对业务单位的数据有要求,需要提供数据变化表,采用批量方式抽取,通过仓库调度系统控制任务顺序和数据流向。存在的问题:需要业务方做配 ...
1. 多线程程序插入,可以根据服务器情况开启多个线程index
速度可以提高n倍, n>=2
2. 如果有多台机器,可以以每台设置n个shards的方式,根据业务情况,可以考虑取消replias
curl -XPUT 'http://10.1.*.*:9200/dw-search/' -d '{
"settings& ...
最近有点空,又看了看之前写的ES导入的测试记录,干脆整理一下,看是否能给大家一点参考和借鉴。
采用的是bulkindex方式,实际上就是把index操作作为prepareIndex,扔到bulkRquest中,等积累到一定数量的时候再统一提交,这样的目的无非就是为了效率。
测试服务器
4*2 = 8核 2.13G, 4G*4=16G, 硬盘6T 一共4台。
测试用例
1. Case 1
Index:5shards, 复制一份数据
数据:200万数据,每条数据200个字节
A: 200 ...
春节后上班第一天,总结一下2013年做的事情。
1.Hadoop平台
2013Q1 HADOOP集群做了一次升级,增加一批机器,计算能力增加100%,存储能力增加70%;
2013Q2精简了之前的冗余的分区方式,之前不知道什么原因,hdfs除了按日期分partition, 还有两级目录,导致namenode内存有些吃紧,经过精简这两级目录之后,减少了约60%目录、文件,内存占用减少了70%,增强了平台稳定性
优化了调度策略,平台调度能力增强60%,内存占用减少为原来的20%,报表统计计算提早5小时完成
Hive增加权限管理,普通用户只有只读权限, 增加了平台数据安全性;
文件压缩完成了一部分, ...
系统上线两年多了,最近发现任务积压严重,当然与任务越来越多有关系,但也不能放任不管。
然后开始找原因,通过看日志,发现JT占用的内存挺大,虽然我内存给的20g,但也不能吃住不放啊,导致服务器LOAD值也有点偏高,所以断定是出在JT这里。
1.mapred.jobtracker.completeuserjobs.maximum
默认100
The maximum number of complete jobs per user to keep around before delegating them to the job history.
任务被扔到历史作业文件之前完成的任务最大数,也就是说每 ...
Shark本地安装
1.下载scala
wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz
最新有2.10.2.tgz文件
tar xvfz scala-2.9.3.tgz
2.下载shark and hive压缩包
wget http://spark-project.org/download/shark-0.7.0-hadoop1-bin.tgz (cdh3)
tar xvfz shark-0.7.0-*-bin.tgz
3. 配置环境变量
cd shark-0.7.0/conf
cp shark-env.sh.tem ...
Shark大数据实时查询分析利器
Shark SQL查询比Hive快100倍,机器学习比Hadoop快100倍
作者是Ben Lorica 2012-07-27
Ben Lorica的是O'Reilly Media公司的首席数据科学家,他致力于包括直销,消费者和市场的研究,有针对性的广告,文本挖掘,金 ...
内容来自Reynold Xin
Berkeley的博士,此人领导了Shark的开发(在加州伯克利分校AMP实验室)。
本文只做翻译,不对两个系统的优劣做评价。
总体上
Shark扩展了Apache Hive,大大加快在内存和磁盘上的查询。而Impala是企业级数据仓库系统, 可以很好地使用Hive/ HDFS,从架构层来说,类似于传统的并行数据库。这两个系统有着很多共同的目标,但也有很大差异。
与现有系统的兼容性
Shark直接建立在Apache/Hive代码库上,所以它自然支持几乎所有Hive特点。它支持现有的Hive SQL语言,Hive数据格式(SerDes),用户自定义函数(UDF) ...
当facet时数据返回数字不对,或者出现异常,不做facet不报错,百思不得其解,在独立的index下建index type,facet也不报错。
QueryPhaseExecutionException[[dn][2]: query[ConstantScore(NotDeleted(cache(_type:dn_character_glory)))],from[0],size[1]: Query Failed [Failed to execute main query]]; nested: NumberFormatException[Invalid shift value in prefixC ...
1. ik
现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3
在elasticsearch/plugins目录下建analysis-ik目录
然后直接下载安装包
https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/analysis-ik
cd plugins
mkdir analysis-ik
cd analysis-ik
wget https://github.com/medcl/elasticsearch-rt ...
重新启动之前坏掉的一个节点的Datanode,发现进程没有启动成功。查看相应日志,
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOException: verifyNodeRegistration: unknown datanode wh-9-132:50010
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.verifyNodeRegistration(FSNames ...
集群出现大面积任务失败,表现为mapreduce刚启动不久,就抛出异常,查看log可以看到,
Status : FAILED
java.lang.Throwable: Child Error
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)
Caused by: java.io.IOException: Task process exit with nonzero status of 1.
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258)
...
用hadoop0.20版本做hbase的bulk load测试,发现importtsv的过程出现些问题,关于importtsv网上有很多资料,这里不待言表。
先大概表述出现的问题,
当使用两步的方式导入数据时,
第一步,生成hfile
hadoop jar hbase-version.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,c1,c2 -Dimporttsv.bulk.output=tmp hbase_table hdfs_file
这一步提醒两个地方,c1,c2列是需要指明列族和列名,例如:cf:1,cf:2,
...
测试环境
Redis测试版本:2.2.12
使用Java Jedis客户端进行测试
测试数据量:50万, 超过2亿
速度
1) mset函数插入效率最高,插入Redis的速度达到20万条数据/秒。但是该函数所耗内存较高,对于我们实际应用一表每天2.4亿的数据量来说,需要消耗近32G内存;
2) mset函数中当m值达到200以上时,插入速度接近饱和,因此实际应用中,应设定该值 >= 200,以达到最高的插入效率;
3) set函数除非特定应用场景需求,否则应尽量不要使用,其插入效率为mset函数的1/20;
4) 尽管不同的函数都有string与byte[]两种不同的形式,但是对于Red ...