- 浏览: 97124 次
- 性别:
- 来自: 南京
最新评论
-
suxain:
解决了我弄了一天的编码问题啊呀!
java utf8字符 导出csv 文件的乱码问题。 -
27g:
11/10/28 15:40:06 INFO mapred.J ...
记zookeeper 扰动导致HBase的一次不可用 -
杨俊华:
sunwt 写道想问一下csv怎么解决excel打开65535 ...
java utf8字符 导出csv 文件的乱码问题。 -
sunwt:
想问一下csv怎么解决excel打开65535的问题?谢谢
java utf8字符 导出csv 文件的乱码问题。 -
torry_1979:
这个和操作系统有关系,和有ue的也有关系。有些utf8的文本就 ...
java utf8字符 导出csv 文件的乱码问题。
文章列表
这个对测试和运维drill run还是很有帮助的
Linux has a nifty way of allowing disk state modification via /sys/ interface. Very useful when debugging LVM mirroring, disk disaster recovery etc.
To put a SATA disk offline/running:echo offline > /sys/block/sda/device/stateecho running > /sys/block/sda/device ...
Ganglia Web 2 (gweb2) 是全新的ganglia php UI。
这里,记录安装的一些注意事项。
1. 安装pecl
yum install php-pecl-json.i386
2. 安装json php
pecl install json
3. 安装php-gd
yum install php-gd.i386
4.下载ganlia-web-2, http://ganglia.info/downloads/testing/.
5 centos下,解压到 /var/www/html/ganglia2 , ubuntu解压到 /var/www/ganglia2
6. 手 ...
你有没有觉得eclipse的启动和运行很慢,而且时常卡,卡,卡。如果你没有觉得。你真是个耐心的人。
这一切都归结于eclipse
jvm的配置上。 Eclipse是java写的。Java写的不调整JVM,就是用最保守的参数运行。自然很慢。
Eclipse的配置文件在eclipse安装目录下的eclipse.ini文件里面。
建议将配置修改为
-startup
plugins/org.eclipse.equinox.launcher_1.0.201.R35x_v20090715.jar
--launcher.library
plugins/org.ec ...
什么是Speculative Execution
所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务哪个先执行完就把另外一个kill掉,这也是我们经常在Job Tracker页面看到任务执行成功,但是总有些任务被kill,就是这个原因。
mapred.map.tasks.speculative.execution=true
...
HBase运维过程中,最大的问题除了自己一些bug外,就是网络的延迟。这种延迟会导致hadoop的append的timeout,本来只是一个小事,但是会导致HBase因为无法append WAL log 退出。
而这次遇到的却是zookeeper的问题。
我们的集群里面有3台zookeeper。首先lead(A) 和其中的一台follower B(xx.xx.xx.85)连接出现异常,而这台zookeeper的follower B之后退出。
2011-08-01 03:28:30,013 [LearnerHandler-/xx.xx.xx.85:48270] ERROR org.apa ...
一大早过来,有RegionServer挂了。
查看log,显示
2011-09-25 22:31:51,185 [main-SendThread(XXX:2181)] INFO org.apache.zookeeper.ClientCnxn: Unable to read additional data from server sessionid 0x30694969fba6a9, likely server has closed socket, closing socket connection and attempting reconnect
很明晰,连不上zookeeper了 ...
新来的一个工程师不懂HBase,java不熟,python还行,我建议他那可以考虑用HBase的thrift调用,完成目前的工作。
首先,安装thrift
下载thrift,这里,我用的是thrift-0.7.0-dev.tar.gz 这个版本
tar xzf thrift-0.7.0-dev.tar.gz
cd thrift-0.7.0-dev
sudo ./configure --with-cpp=no --with-ruby=no
sudo make
sudo make install
然后,到HBase的源码包里,找到
src/main/resources/org ...
之前装了Centos 6.0 32bit在PowerEdge R510的牛机上,结果,64GB的内存只认了16GB。不知道大家有没有遇到相同的问题。
后来只好降级到centos 5.6 了。 PAE自动识别的。所以,现在centos 6.0还是先别用了。
一个同事遇到utf-8 导出到csv文件时出现乱码。
上网查了一下,需要一个BOM头。MS的东西就是麻烦。
加上头,问题解决。
现在把参考代码贴出来,也留个记录。
这只是在同事测试代码上面改的。
所以写起来比较随意。见谅。
private static void writeBcp( ) throws IOException
{
//Create bcp file if not exist
File bcpFile = new File("test.csv");
...
HBase自带的export/import机制可以实现Backup Restore功能。而且可以实现增量备份。 下面设增量备份的python脚本 在这个脚本中,每天做增量备份,每个月15日做全备份。
import time
import datetime
from datetime import date
import sys
import os
tablename=sys.argv[1]
backupDst=sys.argv[2]
today=date.today()
if today.day == 15: //every month, we do a ful ...
1. 如何发现问题
在我们的集群中,HBase的错误是通过splunk和nagio的报警机制报告的。当service出现异常,如退出,crash,master/regionserver 抛出异常等,管理员都会收到消息。
2. 问题跟踪方法
在http://hbase.apache.org/book.html#trouble.general中,HBase给出了处理问题的一般思路。
1. 将exception直接到Google或者search-hadoop.com 搜索。Google是工程师离不开的工具啊。
2. HBase的问题往往不会是独立的。在日志中可以发现很多exception,最直接的方 ...
Hadoop 源代码分析(1)overview
http://caibinbupt.javaeye.com/blog/262412
Hadoop 源代码分析(2)package
http://caibinbupt.javaeye.com/blog/270378
Hadoop 源代码分析(3)org.apache.hadoop.io
http://caibinbupt.javaeye.com/blog/277640
Hadoop 源代码分析(4)
Hadoop 源代码分析(5)org.apache.hadoop.rpc
http://caibinbupt.javaeye.com/blog/2 ...
为我们的爬虫程序写了个adapter。可是发现adapter存下来的东西比测试脚本dump的文件要少,甚至少了好几G。
之前的测试上看来,不应该有这样的问题。
看了日志,发现后来由于加了断点续传,好多URL只down下来一部分。由于adapter只会将完全download下来的文件存下来。那些断点续传的部分结果,会被dump出来,但是不会被adapter存储。
为了证明这一点,我需要在茫茫日志中搜索了。
先肯定是grep了。
grep " Try to resume a url" honey_crawler.log > resume |cat resume
打印出来 ...
今天看了一篇博文,烧掉十亿美元的捷径:忽略用户体验(沃尔玛案例研究)http://www.36kr.com/ignore-ux-to-lose-a-bn/,很有启发。
其实我们现在很多的工作和沃尔玛有类似之处。
有些QA完全将终端的那些测试方法,放到云端的测试case,很容易就远离客户需求,设计出一些完全不现实的case出来。
这些,都要拜一些软件测试教科书所赐。作为后台的Service产品,如果还按照一般传统的PC机器的产品测试方法,将一大堆的边界测试放进去,开发人员会累死。而且,毫无用途。
为什么?
你的用户,是一些有着丰富经验的DBA,Opera ...