- 浏览: 1183831 次
- 性别:
- 来自: 北京
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
文章列表
hive的distribute by应用
- 博客分类:
- hive
hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。
对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。
hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds
hive> insert overwrite local directory ‘/home/hj ...
hive的sort by应用
- 博客分类:
- hive
在hive中不光有order by操作,还有个sort by操作。两者执行的都是排序的操作,但有存在很大的不同。还是用上次order by的例子来说明。
测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds
hive> select * from test09 sort by id;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks not specified. Def ...
hive的order by应用
- 博客分类:
- hive
hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。
hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstrict。这个两个值对order by的执行有着很大的影响。
测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds
我们先来看看nonstrict的情况。
hive> set h ...
solr是如何存储索引的
- 博客分类:
- solr研究
我发现一直理解错了,我一直以为分布式索引和分布式搜索是两个不同的事情,其实是一样的.把索引分布在多台计算机上,不就是正好实现了分布式搜索吗?既然索引已经分布式存储了,,因为搜索就是基于索引的,那搜索就自然是分布式的啦。.前面看网上一些理解,一直以为分布式索 引和分布式搜索是两个独立分开的过程,不知道理解的对不对?
调研了一下,发现索引文件的数据结构相当复杂,这个好像是每提交一次建索引,就会将以前已生成的索引重新组织,而且还会生成新文件,所以如果采用在HDFS中追加写索引文件,那工作量将相当大,必须清楚了解索引文件数据结构及索引文件关联,下面有三篇对lucene索引结构的分析,我是没怎么 ...
网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。一个爬虫要做的事主要有以下这些
从一个网页 ...
最近在找工作,利用时间把jvm好好研究下,以前自己只是知道一点内存溢出,通常抛出OutOfmerry等等异常,印象中知道要改动-Xmx:*** 和-Xms这两个参数。其实它们里卖的药还挺深的,夜已经很深了快24:00了,今天先看个头,随后几篇文章会有更详细的阐述!
紧接着昨天的一篇文档写下去。nutch-1.2结合hadoop搜索,在高并发的情况下,搜索的速度如何提升。
1、其实通过看nutch-1.2中的NutchBean源码程序不难发现,它在搜索的时候,有几个实现类,RPCSearchBean、DistributedSearchBean、SolrSearchBean。在RPCSearchBean中还有LuceneSearchBean,和NutchBean.这里我是使用的NutchBean.在搜索过程中,发出一个search的请求,hadoop接受到这个请求后,会从各个的slaves节点上收集信息,然后返回给master。master返回给nutch. ...
nutch-1.2结合hadoop分布式搜索
- 博客分类:
- nutch
nutch-1.2结合hadoop分布式搜索。
1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的,我这里也给一个连接<<nutch分布式搜索配置>>
2、在这里主要想写下工作过程当中遇到的一些问题:
------0-------
------1-------
------2-------
------3-------
java.io.IOException: Filesystem closed
at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java: ...
时至今日,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论 ...
进入 $hadoop_home vi conf/core-site.xml
之前的配置是hdfs://192.168.10.145:9060
但是在hive命令行下面查询一直出错:错误信息如下:
FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - check filesystem config (null))
java.lang.RuntimeException: Error while making MR scratch directory - ...
一、环境
Hadoop 0.20.2、JDK 1.6、Linux操作系统
二、背景
上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondarynamenode配置也是在这个机器上(默认的,没改过)。不过万幸的是这个集群是测试环境,所以问题不大。借这个缘由,我将secondarynamenode重新配置到其他机器上,并做namenode挂掉并恢复的测试。
三、操作
1、关于secondarynamenode网上有写不错的文章做说明,这里我只是想说关键一点,它不是 ...
一、作用
1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示:
map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3)
2、combiner还具有类似本地的reduce功能.
例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:map: (K1, V1) → list(K2, V2) combine: (K ...
一、环境
1、hadoop 0.20.2
2、操作系统Linux
二、背景
1、为何使用Partitioner,主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。
2、结果能够直观,同时做到对数据结果的简单的统计分析。
三、实现
1、输入的数据文件内容如下(1条数据内容少,1条数据内容超长,3条数据内容正常):kaka 1 28hua 0 26chao 1tao 1 22mao 0 29 22
2、目的是为了分别输出结果,正确的结果输出到一个文本,太短的数据输出到一个文本,太长的输出到一个文本,共三个文本输出。
3、代码如下:import org.apach ...
hadoop如何添加节点
- 博客分类:
- hadoop
1.部署hadoop 和普通的datanode一样。安装jdk,ssh 2.修改host 和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 4.在新节点的机器上,启动服务
Java代码
[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode
[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker
...
Hbase使用已经安装的zookeeper
- 博客分类:
- 云计算
.修改conf/hbase-env.sh,添加jdk支持
Java代码
export JAVA_HOME=/usr/local/jdk
export HBASE_MANAGES_ZK=false
export JAVA_HOME=/usr/local/jdk
export HBASE_MANAGES_ZK=false
2.拷贝zookeeper的配置文件zoo.cfg到HBase的CLASSPATH(官方推荐的方式 ...