hive的distribute by应用

博客分类：

hive

hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，根据reduce的个数进行数据分发，默认是采用hash算法。对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。 hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds hive> insert overwrite local directory ‘/home/hj ...

2011-08-23 17:08
浏览 27812
评论(0)
分类:开源软件

hive的sort by应用

博客分类：

hive

在hive中不光有order by操作，还有个sort by操作。两者执行的都是排序的操作，但有存在很大的不同。还是用上次order by的例子来说明。测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds hive> select * from test09 sort by id;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks not specified. Def ...

2011-08-23 17:02
浏览 1689
评论(0)
分类:开源软件

hive的order by应用

博客分类：

hive

hive中的order by也是对一个结果集合进行排序，但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。 hive的参数hive.mapred.mode是控制hive执行mapred的方式的，有两个选项：strict和nonstrict，默认值是nonstrict。这个两个值对order by的执行有着很大的影响。测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds 我们先来看看nonstrict的情况。 hive> set h ...

2011-08-23 16:56
浏览 6833
评论(0)
分类:开源软件

solr是如何存储索引的

博客分类：

solr研究

我发现一直理解错了，我一直以为分布式索引和分布式搜索是两个不同的事情，其实是一样的.把索引分布在多台计算机上，不就是正好实现了分布式搜索吗?既然索引已经分布式存储了，,因为搜索就是基于索引的，那搜索就自然是分布式的啦。.前面看网上一些理解，一直以为分布式索引和分布式搜索是两个独立分开的过程，不知道理解的对不对? 调研了一下，发现索引文件的数据结构相当复杂，这个好像是每提交一次建索引，就会将以前已生成的索引重新组织，而且还会生成新文件，所以如果采用在HDFS中追加写索引文件，那工作量将相当大，必须清楚了解索引文件数据结构及索引文件关联，下面有三篇对lucene索引结构的分析，我是没怎么 ...

2011-08-15 22:43
浏览 21476
评论(2)
分类:行业应用

谈谈爬虫的设计

博客分类：

我的随笔

网络蜘蛛现在开源的已经有好几个了，Larbin，Nutch，Heritrix都各有用户之地，要做一个自己的爬虫要解决好多个问题，比如调度算法、更新策略、分布式存储等，我们来一一看一下。一个爬虫要做的事主要有以下这些从一个网页� ...

2011-08-07 22:27
浏览 2318
评论(1)
分类:编程语言

jvm研究第一篇

博客分类：

jvm

最近在找工作，利用时间把jvm好好研究下，以前自己只是知道一点内存溢出，通常抛出OutOfmerry等等异常，印象中知道要改动-Xmx:*** 和-Xms这两个参数。其实它们里卖的药还挺深的，夜已经很深了快24:00了，今天先看个头，随后几篇文章会有更详细的阐述！

2011-08-03 00:01
浏览 1389
评论(0)
分类:行业应用

nutch-1.2在搜索HDFS过程中高并发的处理

紧接着昨天的一篇文档写下去。nutch-1.2结合hadoop搜索，在高并发的情况下，搜索的速度如何提升。 1、其实通过看nutch-1.2中的NutchBean源码程序不难发现，它在搜索的时候，有几个实现类，RPCSearchBean、DistributedSearchBean、SolrSearchBean。在RPCSearchBean中还有LuceneSearchBean，和NutchBean.这里我是使用的NutchBean.在搜索过程中，发出一个search的请求，hadoop接受到这个请求后，会从各个的slaves节点上收集信息，然后返回给master。master返回给nutch. ...

2011-07-14 17:17
浏览 998
评论(0)
论坛回复 / 浏览 (0 / 1838)
分类:行业应用

nutch-1.2结合hadoop分布式搜索

博客分类：

nutch

nutch-1.2结合hadoop分布式搜索。 1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的，我这里也给一个连接<<nutch分布式搜索配置>> 2、在这里主要想写下工作过程当中遇到的一些问题： ------0------- ------1------- ------2------- ------3------- java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java: ...

2011-07-13 10:50
浏览 2659
评论(0)
论坛回复 / 浏览 (0 / 2554)
分类:行业应用

大数据量的走向趋势

博客分类：

新闻

时至今日，“Bigdata”（大数据）时代的来临已经毋庸置疑，尤其是在电信、金融等行业，几乎已经到了“数据就是业务本身”的地步。在这其中，还挟裹着一个更为重要的趋势，即数据的社会化（Socialization of Data）。从博客论� ...

2011-07-08 10:26
浏览 1481
评论(0)
分类:非技术

hive执行查询出现：Error while making MR scratch directory - check filesystem解决办法

博客分类：

hive

进入 $hadoop_home vi conf/core-site.xml 之前的配置是hdfs://192.168.10.145:9060 但是在hive命令行下面查询一直出错：错误信息如下： FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - check filesystem config (null)) java.lang.RuntimeException: Error while making MR scratch directory - ...

2011-07-07 15:34
浏览 1882
评论(0)
论坛回复 / 浏览 (1 / 5237)
分类:开源软件

secondarynamenode配置使用总结

博客分类：

hadoop

一、环境 Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候，由于操作系统的原因，导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是，出问题的机器就是Master。当时心里就凉了半截，因为secondarynamenode配置也是在这个机器上（默认的，没改过）。不过万幸的是这个集群是测试环境，所以问题不大。借这个缘由，我将secondarynamenode重新配置到其他机器上，并做namenode挂掉并恢复的测试。三、操作 1、关于secondarynamenode网上有写不错的文章做说明，这里我只是想说关键一点，它不是 ...

2011-07-07 08:37
浏览 7549
评论(0)
分类:行业应用

Map/Reduce中的Combiner的使用

博客分类：

hadoop

一、作用 1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示： map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3) 2、combiner还具有类似本地的reduce功能. 例如hadoop自带的wordcount的例子和找出value的最大值的程序，combiner和reduce完全一致。如下所示：map: (K1, V1) → list(K2, V2) combine: (K ...

2011-07-07 08:36
浏览 4762
评论(0)
分类:行业应用

Map/Reduce中的Partiotioner使用

博客分类：

hadoop

一、环境 1、hadoop 0.20.2 2、操作系统Linux 二、背景 1、为何使用Partitioner，主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。 2、结果能够直观，同时做到对数据结果的简单的统计分析。三、实现 1、输入的数据文件内容如下(1条数据内容少，1条数据内容超长，3条数据内容正常)：kaka 1 28hua 0 26chao 1tao 1 22mao 0 29 22 2、目的是为了分别输出结果，正确的结果输出到一个文本，太短的数据输出到一个文本，太长的输出到一个文本，共三个文本输出。 3、代码如下：import org.apach ...

2011-07-07 08:35
浏览 1869
评论(0)
分类:行业应用

hadoop如何添加节点

博客分类：

hadoop

1.部署hadoop 和普通的datanode一样。安装jdk，ssh 2.修改host 和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 4.在新节点的机器上，启动服务 Java代码 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker ...

2011-07-06 12:43
浏览 1489
评论(0)
分类:行业应用

Hbase使用已经安装的zookeeper

博客分类：

云计算

.修改conf/hbase-env.sh，添加jdk支持 Java代码 export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=false export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=false 2.拷贝zookeeper的配置文件zoo.cfg到HBase的CLASSPATH（官方推荐的方式 ...

2011-07-06 12:42
浏览 1822
评论(0)
分类:行业应用

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive的distribute by应用

hive的sort by应用

hive的order by应用

solr是如何存储索引的

谈谈爬虫的设计

jvm研究第一篇

nutch-1.2在搜索HDFS过程中高并发的处理

nutch-1.2结合hadoop分布式搜索

大数据量的走向趋势

hive执行查询出现：Error while making MR scratch directory - check filesystem解决办法

secondarynamenode配置使用总结

Map/Reduce中的Combiner的使用

Map/Reduce中的Partiotioner使用

hadoop如何添加节点

Hbase使用已经安装的zookeeper

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>