- 浏览: 283690 次
- 性别:
- 来自: 广州
最新评论
-
jpsb:
...
为什么需要分布式? -
leibnitz:
hi guy, this is used as develo ...
compile hadoop-2.5.x on OS X(macbook) -
string2020:
撸主真土豪,在苹果里面玩大数据.
compile hadoop-2.5.x on OS X(macbook) -
youngliu_liu:
怎样运行这个脚本啊??大牛,我刚进入搜索引擎行业,希望你能不吝 ...
nutch 数据增量更新 -
leibnitz:
also, there is a similar bug ...
2。hbase CRUD--Lease in hbase
文章列表
今天在设置环境变量时,发现了一个很诡异的地方:
当我修改了变量后,进行source后,再执行命令,发现还是用旧的命令来执行。
跟下去发现,当用env时,当中的PATH变长了,而且刚设置的新变量附到最后。对了!就是这样ubuntu下如果PATH下有相同的shell-file时,它只对最初的file有效,而我设置PATH=$new-property:$PATH,所以造成了这样的結果。
小结:
-在环境变量设置中要将原来的变量名称附加到最后,而不是最前;
-使用source后,它会依据当前的变量k-v值添加到访k中。如
p1=$new-val:$p1
它会将上次的p ...
open the bin/hadoop file,you will see the there is a config file to load:
either libexec/hadoop-config.sh or bin/hadoop-config.sh
and the previor is loaded if exists,else the load the later.
you will see the HADOOP_HOME is same as HADOOP_PREFIX at last:
export HADOOP_HOME=${HADOOP_PREFIX}
...
出于工作需要及版本更新带来的变动,现在开始再次进入源码空间-hadoop-1.0.1
这次阅读的目的有这几个:
-比较全面的阅读整体代码,清楚大体的工作流程,各部件的连接与交互 ;
-common的改动及主要职责;
-config/shell 的启动流程;
-hdfs具体的设计及实现;
-mapreduce的詳細设计及实现;
-ipc詳細实现
-others
其实在这里做总结也是挺有帮助的,可以加深印象。以前面试时就是因为在这里做了小结,所以在才记忆比较清楚。
希望在1-2月内把它搞完。
hbase本身已经提供了实时查询功能了,如bloom filters等.如果加入mr的话,那么好处是什么呢?
如果使用mr对hbase中的数据进行非实时性的统计分析,这是可行的,但这样已经有了替代方案:hive.
这正如pig基于hadoop一样,将mr的业务抽取出来了.
references:
http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=7&t=2320
用MR(MapReduce)查询hbase数据-用到TableMapper和Scan
...
如坐车网中的最优坐车路线一样,本质就是探寻最短径距.即最小生成树生成问题.
当然坐车网中得出結果后还要进行车辆换乘问题,但这更易了.
prim算法
一个V set来存放结点,E set存放边.每次从树中选取V的最近邻,形成的一条边,但条件是与E中的不能有loop.
如此循环,直到 | E | = n - 1,n为顶点数.(如果直接使用数学表达式来表达是非常严谨的,也不容易知道.还是通过例子才容易理解)
特点:
a.結果不唯一,因为当遇到相同权值时情况;
b.由于a的出现,使得結果可能陷入局部最小值,即非所谓的'最小'生成树.但事实上这算法是有可能的.
c ...
是的,干IT这一行需要有一种强烈的意识:技术是日新月异的,必须保持对前沿技术的兴趣和研究。
否则,你要么做管理方面吧,或者被淘汰。
我在想,当前有很多漂亮的技术框架,工具等,如何事事无大小,不求方法和效 ...
whereis <程序名称>
查找软件的安装路径
-b 只查找二进制文件
-m 只查找帮助文件
-s 只查找源代码
-u 排除指定类型文件
-f 只显示文件名
-B <目录> 在指定目录下查找二进制文件
-M <目录> 在指定目录下查找帮助文 ...
hadoop 联合 join操作
- 博客分类:
- hadoop
hadoop join操作类似于sql中的功能,就是对多表进行取子集并合并一起。其中有很多工具已经可用,如pig,hive,cascading.
map端联接
reduce端联接
同样,就 是联接处理时在reduce端。那么有哪些步骤呢?(讨厌原书的翻译者把它译作几种方法!)
1.由于在reduce端处理,必须会考虑到多输入问题,即多表。于是MultiInputs必须的;
2.排序,分组。因为先排序,这样在处理时就可以为分组服务了,而分组是最終目标,即将相同key所附属的values连接起来。
由于书本上没有说明排序,搞得我以为按它说的直接使用seco ...
二年前的话没落空
- 博客分类:
- free talking
记得前年说过,如果搞不起搜索,以后再也不接触搜索。甚至说过,如果搞不好,以后再不搞技术了。。
但今天,在类似GOOGLE的架构技术上看,目的达到,也不枉这二年的心血。
接下来的情况要看今天年中的情况再定怎样搞,期待有个好的結果。
boy,god will bless you~~
see also:
回广州了,再战江湖
1。这是最简单的一种布署方式,通常用于简单测试。
2.当过索引大小超过一台机器时,应该使用cluster方式。
see also:
nutch 分布式搜索-cluster-hdfs index
3。虽然2中解决了数据量大的问题,但没解决快速搜索的目的。
see also:
nutch 分布式搜索-cluster-hdfs index
4.在3的基础上进一步进行优化。当然 个人认为这是最高效的搜索方式,当然了,这种方式可能带来的问题是维护比较困难。但我认为这是可以解决的。
see also:
nutch 分布式搜索-c ...
在map reduce框架中,除了常用的分布式计算外,排序也算是比较重要的一环了。这形如sql查询中的排序数据一样重要。
一。无排序
当书写code 时,如果指定了mapred.reduce.tasks=0(same effect as setNumReduceTasks)。这样便达到目的。
产生的效果当然是只有一个part file,而且其中的entries是unorder.
二。默认排序(sort only in partition)
其实这也称”局部排序“。这种情况是产生若干个part files,并且各file内部是排序好的,但file之间没有内容排序之 ...
在整个crawl->recrawl后,其实作为搜索的文件夹只有两个:
* index(indexes) :提供搜索,和获取details信息(其实它也是通过 lucene doc fields来得到)。如title,url,last-modified,cache等等。
* segments : 提供summary即页面的描述,也就 是pa ...
今天在执行shell时出现了奇怪的现象,同样的脚本在之前leibnitz下正常,但在vm下执行时提示:bad loop variable。
以下是語句:
for((i=0;i<10;i++))
...
网站提示说要用dash执行,于是我在sh中添加了:#!/bin/bash,結果一样不行。
后来想到执行时我是用sh file执行的,于是改用了./file,灵了。
置于网站上说的sudo dpkg-reconfigure dash我倒没试过,影响启动速度 ?
see
http://www.ubuntu-tw.org/modules/newbb/viewtopi ...
今天在nutch配置分布式搜索时出现搜索不到結果,背景是:
用hadoop账号建立了索引,但使用xx账号时搜索不到。奇怪的是我在mr plugin下,使用xx账号却可以访问正常。
刚开始以为是conf下文件不对,但后来将整个tomcat布署在hadoop下却有結果,所以判断不是配置问题。
转而怀疑是不同账号hadoop平台有没有做限制。如果是真的,为什么mr plugin下可以访问正常?
原来,plugin下是先连上,然后通过点击目录来访问files;
然而在nutch-site.xml下我使用了相对路径,crawl/xxx,这样访问时hadoop会以当前user name为开始 ...