`
文章列表
今天在设置环境变量时,发现了一个很诡异的地方:   当我修改了变量后,进行source后,再执行命令,发现还是用旧的命令来执行。   跟下去发现,当用env时,当中的PATH变长了,而且刚设置的新变量附到最后。对了!就是这样ubuntu下如果PATH下有相同的shell-file时,它只对最初的file有效,而我设置PATH=$new-property:$PATH,所以造成了这样的結果。   小结: -在环境变量设置中要将原来的变量名称附加到最后,而不是最前; -使用source后,它会依据当前的变量k-v值添加到访k中。如   p1=$new-val:$p1  它会将上次的p ...
open the bin/hadoop file,you will see the there is a config file to load:   either libexec/hadoop-config.sh or bin/hadoop-config.sh and the previor is loaded if exists,else the load the later.   you will see the HADOOP_HOME is same as HADOOP_PREFIX at last: export HADOOP_HOME=${HADOOP_PREFIX} ...
  出于工作需要及版本更新带来的变动,现在开始再次进入源码空间-hadoop-1.0.1   这次阅读的目的有这几个: -比较全面的阅读整体代码,清楚大体的工作流程,各部件的连接与交互 ; -common的改动及主要职责; -config/shell 的启动流程; -hdfs具体的设计及实现; -mapreduce的詳細设计及实现; -ipc詳細实现 -others   其实在这里做总结也是挺有帮助的,可以加深印象。以前面试时就是因为在这里做了小结,所以在才记忆比较清楚。 希望在1-2月内把它搞完。
hbase本身已经提供了实时查询功能了,如bloom filters等.如果加入mr的话,那么好处是什么呢?   如果使用mr对hbase中的数据进行非实时性的统计分析,这是可行的,但这样已经有了替代方案:hive. 这正如pig基于hadoop一样,将mr的业务抽取出来了.   references: http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=7&t=2320   用MR(MapReduce)查询hbase数据-用到TableMapper和Scan ...
如坐车网中的最优坐车路线一样,本质就是探寻最短径距.即最小生成树生成问题. 当然坐车网中得出結果后还要进行车辆换乘问题,但这更易了.   prim算法 一个V set来存放结点,E set存放边.每次从树中选取V的最近邻,形成的一条边,但条件是与E中的不能有loop. 如此循环,直到 | E | = n - 1,n为顶点数.(如果直接使用数学表达式来表达是非常严谨的,也不容易知道.还是通过例子才容易理解)    特点:   a.結果不唯一,因为当遇到相同权值时情况;   b.由于a的出现,使得結果可能陷入局部最小值,即非所谓的'最小'生成树.但事实上这算法是有可能的.   c ...
是的,干IT这一行需要有一种强烈的意识:技术是日新月异的,必须保持对前沿技术的兴趣和研究。 否则,你要么做管理方面吧,或者被淘汰。   我在想,当前有很多漂亮的技术框架,工具等,如何事事无大小,不求方法和效 ...
whereis <程序名称> 查找软件的安装路径 -b 只查找二进制文件 -m 只查找帮助文件 -s 只查找源代码 -u 排除指定类型文件 -f 只显示文件名 -B <目录> 在指定目录下查找二进制文件 -M <目录> 在指定目录下查找帮助文 ...
hadoop join操作类似于sql中的功能,就是对多表进行取子集并合并一起。其中有很多工具已经可用,如pig,hive,cascading.   map端联接     reduce端联接 同样,就 是联接处理时在reduce端。那么有哪些步骤呢?(讨厌原书的翻译者把它译作几种方法!) 1.由于在reduce端处理,必须会考虑到多输入问题,即多表。于是MultiInputs必须的; 2.排序,分组。因为先排序,这样在处理时就可以为分组服务了,而分组是最終目标,即将相同key所附属的values连接起来。   由于书本上没有说明排序,搞得我以为按它说的直接使用seco ...
记得前年说过,如果搞不起搜索,以后再也不接触搜索。甚至说过,如果搞不好,以后再不搞技术了。。 但今天,在类似GOOGLE的架构技术上看,目的达到,也不枉这二年的心血。   接下来的情况要看今天年中的情况再定怎样搞,期待有个好的結果。       boy,god will bless you~~   see also: 回广州了,再战江湖
  1。这是最简单的一种布署方式,通常用于简单测试。   2.当过索引大小超过一台机器时,应该使用cluster方式。 see also: nutch 分布式搜索-cluster-hdfs index 3。虽然2中解决了数据量大的问题,但没解决快速搜索的目的。 see also: nutch 分布式搜索-cluster-hdfs index 4.在3的基础上进一步进行优化。当然 个人认为这是最高效的搜索方式,当然了,这种方式可能带来的问题是维护比较困难。但我认为这是可以解决的。       see also: nutch 分布式搜索-c ...
在map reduce框架中,除了常用的分布式计算外,排序也算是比较重要的一环了。这形如sql查询中的排序数据一样重要。     一。无排序 当书写code 时,如果指定了mapred.reduce.tasks=0(same effect as setNumReduceTasks)。这样便达到目的。 产生的效果当然是只有一个part file,而且其中的entries是unorder.     二。默认排序(sort only in partition) 其实这也称”局部排序“。这种情况是产生若干个part files,并且各file内部是排序好的,但file之间没有内容排序之 ...
todo
  在整个crawl->recrawl后,其实作为搜索的文件夹只有两个: * index(indexes) :提供搜索,和获取details信息(其实它也是通过 lucene doc fields来得到)。如title,url,last-modified,cache等等。 * segments : 提供summary即页面的描述,也就 是pa ...
今天在执行shell时出现了奇怪的现象,同样的脚本在之前leibnitz下正常,但在vm下执行时提示:bad loop variable。 以下是語句: for((i=0;i<10;i++))  ...   网站提示说要用dash执行,于是我在sh中添加了:#!/bin/bash,結果一样不行。 后来想到执行时我是用sh file执行的,于是改用了./file,灵了。 置于网站上说的sudo dpkg-reconfigure dash我倒没试过,影响启动速度 ?   see http://www.ubuntu-tw.org/modules/newbb/viewtopi ...
今天在nutch配置分布式搜索时出现搜索不到結果,背景是: 用hadoop账号建立了索引,但使用xx账号时搜索不到。奇怪的是我在mr plugin下,使用xx账号却可以访问正常。   刚开始以为是conf下文件不对,但后来将整个tomcat布署在hadoop下却有結果,所以判断不是配置问题。 转而怀疑是不同账号hadoop平台有没有做限制。如果是真的,为什么mr plugin下可以访问正常? 原来,plugin下是先连上,然后通过点击目录来访问files; 然而在nutch-site.xml下我使用了相对路径,crawl/xxx,这样访问时hadoop会以当前user name为开始 ...
Global site tag (gtag.js) - Google Analytics