ubuntu 下环境变量设置注意事項

博客分类：

ubuntu/shell

今天在设置环境变量时，发现了一个很诡异的地方：当我修改了变量后，进行source后，再执行命令，发现还是用旧的命令来执行。跟下去发现，当用env时，当中的PATH变长了，而且刚设置的新变量附到最后。对了！就是这样ubuntu下如果PATH下有相同的shell-file时，它只对最初的file有效，而我设置PATH=$new-property:$PATH，所以造成了这样的結果。小结：－在环境变量设置中要将原来的变量名称附加到最后，而不是最前；－使用source后，它会依据当前的变量k-v值添加到访k中。如 p1=$new-val:$p1 它会将上次的p ...

2012-05-05 22:50
浏览 897
评论(0)
分类:操作系统

hadoop源码阅读-shell启动流程

博客分类：

hadoop sources reading
hadoop

open the bin/hadoop file,you will see the there is a config file to load: either libexec/hadoop-config.sh or bin/hadoop-config.sh and the previor is loaded if exists,else the load the later. you will see the HADOOP_HOME is same as HADOOP_PREFIX at last: export HADOOP_HOME=${HADOOP_PREFIX} ...

2012-05-03 01:58
浏览 1885
评论(0)
分类:开源软件

hadoop源码阅读-第二回阅读开始

博客分类：

hadoop
hadoop sources reading

Hadoop

出于工作需要及版本更新带来的变动，现在开始再次进入源码空间－hadoop-1.0.1 这次阅读的目的有这几个：－比较全面的阅读整体代码，清楚大体的工作流程，各部件的连接与交互；－common的改动及主要职责；－config/shell 的启动流程；－hdfs具体的设计及实现；－mapreduce的詳細设计及实现；－ipc詳細实现－others 其实在这里做总结也是挺有帮助的，可以加深印象。以前面试时就是因为在这里做了小结，所以在才记忆比较清楚。希望在1-2月内把它搞完。

2012-05-03 01:03
浏览 1030
评论(0)
分类:开源软件

hbase需要使用mapreduce来查询吗

博客分类：

mapreduce
hbase

hbase本身已经提供了实时查询功能了,如bloom filters等.如果加入mr的话,那么好处是什么呢? 如果使用mr对hbase中的数据进行非实时性的统计分析,这是可行的,但这样已经有了替代方案:hive. 这正如pig基于hadoop一样,将mr的业务抽取出来了. references: http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=7&t=2320 用MR(MapReduce)查询hbase数据－用到TableMapper和Scan ...

2012-03-05 15:17
浏览 5104
评论(0)
分类:开源软件

最短路径查找-prim算法和kruskal算法

博客分类：

maths
algorithms

如坐车网中的最优坐车路线一样,本质就是探寻最短径距.即最小生成树生成问题. 当然坐车网中得出結果后还要进行车辆换乘问题,但这更易了. prim算法一个V set来存放结点,E set存放边.每次从树中选取Ｖ的最近邻,形成的一条边,但条件是与Ｅ中的不能有loop. 如此循环,直到 | E | = n - 1,n为顶点数.(如果直接使用数学表达式来表达是非常严谨的,也不容易知道.还是通过例子才容易理解) 　特点: 　　a.結果不唯一,因为当遇到相同权值时情况; 　　b.由于a的出现,使得結果可能陷入局部最小值,即非所谓的'最小'生成树.但事实上这算法是有可能的. 　　c ...

2012-03-04 15:11
浏览 2161
评论(0)
分类:非技术

如何学习一门技术/学科?

博客分类：

free talking
art & entertainment

是的，干IT这一行需要有一种强烈的意识：技术是日新月异的，必须保持对前沿技术的兴趣和研究。否则，你要么做管理方面吧，或者被淘汰。我在想，当前有很多漂亮的技术框架，工具等，如何事事无大小，不求方法和效 ...

2012-01-20 00:17
浏览 888
评论(0)
分类:非技术

转：Ubuntu Linux下搜索文件和文件内容

博客分类：

ubuntu/shell

whereis <程序名称> 查找软件的安装路径 -b 只查找二进制文件 -m 只查找帮助文件 -s 只查找源代码 -u 排除指定类型文件 -f 只显示文件名 -B <目录> 在指定目录下查找二进制文件 -M <目录> 在指定目录下查找帮助文� ...

2012-01-03 00:06
浏览 2673
评论(0)
分类:操作系统

hadoop 联合 join操作

博客分类：

hadoop

hadoop join操作类似于sql中的功能，就是对多表进行取子集并合并一起。其中有很多工具已经可用，如pig,hive，cascading. map端联接 reduce端联接同样，就是联接处理时在reduce端。那么有哪些步骤呢？（讨厌原书的翻译者把它译作几种方法！） 1.由于在reduce端处理，必须会考虑到多输入问题，即多表。于是MultiInputs必须的； 2.排序，分组。因为先排序，这样在处理时就可以为分组服务了，而分组是最終目标，即将相同key所附属的values连接起来。由于书本上没有说明排序，搞得我以为按它说的直接使用seco ...

2012-01-02 18:06
浏览 1057
评论(0)
分类:开源软件

二年前的话没落空

博客分类：

free talking

记得前年说过，如果搞不起搜索，以后再也不接触搜索。甚至说过，如果搞不好，以后再不搞技术了。。但今天，在类似GOOGLE的架构技术上看，目的达到，也不枉这二年的心血。接下来的情况要看今天年中的情况再定怎样搞，期待有个好的結果。 boy,god will bless you~~ see also: 回广州了，再战江湖

2012-01-01 23:50
浏览 724
评论(0)
分类:非技术

nutch 几种搜索布署

博客分类：

nutch
search

1。这是最简单的一种布署方式，通常用于简单测试。 2.当过索引大小超过一台机器时，应该使用cluster方式。 see also: nutch 分布式搜索-cluster-hdfs index 3。虽然2中解决了数据量大的问题，但没解决快速搜索的目的。 see also: nutch 分布式搜索-cluster-hdfs index 4.在3的基础上进一步进行优化。当然个人认为这是最高效的搜索方式，当然了，这种方式可能带来的问题是维护比较困难。但我认为这是可以解决的。 see also: nutch 分布式搜索-c ...

2011-12-29 13:21
浏览 872
评论(0)
分类:开源软件

hadoop几种排序简介

博客分类：

hadoop sources reading
hadoop

在map reduce框架中，除了常用的分布式计算外，排序也算是比较重要的一环了。这形如sql查询中的排序数据一样重要。一。无排序当书写code 时，如果指定了mapred.reduce.tasks=0(same effect as setNumReduceTasks)。这样便达到目的。产生的效果当然是只有一个part file，而且其中的entries是unorder. 二。默认排序（sort only in partition) 其实这也称”局部排序“。这种情况是产生若干个part files，并且各file内部是排序好的，但file之间没有内容排序之 ...

2011-12-16 21:52
浏览 1621
评论(0)
分类:开源软件

nutch结合hadoop解説 RPC机制

博客分类：

hadoop
nutch

todo

2011-12-13 00:18
浏览 895
评论(0)
分类:开源软件

nutch搜索架构关键类

博客分类：

nutch
hadoop
lucene

在整个crawl->recrawl后，其实作为搜索的文件夹只有两个： * index（indexes) :提供搜索，和获取details信息（其实它也是通过 lucene doc fields来得到）。如title,url,last-modified,cache等等。 * segments ：提供summary即页面的描述，也就是pa ...

2011-12-13 00:17
浏览 1139
评论(0)
分类:开源软件

用不同的执行方式来执行shell引起的问题

博客分类：

ubuntu/shell

今天在执行shell时出现了奇怪的现象，同样的脚本在之前leibnitz下正常，但在vm下执行时提示：bad loop variable。以下是語句： for((i=0;i<10;i++)) ... 网站提示说要用dash执行，于是我在sh中添加了：#!/bin/bash，結果一样不行。后来想到执行时我是用sh file执行的，于是改用了./file，灵了。置于网站上说的sudo dpkg-reconfigure dash我倒没试过，影响启动速度？ see http://www.ubuntu-tw.org/modules/newbb/viewtopi ...

2011-12-11 14:59
浏览 821
评论(0)
分类:操作系统

访问hadoop数据时注意相对路径问题

博客分类：

hadoop
nutch

今天在nutch配置分布式搜索时出现搜索不到結果，背景是：用hadoop账号建立了索引，但使用xx账号时搜索不到。奇怪的是我在mr plugin下，使用xx账号却可以访问正常。刚开始以为是conf下文件不对，但后来将整个tomcat布署在hadoop下却有結果，所以判断不是配置问题。转而怀疑是不同账号hadoop平台有没有做限制。如果是真的，为什么mr plugin下可以访问正常？原来，plugin下是先连上，然后通过点击目录来访问files；然而在nutch-site.xml下我使用了相对路径，crawl/xxx，这样访问时hadoop会以当前user name为开始 ...

2011-12-07 00:30
浏览 1423
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ubuntu 下环境变量设置注意事項

hadoop源码阅读-shell启动流程

hadoop源码阅读-第二回阅读开始

hbase需要使用mapreduce来查询吗

最短路径查找-prim算法和kruskal算法

如何学习一门技术/学科?

转：Ubuntu Linux下搜索文件和文件内容

hadoop 联合 join操作

二年前的话没落空

nutch 几种搜索布署

hadoop几种排序简介

nutch结合hadoop解説 RPC机制

nutch搜索架构关键类

用不同的执行方式来执行shell引起的问题

访问hadoop数据时注意相对路径问题

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>