- 浏览: 155333 次
- 性别:
- 来自: 北京
最新评论
-
a420144030:
你好,我想计算n篇文章的相似度,用mahout能处理吗,如何做 ...
mahout使用 -
di1984HIT:
OK,真的很牛啊
hadoop常见错误 -
xwl1991:
还真是这个问题 !
quartz报错java.lang.NoSuchMethodError: org.apache.commons.collections.SetUtils.ord
文章列表
如何设置SOLR的高亮 (highlight)
- 博客分类:
- 搜索引擎
转自:http://blog.csdn.net/thundersssss/article/details/5369654
打开SOLR的核心配置文件: solrconfig.xml
找到 standard request handler
写入以下XML配置代码:
[c-sharp] view plaincopyprint?
<requestHandler name="standard" class="solr.SearchHandler" default="true&q ...
转自:http://hi.baidu.com/pakko/blog/item/3516fd6e34032bce80cb4afb.html
运行kmeans的简单的例子:1:将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata例如:bin/hadoop fs -put /home/hadoopuser/mahout-0.3/test/synthetic_control.data /user/hadoopuser/testdata/2:使用kmeans ...
转自:http://hi.baidu.com/pakko/blog/item/e3d2228bd72a7a05c9fc7a71.html
1、jdk安装
1.1、到官网下载相关的JDK
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html
1.2、打开“终端”
输入:sh jdk-6u24-linux-i586.bin
1.3、设置JAVA_HOME环境系统变量
输入:
vi /etc/environment
在文件中添加:
export JAVA_HOME=/r ...
redis 配置方案
- 博客分类:
- Cache缓存
cd /usr/local/src wget http://redis.googlecode.com/files/redis-2.2.10.tar.gzcd redis-2.2.10make prefix= 指定安装路径,也可以是默认默认配置文件在当前目录下 cp redis.conf 也可以直接使用下面配置文档
命令说明:redis-server redis服务器的daemon ...
linux常见命令的列表。
- 博客分类:
- OS操作系统
这是一个linux常见命令的列表。那些有• 标记的条目,你可以直接拷贝到终端上而不需要任何修改,因此你最好开一个终端边读边剪切&拷贝。所有的命令已在Fedora和Ubuntu下做了测试
命令
描述
•
apropos whatis
显示和word相 ...
Linux系统信息查看命令大全
- 博客分类:
- OS操作系统
原作者charlee、原始链接http://tech.idv2.com/2008/01/11/linux-sysinfo-cmds/
系统
# uname -a # 查看内核/操作系统/CPU信息
# head -n 1 /etc/issue # 查看操作系统版本
# cat /proc/cpuinfo # 查看CPU信息
# hostname # 查看计算机名
# lspci -tv # 列出所有PCI设备
# lsusb -tv # 列出所有USB设备
...
jQuery Timers是一个jQuery定时器插件,核心还是JS的setTimeout 和 setInterval 方法,只是将其进行了封装,变得便于使用。插件可以用在定时更新数据、延时触发事件、定时触发事件等方面上。
插件使用很简单,一共只提供了三个方法:
everyTime(interval : Integer | String, [label = interval : String], fn : Function, [times = 0 : Integer])everyTime(时间间隔, [计时器名称], 需要执行的函数(或函数名称), [执行次数])
oneTime(i ...
如何使SOLR系统自动AUTO COMMIT
- 博客分类:
- 搜索引擎
转自:http://blog.csdn.net/thundersssss/article/details/5386536
在很多情况下,我们并不想自己主动触发COMMIT相应的XML给SOLR,这样带来很多的不便,恰好,SOLR通过配置文件可以自行在满足指定的条件下自动的COMMIT索引,同时,让前端检索实例可以检索到最新生成的数据,而不需要人为干预。
方法很简单:找到solrConfig.xml文件
找到以下行,并增加以下配置
<updateHandler class="solr.DirectUpdateHandler2&q ...
hadoop中mapreduce部分执行流程
- 博客分类:
- 云计算
转自:http://www.blogjava.net/shenh062326/archive/2011/01/14/342959.html
最近看了hadoop的mapreduce部分代码,看了之后总结了一下,算是成果吧。以下是程序执行的主要流程,其中参考了网上的一些文章。
概括
Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。
mapreduce中几个主要的概念
mapreduce整体上可以分为这么几条执行的线索,jobclient,JobTracker ...
Thrift使用指南
- 博客分类:
- 云计算
1. 内容概要
本文档比较全面的介绍了thrift(关于thrift框架的介绍,参考我这篇文章:Thrift框架介绍
)语法,代码生成结构和应用经验。本文主要讲述的对象是thrift文件,并未涉及其client和server的编写方法(关于client和server的编写方法,可参考我这篇文章:使用Thrift RPC编写程序
)。
本文档大部分内容翻译自文章:“Thrift:The missing
Guide
“
。
2. 语法参考
2.1 Types
Thrift类型系统包括预定义基本类型,用户自定义结构体,容器类型,异常和服务定义
...
Hadoop权限管理
- 博客分类:
- 云计算
1. 介绍
本文介绍的Hadoop权限管理包括以下几个模块:
(1) 用户分组管理
。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等
(2) 作业管理
。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的优先级,kill自己的作业;高级用户可以控制所有作业等。
想要支持权限管理需使用Fair Scheduler或者 Capacity Scheduler(作业管理需用到Hadoop的ACL(Acc ...
Hadoop中两表JOIN的处理方法
- 博客分类:
- 云计算
1. 概述
在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。
本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。
2. 常见的join方法介绍
假设要进行join的数据分别来自File1和File2.
2.1 reduce side join
reduce side join是一种最简单的join方式,其主要思想如下:
在map阶段,map函数同时读取两个文件File1和Fi ...
Hadoop Streaming 编程
- 博客分类:
- 云计算
1、概述
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:
采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper cat \
-reducer wc
本文安排如下,第二节介绍Hadoop ...
#!/bin/bash pnum_server=`ps -wef|grep tomcat |grep -v grep |wc -l`
if test $pnum_server -lt 1
then
/usr/local/tomcat/bin/shutdown.sh
sleep 2s
/usr/local/tomcat/bin/startup.sh
fi
方括号与表达式之间一定要有空格 把上面的脚本命名为restartTomcat.sh放到crontab中,设定一个间隔时间,这样tomcat服务即使自己停调也可以检测到并自动重起了
下面是每五分钟检测一次: * ...
fork ( /directory/script.sh)
fork是最普通的, 就是直接在脚本里面用/directory/script.sh来调用script.sh这个脚本.
运行的时候开一个sub-shell执行调用的脚本,sub-shell执行的时候, parent-shell还在。
sub-shell执行完毕后返回parent-shell. sub-shell从parent-shell继承环境变量.但是sub-shell中的环境变量不会带回parent-shell
exec (exec /directory/script.sh)
...