- 浏览: 155329 次
- 性别:
- 来自: 北京
最新评论
-
a420144030:
你好,我想计算n篇文章的相似度,用mahout能处理吗,如何做 ...
mahout使用 -
di1984HIT:
OK,真的很牛啊
hadoop常见错误 -
xwl1991:
还真是这个问题 !
quartz报错java.lang.NoSuchMethodError: org.apache.commons.collections.SetUtils.ord
文章列表
hadoop常见错误
- 博客分类:
- 云计算
- Exception&Error
错误1:bin/hadoop dfs 不能正常启动,持续提示:INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s).原因:由于 dfs 的部分文件默认保存在tmp文件夹,在系统重启时被删除。解决:修改core-site.xml 的 hadoop.tmp.dir配置文件路径:/home/hadoop/tmp。
错误2:hadoop出现了一些问题。用$ bin/hadoop dfsadmin -report 测试的时候,发现dfs没有加载。显示如下: ...
转自:http://blog.bluedavy.com/?p=251
NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们 ...
Apache Commons工具集简介
- 博客分类:
- Java文档
转自:http://java.chinaitlab.com/base/859067.html
Apache Commons包含了很多开源的工具,用于解决平时编程经常会遇到的问题,减少重复劳动。我选了一些比较常用的项目做简单介绍。文中用了很多网上现成的东西,我只是做了一个汇总整理。
一、Commons BeanUtils
http://jakarta.apache.org/commons/beanutils/index.html
说明:针对Bean的一个工具集。由于Bean往往是有一堆get和set组成,所以BeanUtils也是在此基础上进行一些包装。
使用示例: ...
hadoop命令加载包的顺序
- 博客分类:
- 云计算
这几天在搞hadoop的一个基础包,过程中搞的很头大,明明用-libjars传了,在job提交前总是提示出错,新修改的函数执行出错。不过最后还是解决了,这要从hadoop本身加载包里函数的顺序说起。
hadoop命令执行时,本地执行时(没有提交到jobtracker之前)要从CLASSPATH里加载jar包,并调用从CLASSPATH里jar包中的函数。在runjob之前,提交job的gateway上的代码就是从CLASSPATH的jar包里取的函数(提交之后,是在各个map/reduce节点上找jar包里对应的函数。)
这时就有个问题,如果多个包中有相同的函数(当然包括package也相同 ...
Hadoop命令大全
- 博客分类:
- 云计算
转自:http://blog.csdn.net/wf1982/article/details/6215545
1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir这条命令会显示作业的细节信息,失败和终止的任务细节。4、关于作业的更多细节,比如成功的任务,以及对每个任务的所做的尝试次数等可以用下面的命令查看 $ bin/hadoo ...
Hadoop集群性能优化技术研究
- 博客分类:
- 云计算
转自:http://www.qikan120.com/qydtInfo.asp?ArticleID=78558
摘要:Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题,阐明了Hadoop性能优化技术研究的必然性,并介绍了当前Hadoop优化的三个主要思路:从应用程序角度进行优化、对Hadoop系统参数进行优化和对Hadoop作业调度算法进行优化。Hadoop集群优化对于提高系统性能和执行效率具有重大的意义。 [如何发表论文][摘自:电脑知识与技术 2011年22期]关键词:Hadoop集群;性能优化 ...
hadoop jar xxxx.jar的流程
- 博客分类:
- 云计算
转自:http://hi.baidu.com/dtzw/blog/item/64a6f3f2dff0511eb17ec5b0.html
搞清楚 hadoop jar xxxx.jar 执行的流程: jar文件是如何分发的JobClient(不一定是hadoop集群的节点)利用bin/hadoop脚本运行jar包,以hadoop-0.20.2-examples.jar为例子:hadoop jar hadoop-0.20.2-examples.jar [class name]的实质是:1.利用hadoop这个脚本启动一个jvm进程;2.jvm进程去运行org.apache.hadoop.util. ...
本文转自:http://www.cnblogs.com/xuqiang/archive/2011/06/15/2081796.html
1. 安装hive
2. hive实战
3. hive存储模型
4. 深入hql查询语言
5. 参考资料及代码下载
<1>. 安装hive
下载hive,下载地址http://mirror.bjtu.edu.cn/apache//hive/,解压该文件:
xuqiang@ubuntu:~/hadoop/src/hive$ tar zxvf hive-0.7.0-bin.tar.gz
设置环境变量:
xu ...
Jackson 框架,轻易转换JSON
- 博客分类:
- AJAX
Jackson 框架,轻易转换JSON
http://www.cnblogs.com/hoojo/archive/2011/04/22/2024628.html
Eclipse插件FatJar安装与使用
- 博客分类:
- Plugins
Eclipse插件fatjar打包项目,可以把需要的资源打进一个jar里。所以下载了一个,下载地址:http://sourceforge.net/project/showfiles.php?group_id=115990&package_id=125924 解压缩后是一个.../plugins/(net...)把plugins下面的(net..)文件夹拷贝到eclipse的plugins下,重新启动Eclipse3.1,Windows=>prefernce=>fat jar preference看到他就说明已经安装成功了。如果没有看到,没有关系,删除D:\eclipse310 ...
用mahout进行20news的分类
- 博客分类:
- 机器学习
首先,下载数据集20news-bydate.tar.gz,在$MAHOUT_HOME下的 examples/bin/下建立work文件夹(mkdir /home/hadoop/mahout-distribution-0.4 /examples/bin/work/)将下载的数据集解压tar 20news-bydate.tar.gz,之后放到work文件夹下。
其次,产生Input数据集,即对训练数据集进行预处理,数据准备阶段,将各类中的数据进行分词处理,去掉标点及副词等,同时将各类中的文件读入到一个大文件中,使得每类最后只有一个文件包含起初所有的文件,mahout下处理的文件必须是Sequenc ...
转自:http://www.cnblogs.com/yantao7589/archive/2011/08/19/2145991.html
Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的接口是Analyzer的某个子类,Lucene内置了几个子类,但是对于英文来说StandardAnalyzer是最常用的一个子类,可以处理一般英文的文解析功能。但是对于汉字而言,L ...
Hadoop Shell命令
- 博客分类:
- 云计算
转自:http://blog.sina.com.cn/s/blog_5fbdba500100cy6f.html
FS Shell
调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文 ...
hadoop 命令手册
- 博客分类:
- 云计算
概述
所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。
用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]
Hadoop有一个选项解析框架用于解析一般的选项和运行类。
命令选项
描述
--config confdir
覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf。
GENERIC_OPTIONS
多个命令都支持的通用选项。
COMMAND命令选项S
各种各样的命令和它们的选项会在 ...
Lucene3.5.0Field属性
- 博客分类:
- 搜索引擎
Field.Store.COMPRESS:压缩保存,用于长文本或二进制数据Field.Store.YES:保存Field.Store.NO:不保存
Field.Index.NO:不建立索引Field.Index.TOKENIZED:分词,建索引Field.Index.UN_TOKENIZED:不分词,建索引Field.Index.NO_NORMS:不分词,建索引.但是Field的值不像通常那样被保存,而是只取一个byte,这样节约存储空间
Field.TermVector.NO:不保存term vectorsField.TermVector.YES:保存term vectorsF ...