- 浏览: 155349 次
- 性别:
- 来自: 北京
最新评论
-
a420144030:
你好,我想计算n篇文章的相似度,用mahout能处理吗,如何做 ...
mahout使用 -
di1984HIT:
OK,真的很牛啊
hadoop常见错误 -
xwl1991:
还真是这个问题 !
quartz报错java.lang.NoSuchMethodError: org.apache.commons.collections.SetUtils.ord
文章列表
linux下设置ssh无密码登录
- 博客分类:
- OS操作系统 Linux
ssh配置
主机A:10.0.5.199
主机B:10.0.5.198
需要配置主机A无密码登录主机A,主机B
先确保所有主机的防火墙处于关闭状态。
在主机A上执行如下:
1. $cd ~/.ssh
2. $ssh-keygen -t
rsa
--------------------然后一直按回车键,就会按照默认的选项将生成的密钥保存在.ssh/id_rsa文件中。
3. $cp id_rsa.pub authorized_keys
这步完成后,正常情况下就可以无密码登录本机了,即ssh localhost,无需输入密码。
...
用Sqoop把数据从HDFS导入到MYSQL
- 博客分类:
- 云计算
转自:http://www.kaifajie.cn/mySQL/6263.html
sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java
程序来实现sqoop把数据从HDFS写入到MYSQL。
在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想:
1、在MYSQL中创建一个参数表A,用来记录要传输的表的表名B和字段。
2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。
3、从MYSQL的参数表A中,读取要传输的表B。把这些字段拼凑成一个insert语句,例如 ...
Solr 4.0: Realtime GET
- 博客分类:
- 搜索引擎
he next functionality I decided to look at, from the upcoming Solr 4.0, is the so called “Realtime Get”. It allows you to see the data even though it was not yet added to the index, thus before the commit operation being sent to Solr. Let’s see how it works.
Some theory
Data update in Lucene and So ...
大数据的储存:百度HDFS集群的数据压缩
- 博客分类:
- 云计算
2012年4月13日,由IT168(ITPUB、IXPUB、ChinaUnix)主办的2012中国数据库技术大会(DTCC)在北京隆重召开。大会第三天,百度基础架构部高级工程师孙桂林发表了主题为“百度HDFS集群的数据压缩”的演讲。
当前,数字信息急剧膨胀。根 ...
转自:http://abloz.com/2012/07/19/data-between-the-mysql-and-hdfs-system-of-mutual-conductance-using-sqoop.html
sqoop
是apache下用于RDBMS和HDFS互相导数据的工具。
本文档是sqoop的使用实例,实现从mysql到hdfs互导数据,以及从Mysql导数据到HBase。
下载:
http://www.apache.org/dyn/closer.cgi/sqoop/
[zhouhh@Hadoop48 ~]$ wget
http://labs.renren ...
从hive将数据导出到mysql
- 博客分类:
- 云计算
转自:http://abloz.com/2012/07/20/export-data-to-mysql-from-the-hive.html
http://abloz.com
2012.7.20
author:周海汉
在上一篇文章《》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysql则不是直接支持,而是间接支持。要么将HBase导出到HDFS平面文件,要么将其导出到Hive中,再导出到mysql。本篇讲从hive中导出到mysql。
从hive将数据导出到mysql
一、创建mysql表
...
使用mysql时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一
条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重记录的所有值。其原因是distinct只能返回它的目标字段,而无法返回其它字段
下面先来看看例子:
table
id name
1 a
2 b
3 c
4 c
5 b
比如我想用一条语句查询得到name不重复的所有数据,那就必须使用distinct去掉多余的重复记录。
select distinct name from table
得到的 ...
转自:http://www.tbdata.org/archives/581
Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。
Create Tabl ...
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多 ...
Redis提供了丰富的命令(command)对数据库和各种数据类型进行操作,这些command可以在Linux终端使用。在编程时,比如使用Redis 的Java语言包,这些命令都有对应的方法,比如上面例子中使用的sadd方法,就是对集合操作中的SADD命令。下面将Redis提供的命令做一总结。
连接操作相关的命令
quit:关闭连接(connection)
auth:简单密码认证
对value操作的命令
exists(key):确认一个key是否存在
del(key):删除一个key
type(key):返回值的类型
keys(pa ...
转自:http://blog.cnr.cn/18/viewspace-8092.html
服务列表(按字母顺序排列)
服务名
必需(是/否)
用途描述
注解
acon
否
语言支持
特别支持左手书写语言:阿拉伯语,波斯语和希伯莱语
hadoop/mapred 优化方法
- 博客分类:
- 云计算
从三个方面着手优化 :
1. hadoop配置
2. 设计mapred/job
3. 代码级别.
4.
改造hadoop
一. conf/hadoop-site.xml配置.
经验要求高,
特别需要结合实际情况.
典型参数如
复制因子,
mapred.child.java.opts,
mapred.tasktracker.map.tasks.maximum,
mapred.tasktracker.reduce.tasks.maximum,
mapred.map.tasks,
mapred.reduce.tasks,
fs.inmemory.size.mb ...
安装使用Hive的时候发现文件无法从本地拷贝到hadoop集群系统,老是报错,错误内容为:
java.io.IOException: File … could only be replicated to 0 nodes, instead of
1。查找namenode的日志,也是报这个错,而且非常多,即便在启动的时候也是报类似的错误。这个学习环境为单namenode+2个datanode,使用dfsadmin
-report报无数据节点,如下:
[hadoop@namenode hadoop]$ hadoop dfsadmin -report
Configure ...
hadoop中的balancer
- 博客分类:
- 云计算
对于HDFS集群,经常长时间的运行,尤其是大量的delete操作后,集群中各个Datanode上的空间使用率可能会存在比较大的差异。
所以需要一种机制使各个Datanode保持平衡,防止少数Datanode存储过多的文件。
少数使用率过高的Datanode会导致对其的数据访问效率变低,并且如果该Datanode挂掉,需要更多的时间进行恢复,对集群也会造成更大的影响。
Hadoop中已经提供了balancer的机制。
hadoop
balancer -threshold
<threshold>
通过上面的命令可以是Hadoop对各个Datanode进行评估并使他们保持 ...
背景:
在使用WebService的时候,我们可能需要一个备份的WebService服务器.一旦主服务器down了,我们可以使用备份的服务器.那么这里就需要对客服端连接服务器的时间做一个修改.
在Spring+CXF的WebService环境下,客户端有两个时间属性是可配置的,分别是ConnectionTimeout和ReceiveTimeout.
ConnectionTimeout--WebService以TCP连接为基础,这个属性可以理解为tcp的握手时的时间设置,超过设置的时间长则认为是连接超时.以毫秒为单位,默认是30000毫秒,即30秒.
ReceiveTime ...