zookeeper集群的安装

博客分类：

云计算

前提是安装完成hadoop 1）下载zookeeper-3.2.2.tar.gz 解压到每台服务器的/data/soft 解压 Java代码 root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz 建立软连 Java代码 root@master:/data/soft# ln -s zookeeper-3.2.2 zookeeper root@master ...

2011-07-06 12:39
浏览 2185
评论(0)
分类:行业应用

hbase配置手册

博客分类：

云计算

Hbase配置手册 1）下载hbase 解压到每台服务器的/data/soft 解压 Java代码 root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz 建立软连 Java代码 root@master:/data/soft# ln -s hbase-0.90.0 hbase root@master:/data/soft# ln -s hbase-0.90.0 hbase

2011-07-06 12:37
浏览 1711
评论(0)
分类:行业应用

hadoop如何恢复namenode

博客分类：

hadoop

Namenode恢复 1.修改conf/core-site.xml,增加 Xml代码 <property> <name>fs.checkpoint.period</name> <value>3600</value> <description>The number of seconds between two periodic checkpoints. </description>

2011-07-06 12:36
浏览 8563
评论(0)
分类:行业应用

Hadoop删除节点（Decommissioning Nodes）

博客分类：

hadoop

1.集群配置修改conf/hdfs-site.xml文件 Xml代码 <property> <name>dfs.hosts.exclude</name> <value>/data/soft/hadoop/conf/excludes</value> <description>Names a file that contains a list of hosts that are not permitted to connect to the na ...

2011-07-06 11:52
浏览 2605
评论(0)

hadoop知识点整理

博客分类：

hadoop

1. Hadoop 是什么？ Hadoop 是一种使用 Java 编写的分布式计算平台。它吸收了 Google 文件系统和 MapReduce 等产品的特性。详情参见 HadoopMapReduce。 2. Hadoop 运行于什么平台？ 1. Java 1.5.x 或更高版本（推荐使用 Sun 的实现版本）；2. 支持 Linux 与 Windows 操作系统。在 BSD、Mac OS/X 及 OpenSolaris 上也可工作。（对于 Windows，需要安装 Cygwin）。 2.1 在 Windows 上构建、测试 Hadoop 在 Windows 上构建的 Hadoop 可 ...

2011-07-06 11:51
浏览 2697
评论(0)
分类:行业应用

nutch-1.x分布式索引指定

博客分类：

nutch

1、nutch-1.x中在crawl.java中。最后有这么一句话。 indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats))); 它会把crawldb，linkdb以及segments，进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。 2、 dedup.dedup(new Path[] { indexes });fstats = fs.listStatus(indexes, HadoopFSUtil.getPass ...

2011-07-04 17:15
浏览 1295
评论(0)
论坛回复 / 浏览 (0 / 1374)
分类:开源软件

喜欢hadoop的同学们值得一看

博客分类：

hadoop

海量数据正在不断生成，对于急需改变自己传统IT架构的企业而言，面对海量数据，如何分析并有效利用其价值，同时优化企业业务已成为现代企业转型过程中不可避免的问题。作为海量数据处理的一个重要工具——Hadoop也开始受到了越来越多人的关注。第四届Hadoop大会——Hadoop Summit 2011大会6月29日在Santa Clara举行了，备受关注的Yahoo新成立的子公司——Hortonworks在此次大会上亮相，号称比Hadoop快三倍的MapR也亮相了、同时一些新的项目比如HCatalog等也受到了技术人员的关注。我们将此次会议的一些重要信息整理如下，提供给Hadoop的从业者们参 ...

2011-07-03 15:50
浏览 2041
评论(0)
分类:行业应用

hadoop优化

博客分类：

hadoop

一. conf/hadoop-site.xml配置, 略过. 二. 注重job重用, 主要是设计key和自定义OutputFormat, 将能合并的mapred job合并.举例 : 用户访问行为(userid, ip, cookie), 分别统计每个用户的ip数和cookie数.(a). 把userid和字段存储到key中public class UserKey implements WritableComparable<UserKey>{int userId;//useridbyte field;//0代表ip, 1代表cookie@Overridepublic int comp ...

2011-07-03 15:43
浏览 1356
评论(0)
分类:行业应用

lucene与数据库结合使用

博客分类：

lucene

lucene Apache Struts Spring Bean

转帖：http://jushi1988.iteye.com/blog/693188 --- 2010-06-18 17:00 代码修改：修改重复创建索引，添加双字段高亮。今天发一个简单的和数据库交互的Lucene示例，只是初步的靠Lucene自带的分词实现中文分词,效果肯定没有网上琳琅的分词器相媲美，只为了示例，用了自带的高亮。页面不好看，将就一下哦。主要是由 Spring + Struts1 + Mysql 5 实现，只是为了实现功能。请各位大侠拍砖。好了，不多说了。贴代码： 1. T_ARTICLE 表 Java代码 ...

2011-06-10 14:14
浏览 6808
评论(0)
分类:编程语言

在nuthc中加入中文分词

博客分类：

nutch

nutch实用的分词是默认的，对中文支持的不是很好。网上有很多对中文分词的介绍，这里就不再细讲了，主要说下：如何在nutch中加入中文的分词，两种办法： 1、插件形式。灵活 2、改动nutch源码，【偷懒】详细的可以打开附件看看。

2011-05-15 11:41
浏览 630
评论(0)
论坛回复 / 浏览 (0 / 1235)
分类:编程语言

hadoop-FAQ

博客分类：

hadoop

Hadoop

hadoop基础，挺详细的。希望对大家有用！

2011-05-15 11:38
浏览 744
评论(0)
论坛回复 / 浏览 (0 / 1022)
分类:编程语言

陆续整理数据方面的资料

博客分类：

我的随笔

Python

差不多有一个多月没写东西了，最近比较忙！还是研究数据一些东西。收获比较大！有时间我会把东西整理下发到上面，希望对大家有所帮助！有没有对python研究的博友们，交流下！282215036

2011-05-07 08:58
浏览 652
评论(0)
论坛回复 / 浏览 (0 / 1179)
分类:编程语言

Apache Hadoop 0.21版本新功能ChangeNode

博客分类：

hadoop

Apache Hadoop Mapreduce HBase 框架

Apache Hadoop 0.21.0 在2010年8月23日release了。Cloudera的Tom White哥（OReilly.Hadoop.The.Definitive.Guide第一版的作者）已经将该版本对比0.20的修改进行了整理，记录下来以作备忘。 apache社区上一个release的版本还是0.20.0版本，还是在去年的四月份 release的。所以这个版本中引入了许多新的功能，也有许多新的改进。根据tom哥的统计，在hadoop Common，HDFS，MapReduce三个模块中，总共有超过1300多个改进的issue在JIRA上讨论。但是，就像以前所有的‘.0’版本 ...

2011-04-21 22:04
浏览 2026
评论(0)
分类:编程语言

Hadoop关于处理大量小文件的问题和解决方法

博客分类：

hadoop

Hadoop Mapreduce JVM

小文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件，目录� ...

2011-04-21 11:07
浏览 2541
评论(0)
分类:编程语言

挣钱养家

博客分类：

我的随笔

QQ

如果各位有私活的话忙不过来，可以通过QQ（282215036）联系我！晚上下班回家和周末我都有时间。不为别的，就想多干点活，挣点钱养家！

2011-04-14 22:19
浏览 1183
评论(4)
论坛回复 / 浏览 (4 / 2137)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

zookeeper集群的安装

hbase配置手册

hadoop如何恢复namenode

Hadoop删除节点（Decommissioning Nodes）

hadoop知识点整理

nutch-1.x分布式索引指定

喜欢hadoop的同学们值得一看

hadoop优化

lucene与数据库结合使用

在nuthc中加入中文分词

hadoop-FAQ

陆续整理数据方面的资料

Apache Hadoop 0.21版本新功能ChangeNode

Hadoop关于处理大量小文件的问题和解决方法

挣钱养家

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>