- 浏览: 1183816 次
- 性别:
- 来自: 北京
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
文章列表
前提是安装完成hadoop 1)下载zookeeper-3.2.2.tar.gz 解压到每台服务器的/data/soft 解压
Java代码
root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz
root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz
建立软连
Java代码
root@master:/data/soft# ln -s zookeeper-3.2.2 zookeeper
root@master ...
Hbase配置手册 1)下载hbase 解压到每台服务器的/data/soft 解压
Java代码
root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz
root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz
建立软连
Java代码
root@master:/data/soft# ln -s hbase-0.90.0 hbase
root@master:/data/soft# ln -s hbase-0.90.0 hbase
hadoop如何恢复namenode
- 博客分类:
- hadoop
Namenode恢复 1.修改conf/core-site.xml,增加
Xml代码
<property>
<name>fs.checkpoint.period</name>
<value>3600</value>
<description>The number of seconds between two periodic checkpoints. </description>
1.集群配置 修改conf/hdfs-site.xml文件
Xml代码
<property>
<name>dfs.hosts.exclude</name>
<value>/data/soft/hadoop/conf/excludes</value>
<description>Names a file that contains a list of hosts that are
not permitted to connect to the na ...
- 2011-07-06 11:52
- 浏览 2569
- 评论(0)
hadoop知识点整理
- 博客分类:
- hadoop
1. Hadoop 是什么?
Hadoop 是一种使用 Java 编写的分布式计算平台。它吸收了 Google 文件系统和 MapReduce 等产品的特性。详情参见 HadoopMapReduce。
2. Hadoop 运行于什么平台?
1. Java 1.5.x 或更高版本(推荐使用 Sun 的实现版本);2.
支持 Linux 与 Windows 操作系统。在 BSD、Mac OS/X 及 OpenSolaris 上也可工作。(对于 Windows,需要安装 Cygwin)。
2.1 在 Windows 上构建、测试 Hadoop
在 Windows 上构建的 Hadoop 可 ...
nutch-1.x分布式索引指定
- 博客分类:
- nutch
1、nutch-1.x中在crawl.java中。最后有这么一句话。
indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));
它会把crawldb,linkdb以及segments,进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。
2、
dedup.dedup(new Path[] { indexes });fstats = fs.listStatus(indexes, HadoopFSUtil.getPass ...
喜欢hadoop的同学们值得一看
- 博客分类:
- hadoop
海量数据正在不断生成,对于急需改变自己传统IT架构的企业而言,面对海量数据,如何分析并有效利用其价值,同时优化企业业务已成为现代企业转型过程中不可避免的问题。
作为海量数据处理的一个重要工具——Hadoop也开始受到了越来越多人的关注。第四届Hadoop大会——Hadoop Summit 2011大会6月29日在Santa Clara举行了,备受关注的Yahoo新成立的子公司——Hortonworks在此次大会上亮相,号称比Hadoop快三倍的MapR也亮相了、同时一些新的项目比如HCatalog等也受到了技术人员的关注。我们将此次会议的一些重要信息整理如下,提供给Hadoop的从业者们参 ...
一. conf/hadoop-site.xml配置, 略过. 二. 注重job重用, 主要是设计key和自定义OutputFormat, 将能合并的mapred job合并.举例 : 用户访问行为(userid, ip, cookie), 分别统计每个用户的ip数和cookie数.(a). 把userid和字段存储到key中public class UserKey implements WritableComparable<UserKey>{int userId;//useridbyte field;//0代表ip, 1代表cookie@Overridepublic int comp ...
转帖:http://jushi1988.iteye.com/blog/693188
--- 2010-06-18 17:00 代码修改: 修改重复创建索引,添加双字段高亮。
今天发一个简单的和数据库交互的Lucene示例,只是初步的靠Lucene自带的分词实现中文分词,效果肯定没有网上琳琅的分词器相媲美,只为了示例,用了自带的高亮。页面不好看,将就一下哦。
主要是由 Spring + Struts1 + Mysql 5 实现, 只是为了实现功能。请各位大侠拍砖。
好了,不多说了。贴代码:
1. T_ARTICLE 表
Java代码 ...
在nuthc中加入中文分词
- 博客分类:
- nutch
nutch实用的分词是默认的,对中文支持的不是很好。
网上有很多对中文分词的介绍,这里就不再细讲了,主要说下:如何在nutch中加入中文的分词,两种办法:
1、插件形式。灵活
2、改动nutch源码,【偷懒】
详细的可以打开附件看看。
hadoop基础,挺详细的。希望对大家有用!
差不多有一个多月没写东西了,最近比较忙!还是研究数据一些东西。收获比较大!有时间我会把东西整理下发到上面,希望对大家有所帮助!有没有对python研究的博友们,交流下!282215036
Apache Hadoop 0.21.0 在2010年8月23日release了。Cloudera的Tom White哥(OReilly.Hadoop.The.Definitive.Guide第一版的作者)已经将该版本对比0.20的修改进行了整理,记录下来以作备忘。
apache社区上一个release的版本还是0.20.0版本,还是在去年的四月份 release的。所以这个版本中引入了许多新的功能,也有许多新的改进。根据tom哥的统计,在hadoop Common,HDFS,MapReduce三个模块中,总共有超过1300多个改进的issue在JIRA上讨论。但是,就像以前所有的‘.0’版本 ...
小文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录 ...
如果各位有私活的话忙不过来,可以通过QQ(282215036)联系我!晚上下班回家和周末我都有时间。
不为别的,就想多干点活,挣点钱养家!