- 浏览: 307642 次
- 性别:
- 来自: 北京
-
最新评论
-
dandongsoft:
你写的不好用啊
solr 同义词搜索 -
黎明lm:
meifangzi 写道楼主真厉害 都分析源码了 用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker -
meifangzi:
楼主真厉害 都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker -
zhdkn:
顶一个,最近也在学习设计模式,发现一个问题,如果老是看别人的博 ...
Java观察者模式(Observer)详解及应用 -
lvwenwen:
木南飘香 写道
高并发网站的架构
文章列表
nutch1.3 command
- 博客分类:
- nutch
抓取
bin/nutch
crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file>
.log
steps in
1.读取urls目录下的站点添加到
crawldb里
bin/nutch
inject <dir>/crawldb urls
2.创建一个segments,存放到
目录下
bin/nutch
generate <dir>/crawldb ...
package org.apache.nutch;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DataOutputBuffer;
import org.apache.hadoop.io.Seque ...
1.数据完整性:
在数据第一次引入时系统计算校验和(checksum),在数据通过一段不可靠的 通道进行传输时再次计算校验和,如果所得 的 校验和
和原来的校验和一致则代表数据完整
2.HDFS数据完整性
hdfs 对写入 的数据计算校验 ...
HDFS 数据流:
1.文件读取:
客户端通过调用FileSystem 对象的open()方法来打开希望读取的文件,对于hdfs来说,这个对象是分布式文件系统的一个实例。 DistributedFileSystem 通过rpc来调用namenode,以确定文件起始块的位置,对于每一个块,namenode返回存有该块副本的
datanode地址。datanode根据他们与客户端的距离来排序。
DistributedFileSystem 类返回一个FSDataInputStream 对象给客户端并读取数据,FSDataInputStream 类转而封装
DFSIn ...
zookeeper 3.3.2 安装
1.下载zookeeper-3.3.2.tar.gz 安装包
2.tar -zvxf zookeeper-3.3.2.tar.gz 到指定目录
3.修改conf/zoo_sample.cfg 配置文件
将zoo_sample.cfg 的名字改为 zoo.cfg
mv zoo_sample.cfg zoo.cfg
4.配置zoo.cfg
如图:
dataLogD ...
nc是一个强大的网络工具,可以诊断,发现在linux下面使用网络时的一些问题,被誉为网络安全界的‘瑞士军刀’,透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门工具,能够直接由其它程序和脚本轻松驱动。同时,它也是一个功能强大的网络调试和探测工具,能够建立需要的几乎所有类型的网络连接接语
法:nc [-hlnruz][-g<网关...>] [-G<指向器数目>][-i<延迟秒数>][-o<输出文件>][-p<通信端口>][-s< 来源位址>][-v...][-w&l ...
HDFS概念:
1.数据块:每个磁盘都有默认的数据块的大小,这是磁盘进行读写的最小单位。构建与单个磁盘上的文件系统通过磁盘块来管理该文
件系统中的块,该文件系统块的大小可以是磁盘块的整数倍 HDFS也有块 ...
solr3.3 中文IK分词(IKAnalyzer3.2.8 bin.zip)(亲测)
1.IK下载地址
http://code.google.com/p/ik-analyzer/downloads/detail? name=IKAnalyzer3.2.8%20bin.zip&can=2&q=a
2.解压到本地目录
suse@server0:/server/bin> unzip IKAnalyzer3.2.8 bin.zip
3.将jar包放入solr工程下
suse@server0:/server ...
hbase 理解
1.简介:
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群
2.HBase和RDBMS的关系
RDBMS(Relation DabaBase Management System-关系数 ...
nutch1.3 +hadoop 分布式部署(亲测)
1.确保hadoop正常启动
2.下载nutch1.3 安装包 解压到指定路径
3.抓取
nutch1.3 有两个conf 一个在NUTCH_HOME/conf ,另一个在rumtime/local/conf
runtime/local/conf 为 local(本地抓取的配置文件所用)
NUTCH_HOME/conf 为分布式抓取所用
下面我们着重讲解 分布式抓取
4.分布式抓取:
rutime/deply/bin/nutch下执行分布式抓取命令(分布式抓取一定是在这个下面,local为本地抓取所用 ...
linux suse 11.4 ip 设置
在suse操作系统中每个网卡都有一个配置文件,在/etc/sysconfig/network/目录下。用root登录,编辑ifcfg-eth0-你的网卡的物理地址的那个文件:
把BOOTPROTO的赋值改成成static,也就是BOOTPROTO=static
然后增加如下内容:
IPADDR=192.168.1.110
NETMASK=255.255.255.0
NETWORK=192.168.1.0
BROADCAST=192.168.1.255
配置完后 要让它生效,就输入/etc/init.d/network restart就可 ...
linux suse
需求:将 /home下的 容量调整一部分 给 根分区 /
1.通过root用户进入系统,进入yast 将/home分区的 大小调小
2.此时会出来一块未被分区的空间,此时将这块未备分区的空间作为独立分区创建
3.将该新创建的独立分区 作为一个挂载点 挂在 / 根分区的一个文件夹下 例如 /server
将新的分区 挂在到 /server下 此时也就是 这个/server 的容量为 新分区的容量
1.将本地文件拷贝到 hdfs 文件系统中
bin/hadoop fs -copyFromLocal /server/bin/nutch/urls/url.txt urls
2.将hdfs中的文件拷贝到本地路径
bin/hadoop fs -copyToLocal urls(hdfs文件) /opt/index (本地路径)
2.查看hdfs文件系统内文件列表
bin/hadoop dfs -ls
3.删除hdfs文件系统中的文件
bin/hadoop dfs -rmr urls
4.进入hdfs 目录
bin/hadoop fs -ls /user/ad ...
1.question
2011-08-15 13:07:42,558 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: server0/192.168.2.10:9000. Already tried 5 time(s).
2011-08-15 13:07:42,558 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: server0/192.168.2.10:9000. Already tried 5 time(s).
...
hadoop部署:
登录用户:suse
HOSTNAME:server0
4台机器:
192.168.2.10 server0(namenode)
192.168.2.11 server1(datanode)
192.168.2.12 server2(datanode)
192.168.2.13 server3(datanode)
1.首先强调的是 确保各个机器节点之间(任意两台机器之间可以ping IP/主机名 可以ping通)
ping IP
ping 主机名
2.修改server0的 /etc/hosts 配置文件
vi /etc/hosts 在 lo ...