- 浏览: 13269 次
最新评论
-
羊羊羊:
smileyboy2009 写道1.8 怎么配置到2.2上面, ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0 -
smileyboy2009:
1.8 怎么配置到2.2上面,怎么用是,是存在在hdfs上面, ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0 -
羊羊羊:
不用换,直接编译好,放到hadoop2.2.0上就能跑,我已经 ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0 -
phlianthropy:
nutch1.8不需要替换掉里面的hadoop-core-1. ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0
文章列表
关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。
http://my.oschina.net/junfrank/blog/290404
除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下:
一、修改Generator.java文件,注释掉如下代码(这段代码会吧下文中修改的numSlaves修改为1,具体原因本猿未求甚解,单纯加log得到的结果,有仁猿有结论还望告知本猿)
if ("local&qu ...
import java.text.SimpleDateFormat;
import java.util.Date;
/**
* 验证身份证号码 身份证号码, 可以解析身份证号码的各个字段,以及验证身份证号码是否有效; 身份证号码构成:6位地址编码+8位生日+3位顺序码+1位校验码
*
* @ClassName: CheckIdCard
* @Description: TODO
* @author miemie
*
*/
public class CheckIdCard
{
private final static String BIRTH_DATE_FORMAT = ...
由于项目需要把nutch运行在hadoop2.2.0上,但是官方网站上给出的版本为hadoop1.2.0,于是需要做版本兼容,我们选取的nutch版本为2.2.1,以为最大的版本是最新的,后来发现无知了,这也是后来痛苦经历的根源。
先说结论,nutch1.8直接可以运行在hadoop2.2.0上,不用为版本兼容做任何修改。
但是不知道这一结论之前我为了兼容nutch 2.2.1和hadoop2.2.0及hbase0.96做了如下工作:
1、修改gora-core,将里面依赖hbase和hadoop的内容都改为高版本的,修正编译错误重新编译
2、修改gora-hbase,重复跟gora-cor ...
[base]
name=CentOS-6 - Base
mirrorlist=http://mirrorlist.centos.org/?release=6&arch=$basearch&repo=os
#baseurl=http://mirrors.163.com/centos/6/os/$basearch/
gpgcheck=0
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6
#released updates
[updates]
name=CentOS-6 - Updates
mirrorlist=http://m ...
转自: http://blog.csdn.net/ye1992/article/details/9344807
Tomcat本身不能直接在计算机上运行,需要依赖于硬件基础之上的操作系统和一个Java虚拟机。Tomcat的内存溢出本质就是JVM内存溢出,所以在本文开始时,应该先对Java JVM有关内存方面 ...
本猿由于项目需求需要生成报告,辗转找到docx4j但是用的人实在太少,几经波折终于可以生成docx了,不过使用windows+eclipse+tomcat的环境运行中文死活乱码
后来也没继续调,就放到Centos上运行了,奇迹般的好了。。。
之前使用hive的时候也遇见过编码读取操作系统的默认编码的情况,个人猜测是不是也跟这个有关,不过由于问题解决了,本猿也就没深究了,不过特此记录也算为后来者提供些思路吧
ps:转【zhangyihui1986】,应该是个MM的博客
http://blog.csdn.net/zhyh1986/article/details/8766628?reload
...
Jquery API
- 博客分类:
- JQuery
【转载】
http://julying.com/jQuery-1.6-api/#p=id-selector
一、恢复hadoop
1、停止所有服务
2、在namenode节点执行 hadoop namenode -format
3、删除/home/hadoop/hadoop-root/dfs下的data和name,并且重新建立
4、删除/home/hadoop/hadoop-root/tmp下的文件
5、启动hadoop服务
-----自此hadoop恢复----
6、停止hbase服务,停不掉就杀掉
7、(多个节点)进入/tmp/hbase-root/zookeeper 删除所有文件
8、启动hbase服务
先说结论:
在进行数字运算时,如果涉及到向上转换,一定要把要转换的标记为先计算的。
如下:
100+1000000*1000000*10L 结果溢出
100L+1000000*1000000*10 结果溢出
100+1000000L*1000000*10 结果正确
详细:
今天写代码时要算N小时之前的时间戳,有如下代码:
int N = 1000;
long queryTime = System.currentTimeMillis() - N * 1000 * 60 * 60;
当N=1000时候溢出了~~~
于是我把代码改成了如下:
long queryTime = System.cu ...
留着备份~
public static String Ip2Number(String ip)
{
String[] segs = ip.split("\\.");
long value = 0;
for (int index = 0; index < segs.length; ++index)
{
value += Long.valueOf(segs[index]) << (24 - index *8);
}
retu ...
先说结论:
1、触发的action函数不要以get开头
2、不需要构造成json数据的变量,尽量不要提供get方法
3、动作类函数不要以get开头
4、所有要构造成json的get返回对象都要序列化
原因:
重要特性:
函数执行完毕后会调用action类中所有get开头的函数构造json数据
1、触发action函数返回时,会调用本类中所有get开头的函数构造json数据,
这个如果你的action函数以get开头,就会被调用两次。
2、同特性
3、同特性
4、否则无法构造返回数据