`
羊羊羊
  • 浏览: 13237 次
社区版块
存档分类
最新评论
文章列表
关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。 http://my.oschina.net/junfrank/blog/290404 除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下: 一、修改Generator.java文件,注释掉如下代码(这段代码会吧下文中修改的numSlaves修改为1,具体原因本猿未求甚解,单纯加log得到的结果,有仁猿有结论还望告知本猿)     if ("local&qu ...
import java.text.SimpleDateFormat; import java.util.Date; /** * 验证身份证号码 身份证号码, 可以解析身份证号码的各个字段,以及验证身份证号码是否有效; 身份证号码构成:6位地址编码+8位生日+3位顺序码+1位校验码 * * @ClassName: CheckIdCard * @Description: TODO * @author miemie * */ public class CheckIdCard {     private final static String BIRTH_DATE_FORMAT = ...
由于项目需要把nutch运行在hadoop2.2.0上,但是官方网站上给出的版本为hadoop1.2.0,于是需要做版本兼容,我们选取的nutch版本为2.2.1,以为最大的版本是最新的,后来发现无知了,这也是后来痛苦经历的根源。 先说结论,nutch1.8直接可以运行在hadoop2.2.0上,不用为版本兼容做任何修改。 但是不知道这一结论之前我为了兼容nutch 2.2.1和hadoop2.2.0及hbase0.96做了如下工作: 1、修改gora-core,将里面依赖hbase和hadoop的内容都改为高版本的,修正编译错误重新编译 2、修改gora-hbase,重复跟gora-cor ...
[base] name=CentOS-6 - Base mirrorlist=http://mirrorlist.centos.org/?release=6&arch=$basearch&repo=os #baseurl=http://mirrors.163.com/centos/6/os/$basearch/ gpgcheck=0 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 #released updates [updates] name=CentOS-6 - Updates mirrorlist=http://m ...
转自: http://blog.csdn.net/ye1992/article/details/9344807 Tomcat本身不能直接在计算机上运行,需要依赖于硬件基础之上的操作系统和一个Java虚拟机。Tomcat的内存溢出本质就是JVM内存溢出,所以在本文开始时,应该先对Java JVM有关内存方面 ...
本猿由于项目需求需要生成报告,辗转找到docx4j但是用的人实在太少,几经波折终于可以生成docx了,不过使用windows+eclipse+tomcat的环境运行中文死活乱码 后来也没继续调,就放到Centos上运行了,奇迹般的好了。。。 之前使用hive的时候也遇见过编码读取操作系统的默认编码的情况,个人猜测是不是也跟这个有关,不过由于问题解决了,本猿也就没深究了,不过特此记录也算为后来者提供些思路吧 ps:转【zhangyihui1986】,应该是个MM的博客 http://blog.csdn.net/zhyh1986/article/details/8766628?reload ...

Jquery API

【转载】 http://julying.com/jQuery-1.6-api/#p=id-selector
一、恢复hadoop 1、停止所有服务 2、在namenode节点执行 hadoop namenode -format 3、删除/home/hadoop/hadoop-root/dfs下的data和name,并且重新建立 4、删除/home/hadoop/hadoop-root/tmp下的文件 5、启动hadoop服务 -----自此hadoop恢复---- 6、停止hbase服务,停不掉就杀掉 7、(多个节点)进入/tmp/hbase-root/zookeeper 删除所有文件 8、启动hbase服务
先说结论: 在进行数字运算时,如果涉及到向上转换,一定要把要转换的标记为先计算的。 如下: 100+1000000*1000000*10L 结果溢出 100L+1000000*1000000*10 结果溢出 100+1000000L*1000000*10 结果正确 详细: 今天写代码时要算N小时之前的时间戳,有如下代码: int N = 1000; long queryTime = System.currentTimeMillis() - N * 1000 * 60 * 60; 当N=1000时候溢出了~~~ 于是我把代码改成了如下: long queryTime = System.cu ...
留着备份~     public static String Ip2Number(String ip)     {         String[] segs = ip.split("\\.");         long value = 0;         for (int index = 0; index < segs.length; ++index)         {             value += Long.valueOf(segs[index]) << (24 - index *8);         }         retu ...
先说结论:     1、触发的action函数不要以get开头     2、不需要构造成json数据的变量,尽量不要提供get方法     3、动作类函数不要以get开头     4、所有要构造成json的get返回对象都要序列化 原因:     重要特性:     函数执行完毕后会调用action类中所有get开头的函数构造json数据     1、触发action函数返回时,会调用本类中所有get开头的函数构造json数据,        这个如果你的action函数以get开头,就会被调用两次。     2、同特性     3、同特性     4、否则无法构造返回数据
Global site tag (gtag.js) - Google Analytics