- 浏览: 34666 次
- 性别:
- 来自: 北京
最新评论
-
ChenHotOne:
你好,我遇到你说的这个4. java.lang.Runtime ...
nutch运行x point org.apache.nutch.net.URLNormalizer not found.处理 -
xuyuanshuaaa:
lz你好,我想问下 “对于Gzip压缩的文件,即使我们设置了s ...
hadoop 压缩文件处理 -
chenyuxxgl:
请问你的nutch是什么版本
nutch 在hadoop运行时引用包不同所引发的问题
文章列表
在程序里使用sql的时候遇到这样一个问题,有两个字段 opDate 和 cuDate 数据库中都是Varchar类型,值的范例为: opDate -- > 2009-12-01 00:00:00.0 cuDate--> 20091201 ,但在sql 中必须要opDate=cuDate 这种操作 .那么怎么才能匹配上相同天呢?我们需要做时间转换。
select * from tableA where name='t' and dataType=0 and (select str_to_date(cuDate , '%Y%m%d'))= (select str_to_dat ...
安装,配置j2sdk:
执行j2sdk安装程序,自定义路径,我们的安装路径为:C:\j2sdk1.4.2_04
配置j2sdk:
配置环境变量:
我的电脑->属性->高级->环境变量->系统变量中添加以下环境变量:
JAVA_HOME=C:\j2sdk1.4.2_04CLASSPATH=.;C:\j2sdk1.4.2_04\lib\tools.jar;C:\j2sdk1.4.2_04\lib\dt.jar;C:\j2sdk1.4.2_04
\bin;path=C:\j2sdk1.4.2_04\bin;
写一个简单的java程序来测试J2SDK是否已安装 ...
url中包含中文一般需要编码,而在编解码中由于浏览器或者个人系统编码的原因,可能会有不同的编码访问形式,因此在解码的时候需要注意,不然很容易出现乱码。在最近工作中遇到了这个问题,虽然没有完全解决乱码,但依据次方式能够解决大部分此类问题。
例: url="%25b1%25a6%25c2%25ed1%25cf%25b5%25b3%25a8%25c5%25f1" 我们在解码时用到
String b1 = URLDecoder.decode(url);
String encode = FileUtil.getEncoding(b1); //获得b1的编码方式
Strin ...
关于list中对象排序
- 博客分类:
- java基础
list中对象排序需要实现Comparator接口,具体操作如下:
public class Mycomparator implements Comparator{
public int compare(Object o1,Object o2) {
if(o1.getPv()<o2.getPv())
return 1;
else
return 0;
}
}
首先需要实现compare方法,在这个方法中可以根据自己的情况定制需要对比的对象的属性项,在此我以pv为例。实现了此接口后就可以条用sort方法:
Compa ...
LinkedList是List中的另一种实现,如果在现实中需要从列表中间位置删除或添加元素,那么无疑使用Linkedlist更为合适。
方法1
public static void testLinkedList(){
LinkedList<String> list = new LinkedList<String>();
list.add("aaa");
list.add("bbb");
list.add("ccc");
//list.addFirst(& ...
java基础集合总结(list)
- 博客分类:
- java基础
(一) list的存,移除和清空
方法1
public static void testList(int i){
list.add(i);
System.out.println(list.get(0));
list.remove(i);
System.out.println(list.size());
}
方法2
public static void testList(Integer i){
list.add(i);
System.out.println(list.get ...
转公司一同事的经验
1.JVM管理两种类型的内存:堆内存(heap),栈内存(stack),堆内在主要用来存储程序在运行时创建或实例化的对象与变量.而栈内存则是用来存储程序代码中声明为静态(static)(或非静态)的方法.
2 .JVM中对象的生命周期,创建阶段,应用阶段,不可视阶段,不可到达阶段,可收集阶段,终结阶段,释放阶段
3.避免在循环体中创建对象,即使该对象占用内存空间不大.
mysql 重复插入数值的问题
- 博客分类:
- mysql
浅谈unique列上插入重复值的MySQL解决方案
2009-11-02 07:00出处:51cto作者:佚名【我要评论】
[导读]本文将介绍在MySQL中unique列上插入重复值的解决方案,希望对广大数据库开发人员有所帮助。
本文的unique列上插入重复值解决方案,主要基于MySQL平台。通过这些,可以做到一些新的功能和应用。希望本文能对大家有所帮助。
当unique列在一个UNIQUE键上插入包含重复值的记录时,我们可以控制MySQL如何处理这种情况:使用IGNORE关键字或者ON DUPLICATE KEY UPDATE子句跳过INSERT、中断操作 ...
hbase 安装经历
- 博客分类:
- hadoop
转载的:
前提是HBase-0.90.4与Hadoop-0.20.203.0
以下两行红字可以解决HBase与Hadoop的连接问题(连接需要一致性的版本)
最近打算试试Hbase,Hadoop是前几天已经装好的,三台虚拟机(机房老师看到说:“你还真敢玩”)
hadoop 版本0.20.203.0
hbase版本0.90.4
hbase按照网上文档配置完成以后总是出现(master的log文件里面)
java.io.IOException: Call to <host:port> failed on local exception
很多人说是版本问题,我 ...
eclipse启动异常处理
- 博客分类:
- java基础
转的 http://wxmfly.iteye.com/blog/233421 直接删了eclipse.ini
1 首先查看服务器的java 环境变量
env |grep -i java
得到:
JAVA_LIBRARY_PATH=/opt/sohuhadoop/hadoop/lib/native/Linux-amd64-64
JAVA_HOME=/usr/local/jdk
然后
export JAVA_LIBRARY_PATH=/opt/sohuhadoop/hadoop/lib/native/Linux-amd64-64
export JAVA_HOME=/usr/local/jdk 把以上两句话加到脚本里去。这是因为环境变量发生了变化,就得重新设置。
hadoop 压缩文件处理
- 博客分类:
- hadoop
转:
自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩
当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多
而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式
关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里:
Lzo压缩相比Gzip压缩,有如下特点:
压缩解压的速度很快
Lzo压缩是基于Block分块的,这样,一个大的文件(在Hadoop上可能会占用多个Block块),就可以由多个MapReduce并行来进行处理
虽然Lzo的压缩比没有Gzip高,不过由于其前2个特性,在 ...
今天在部署Nutch的时候出现一个小问题,
Exception in thread "main" java.io.IOException: Call to /172.0.8.252:9000 failed on local exception: java.io.EOFException
at org.apache.hadoop.ipc.Client.wrapException(Client.java:1089)
at org.apache.hadoop.ipc.Client.call(Client.java:1057)
at org.apache.hadoop.i ...
昨天在修改自己程序的时候运到一个问题,首先修改程序的原因是修改前的版本所有逻辑处理都在map中执行,没有用到reduce。后来觉得将一部分逻辑处理放在map,一部分让在reduce中。
在重写reduce方法后部署到集群中运行reduce方法体中代码不能运行,起初以为是job配置时写错了format。经过多次调整并确保格式没有任何问题,那问题到底在哪呢,我们看看重写的reduce方法:
这是我之前的reduce方法,输入输出都为Text,
public class ExtractorReducer extends Reducer<Text, Text, Text, Text>{
...
1. 通常每个服务器的Map + Reduce总数跟cpu核数大致一致,经验表现为略大于 cpu核数的设置可以发挥最大性能,比如8核配5个map, 5个reduce
2. Map数跟Reduce配置个数通常配置相同
3. Hadoop允许集群里的不同节点配置Map跟Reduce数不同,避免服务器开销不均 匀
4. HDFS block大小默认64M推荐128M
5. HDFS在并发写同一文件情况执行状况未知,可能存在写冲突问题
6. HDFS文件不允许修改,文件一旦建立(写入流关闭)后不能修改
7. 移动计算的代价比移动数据的代价低,通常Map在数据存放的节点服务器上运 行,当在其他 ...