`
yjhexy
  • 浏览: 332192 次
  • 性别: Icon_minigender_1
  • 来自: 火星
社区版块
存档分类
最新评论
文章列表
 Hadoop 分布式计算,序列化是Hadoop通过RPC调用,使得每个节点之间有效沟通的方法。 于是序列化就成为了分布式计算的一个重要课题。 序列化之后,对于分布式计算还需要排序。因此排序也相当重要: Hadoop要求对象在序列化之后的字节也能够支持排序,以提高计算速度,还不必产生很多无谓的数据。   下面两张图记录了JAVA原生类型转化成序列化以后所占的字节数         Hadoop里关于Writeable 相关类 的继承树:     A,Text类相当于 java.lang.String,不同的是Text用的是UTF-8的编码来解析的。 也 ...
 压缩是否支持多文件和分割: hadoop默认用压缩算法的本地实现 ===============================邪恶的分割线=======================  压缩是否有本地实现:hadoop的mapReduce算方法需要Splittable的压缩算法支持。 如何选择压缩算法: 举例:大型的日志文件存储 1,不要压缩存储 2,选择zip 或者bzip2能 Splittable 的压缩算法 3,先把分成chunk,再选择任意一种压缩算法压缩 4,使用SequnceFile    
hadoop写文件:  流程: 修正: 跟了源代码,发现往HDFS里创建文件的源代码: public FSDataOutputStream create(Path f, Progressable progress) throws IOException { return create(f, true, getConf().getInt("io.file.buffer.size", 4096), getDefaultReplication(), ...
概览:  ====================================  邪恶的分割线 ======================= 访问HDFS 一,通过JAVA的URL类直接访问HDFS A,输入命令 bin/hadoop namenode -format B,输入命令 bin/start-all.sh 启动单机模式 (前提是都配置好的情况下如果没有配置好可以参考http://hadoop.apache.org/common/docs/current/quickstart.html) C,hdfs -copyFromLocal txy. ...
列了很多配置的参数   其中红色的配置为必须配置参数   参数 取值 备注 fs.default.name NameNode 的URI。 hdfs://主机名/ dfs.hosts/dfs.hosts.exclude 许可/拒绝DataNode列表。 如有必要,用这个文件控制许可的datanode列表。 dfs.replication 默认: 3 数据复制的分数 dfs.name.dir 举例:/home/user ...
因为在家里和公司都用的不同的浏览器,我把常用的URL地址记下来方便些,再此谢过JAVAEYE的的空间: JAVA常见用法 http://www.java2s.com/CN/Code/Java/File-Input-Output/Sortfilesbaseontheirlastmodifieddate.htm hadoop wiki http://wiki.apache.org/hadoop/FrontPage hadoop 官方网站 http://www.hadoop.org.cn/document/cn/r0.18.2/in ...
根据官方文档上写的一些内容,因为发现文档写的不太详细:http://www.redsaga.com/spring_ref/2.0/html/scheduling.html ,所以自己尝试了下。记录了下来:   1,想要执行的任务实现了Quartz的接口,例如: public class RepeatPartBuild implements StatefulJob { private int i; public void execute(JobExecutionContext context) throws JobExecutionException { ...
LINUX有很多细节,今天遇到了文件时间的问题,特此记下来,一备后日回忆起来记下。   一個檔案記錄的時間參數有三種,分別是 modification time (mtime) : 當該檔案的『內容資料』變更時,就會更新這個時間!內容資料指的是檔案的內容,而不是檔案的屬性或權限喔! status time (ctime) : 當該檔案的『狀態 (status)』改變時,就會更新這個時間,舉例來說,像是權限與屬性被更改了,都會更新這個時間啊。 access time (atime) : 當『該檔案的內容被取 ...
linux 安装tar包软件: http://linux-vbird.bluedata.org/linux_base/0520source_code_and_tarball.htm#tarball_step   awk 把多行日志显示成一行: awk '{if (NR % 6) printf $0 ; else print $0}' export.log_bak   cookie_log 统计 cat cookie_log | awk '{print $8 " " $5}' | sed s/"\?.* "/" " ...
最重要的保证 页面本身的编码, 页面传递的参数或者URL传递的参数的编码, 用相应的编码解析request中带的参数, 输出到页面的编码 都是同一种编码!!!   其次要理解下面两种情况:   提交的两种方式,GET和POST     1.记住超链接是GET方式提交 ,FORM表单没写method也是GET方式         GET方式不能用统一转码,但可以         name=new String(name.getBytes("ISO-8859-1"),"GB18030");    //这种也叫重新赋值的方式      ...
此文章的例子承接上一篇与velocity整合的例子:   首先看下需要依赖的类库: <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>3.8.1</version> <scope>test</scope> </dependency> <dependency> ...
感觉现在的JAVA框架越来越多,纷繁复杂。想彻底研究一种框架,了解下其中的一些通用的东西,于是选择了struts2。 看了很多struts2的文档,发现很多都是在讲struts2与JSP使用很多标签库,我不喜欢用那么多的标签,于是研究了下如何使用velocity与 struts2整合。   主要有四个步骤:   1,添加pom依赖 (这里我采用 maven管理依赖,相当方便) <dependency> <groupId>org.apache.velocity</groupId> <artifactId>velocit ...
一直听说apache 有个oro的正则表达式比JAVA的好,于是稍仔细的研究了一番: 写了些许个很简单的代码: package com.yajun; import java.util.ArrayList; import java.util.List; import org.apache.oro.text.regex.MalformedPatternException; import org.apache.oro.text.regex.Pattern; import org.apache.oro.text.regex.PatternCompiler; import org. ...
VirtualBox 开启远程桌面服务。 VBoxHeadless --startvm windows  (这里的windows为虚拟的名称)  
前些天想要抓包分析,抓下来的包都是16进制文本,想要复制过来转化成真正的二进制分析。于是写了下面的程序:   package com.yajun; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; /** * 将16进制字符串转换为二进制数据存入文本 * * @author yajun.wuyj */ public class IntegerDeocde { public static void main(String[] arg ...
Global site tag (gtag.js) - Google Analytics