`
zhangbaoming815
  • 浏览: 150087 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
用java读取PDF,这里用到了itext,jar包可以自己上网下载:   public static void readPDF(String path) throws Exception { try { PdfReader reader = new PdfReader(path); int n = reader.getNumberOfPages(); System.out.println("page number = " + n); String str = PdfTextExtractor.getTextFromPage(r ...
将对 hbase-0.90.6 和 hive-0.8.1 进行集成,使用的 hadoop-0.20.2 1. 首先将 hbase-0.90.6.jar 和 zookeeper-3.3.2.jar 复制到 hive/lib 目录下
在平时使用的都是指定分割符的存储,在遇到特殊符号的,比如有好几个字符相连的,hive是不能自己处理的,这时候就需要在inputformat/outputformat上处理: 实现这个功能需要实现两个函数: 一个是InputFormat的next函数: 在这里处理的特殊字符是 @##@ 分割符号 : @Override public boolean next(LongWritable key, BytesWritable value) throws IOException { while (reader.next(key, text)) { ...
  使用 jdbc 连接 hive 1. 开启集群: start-all.sh 2. 启动服务: hive --service hiveserver 3. 加入必要的 jar 包: hadoop-x.xx.x-core.jar 和 hive/lib 下的包 4. 编写程序:
使用SAX解析xml文件: import java.io.File; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.helpers.DefaultHandler; public class SaxAnalyseXml extends DefaultHandler { public s ...
p { margin-bottom: 0.08in; } 在 hadoop 集群上执行程序: 这里只是简单的实现文件的读取工作: 1. 开启 hadoop: start.all.sh 注意在开启 hadoop 后并不能马上进行下面的操作, hadoop 会处于安全模式状态下一段时间,大概半分钟到一分钟。 2. 将自己写的程序打包: import java.io.IOException; import jav ...
父线程停止是否会导致子线程停止呢? 不会,具体可看测试程序: public class MultiThread { public static void main(String args[]) throws Exception { boolean flag = true; while (flag) { Thread fatherThread = new FatherThread(); fatherThread.start(); Syst ...
1. 加载数据: records =load './Desktop/data.txt' using PigStorage as (year:int,temperature:int, quality:int); 2. 查看数据: dump records; 3. 根据 quality 字段对 records 数据进行分组: grouped_records =group records by quality; 4. 对分组数据进行统计 , 查看每种质量的天气数据: ...
Writing Python UDFs   1.write python script: @outputSchema("word:chararray") def helloworld(): return 'Hello, World' @outputSchema("word:chararray,num:long") def complex(word): return str(word),len(word) @outputSchemaFunction("squareSchema") ...
AES实现加密解密的功能: import java.security.SecureRandom; import javax.crypto.Cipher; import javax.crypto.KeyGenerator; import javax.crypto.SecretKey; import javax.crypto.spec.SecretKeySpec; public class EncryptDecrypt { /** * 加密 * * @param content * 需要加密的内容 * @param ...
<!-- @page { margin: 0.79in } P { margin-bottom: 0.08in } A:link { so-language: zxx } --> 在 pig 中使用 UDF 函数: 1 ,编写 UDF 函数:   import java.io.IOException; import org.apache.pig.FilterFunc; import org.apache.pig.data.Tuple; ...
在eclipse下运行Map-Reduce程序: 1,在eclipse新建项目。 File-->New-->Other-->Map/Reduce Project 项目名可以随便取,如 HadoopTest 。 复制 hadoop 安装目录 /src/example/org/apache/hadoop/example/WordCount.java
hive中分区表的使用:   1. 创建一个分区表,以 ds 为分区列: create table invites (id int, name string) partitioned by (ds string) row format delimited fields terminated by '\t' stored as textfile; 2. 将数据添加到时间为 2012-10-12 这个分区中: load data local inpath '/home/hadoop/Desktop/data.txt' ...
使用db4o的SODA进行数据库的查询,所使用的Person对象在前面的文章中已经写过 import com.db4o.Db4o; import com.db4o.Db4oEmbedded; import com.db4o.ObjectContainer; import com.db4o.ObjectSet; import com.db4o.eight.study.bean.Person; import com.db4o.query.Constraint; import com.db4o.query.Query; @SuppressWarnings("depr ...
使用db4o的NQ进行数据库的查询,所使用的Person的对象已经在前面的文章中写过 import java.util.List; import com.db4o.Db4oEmbedded; import com.db4o.ObjectContainer; import com.db4o.eight.study.bean.Person; import com.db4o.query.Predicate; public class DB4oQueryUseNQ { final static String DB4OFILENAME = System.getProperty ...
Global site tag (gtag.js) - Google Analytics