java 解析PDF

博客分类：

java

用java读取PDF，这里用到了itext，jar包可以自己上网下载： public static void readPDF(String path) throws Exception { try { PdfReader reader = new PdfReader(path); int n = reader.getNumberOfPages(); System.out.println("page number = " + n); String str = PdfTextExtractor.getTextFromPage(r ...

2012-08-01 21:34
浏览 4317
评论(0)
分类:编程语言

hbase整合hive

博客分类：

hadoop

hive hase hive整合hbase hbase使用hive

将对 hbase-0.90.6 和 hive-0.8.1 进行集成，使用的 hadoop-0.20.2 1. 首先将 hbase-0.90.6.jar 和 zookeeper-3.3.2.jar 复制到 hive/lib 目录下

2012-07-25 19:05
浏览 1655
评论(0)
分类:编程语言

hive处理特殊分割符的日志

博客分类：

hadoop

hive 分割符 hive处理特殊分割符 hive处理日志 hive处理多个分割符日志

在平时使用的都是指定分割符的存储，在遇到特殊符号的，比如有好几个字符相连的，hive是不能自己处理的，这时候就需要在inputformat/outputformat上处理：实现这个功能需要实现两个函数：一个是InputFormat的next函数：在这里处理的特殊字符是 @##@ 分割符号： @Override public boolean next(LongWritable key, BytesWritable value) throws IOException { while (reader.next(key, text)) { ...

2012-07-24 21:49
浏览 2561
评论(0)
分类:编程语言

jdbc连接hive

博客分类：

hadoop

jdbc连接hive hive hive数据库连接 hive数据库操作

使用 jdbc 连接 hive 1. 开启集群： start-all.sh 2. 启动服务： hive --service hiveserver 3. 加入必要的 jar 包： hadoop-x.xx.x-core.jar 和 hive/lib 下的包 4. 编写程序：

2012-07-24 17:22
浏览 1147
评论(0)
分类:编程语言

SAX解析xml文件

博客分类：

File

解析xml 解析xml文件 SAX解析xml文件使用SAX解析xml文件

使用SAX解析xml文件： import java.io.File; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.helpers.DefaultHandler; public class SaxAnalyseXml extends DefaultHandler { public s ...

2012-07-21 20:39
浏览 1027
评论(0)
分类:编程语言

在集群上运行hadoop程序

博客分类：

hadoop

集群运行hadoop程序 hadoop读取文件 hadoop程序运行

p { margin-bottom: 0.08in; } 在 hadoop 集群上执行程序：这里只是简单的实现文件的读取工作： 1. 开启 hadoop: start.all.sh 注意在开启 hadoop 后并不能马上进行下面的操作， hadoop 会处于安全模式状态下一段时间，大概半分钟到一分钟。 2. 将自己写的程序打包： import java.io.IOException; import jav ...

2012-07-20 20:32
浏览 1200
评论(0)
分类:编程语言

父线程停止是否会导致子线程停止

博客分类：

java

父线程与子线程线程父线程停止是否导致子线程停止

父线程停止是否会导致子线程停止呢？不会，具体可看测试程序： public class MultiThread { public static void main(String args[]) throws Exception { boolean flag = true; while (flag) { Thread fatherThread = new FatherThread(); fatherThread.start(); Syst ...

2012-07-20 18:31
浏览 1797
评论(0)
分类:编程语言

pig的一些基本函数的应用

博客分类：

hadoop

pig pig基本函数 pig入门

1. 加载数据： records =load './Desktop/data.txt' using PigStorage as (year:int,temperature:int, quality:int); 2. 查看数据： dump records; 3. 根据 quality 字段对 records 数据进行分组： grouped_records =group records by quality; 4. 对分组数据进行统计 , 查看每种质量的天气数据： ...

2012-07-17 19:01
浏览 4837
评论(0)
分类:编程语言

pig中python的使用

博客分类：

hadoop

python pig中python的使用 python使用 python编写 python例子

Writing Python UDFs 1.write python script: @outputSchema("word:chararray") def helloworld(): return 'Hello, World' @outputSchema("word:chararray,num:long") def complex(word): return str(word),len(word) @outputSchemaFunction("squareSchema") ...

2012-07-17 18:11
浏览 3205
评论(0)
分类:编程语言

AES加密解密

博客分类：

JavaCard

AES 加密解密加密解密 AES加密解密

AES实现加密解密的功能： import java.security.SecureRandom; import javax.crypto.Cipher; import javax.crypto.KeyGenerator; import javax.crypto.SecretKey; import javax.crypto.spec.SecretKeySpec; public class EncryptDecrypt { /** * 加密 * * @param content * 需要加密的内容 * @param ...

2012-07-16 21:54
浏览 3036
评论(0)
分类:编程语言

pig的UDF函数的使用

博客分类：

hadoop

pig UDF函数 pig用户自定义函数 pig user define function

在 pig 中使用 UDF 函数： 1 ，编写 UDF 函数： import java.io.IOException; import org.apache.pig.FilterFunc; import org.apache.pig.data.Tuple; ...

2012-07-14 21:40
浏览 2045
评论(0)
分类:编程语言

在eclipse下运行Map-Reduce程序

博客分类：

hadoop

hadoop map-Reduce eclipse下运行hadoop程序 hadoop第一个程序

在eclipse下运行Map-Reduce程序: 1，在eclipse新建项目。 File-->New-->Other-->Map/Reduce Project 项目名可以随便取，如 HadoopTest 。复制 hadoop 安装目录 /src/example/org/apache/hadoop/example/WordCount.java

2012-07-12 20:27
浏览 1571
评论(0)
分类:编程语言

hive中分区表，桶的使用

博客分类：

hadoop

hive分区表 hive桶 hive的使用 hive

hive中分区表的使用： 1. 创建一个分区表，以 ds 为分区列： create table invites (id int, name string) partitioned by (ds string) row format delimited fields terminated by '\t' stored as textfile; 2. 将数据添加到时间为 2012-10-12 这个分区中： load data local inpath '/home/hadoop/Desktop/data.txt' ...

2012-07-12 20:14
浏览 4103
评论(0)
分类:编程语言

使用db4o的SODA进行数据库的查询

博客分类：

db4o

db4o db4o查询 SODA

使用db4o的SODA进行数据库的查询，所使用的Person对象在前面的文章中已经写过 import com.db4o.Db4o; import com.db4o.Db4oEmbedded; import com.db4o.ObjectContainer; import com.db4o.ObjectSet; import com.db4o.eight.study.bean.Person; import com.db4o.query.Constraint; import com.db4o.query.Query; @SuppressWarnings("depr ...

2012-07-08 08:04
浏览 1149
评论(0)
分类:编程语言

使用db4o的NQ进行数据库的查询

博客分类：

db4o

db4o NQ db4o查询

使用db4o的NQ进行数据库的查询,所使用的Person的对象已经在前面的文章中写过 import java.util.List; import com.db4o.Db4oEmbedded; import com.db4o.ObjectContainer; import com.db4o.eight.study.bean.Person; import com.db4o.query.Predicate; public class DB4oQueryUseNQ { final static String DB4OFILENAME = System.getProperty ...

2012-07-07 15:20
浏览 1234
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java 解析PDF

hbase整合hive

hive处理特殊分割符的日志

jdbc连接hive

SAX解析xml文件

在集群上运行hadoop程序

父线程停止是否会导致子线程停止

pig的一些基本函数的应用

pig中python的使用

AES加密解密

pig的UDF函数的使用

在eclipse下运行Map-Reduce程序

hive中分区表，桶的使用

使用db4o的SODA进行数据库的查询

使用db4o的NQ进行数据库的查询

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>