- 浏览: 150087 次
- 性别:
- 来自: 北京
最新评论
-
happyDear:
[flash=200,200][url][img][list] ...
java读取txt文件
文章列表
用java读取PDF,这里用到了itext,jar包可以自己上网下载:
public static void readPDF(String path) throws Exception {
try {
PdfReader reader = new PdfReader(path);
int n = reader.getNumberOfPages();
System.out.println("page number = " + n);
String str = PdfTextExtractor.getTextFromPage(r ...
将对
hbase-0.90.6
和
hive-0.8.1
进行集成,使用的
hadoop-0.20.2
1.
首先将
hbase-0.90.6.jar
和
zookeeper-3.3.2.jar
复制到
hive/lib
目录下
在平时使用的都是指定分割符的存储,在遇到特殊符号的,比如有好几个字符相连的,hive是不能自己处理的,这时候就需要在inputformat/outputformat上处理:
实现这个功能需要实现两个函数:
一个是InputFormat的next函数:
在这里处理的特殊字符是 @##@ 分割符号
:
@Override
public boolean next(LongWritable key, BytesWritable value)
throws IOException {
while (reader.next(key, text)) {
...
使用
jdbc
连接
hive
1.
开启集群:
start-all.sh
2.
启动服务:
hive
--service hiveserver
3.
加入必要的
jar
包:
hadoop-x.xx.x-core.jar
和
hive/lib
下的包
4.
编写程序:
使用SAX解析xml文件:
import java.io.File;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
public class SaxAnalyseXml extends DefaultHandler {
public s ...
p { margin-bottom: 0.08in; }
在
hadoop
集群上执行程序:
这里只是简单的实现文件的读取工作:
1.
开启
hadoop:
start.all.sh
注意在开启
hadoop
后并不能马上进行下面的操作,
hadoop
会处于安全模式状态下一段时间,大概半分钟到一分钟。
2.
将自己写的程序打包:
import java.io.IOException;
import jav ...
父线程停止是否会导致子线程停止呢?
不会,具体可看测试程序:
public class MultiThread {
public static void main(String args[]) throws Exception {
boolean flag = true;
while (flag) {
Thread fatherThread = new FatherThread();
fatherThread.start();
Syst ...
1.
加载数据:
records
=load './Desktop/data.txt' using PigStorage as
(year:int,temperature:int, quality:int);
2.
查看数据:
dump
records;
3.
根据
quality
字段对
records
数据进行分组:
grouped_records
=group records by quality;
4.
对分组数据进行统计
,
查看每种质量的天气数据: ...
Writing
Python UDFs
1.write
python script:
@outputSchema("word:chararray")
def helloworld():
return 'Hello, World'
@outputSchema("word:chararray,num:long")
def complex(word):
return str(word),len(word)
@outputSchemaFunction("squareSchema")
...
AES实现加密解密的功能:
import java.security.SecureRandom;
import javax.crypto.Cipher;
import javax.crypto.KeyGenerator;
import javax.crypto.SecretKey;
import javax.crypto.spec.SecretKeySpec;
public class EncryptDecrypt {
/**
* 加密
*
* @param content
* 需要加密的内容
* @param ...
<!--
@page { margin: 0.79in }
P { margin-bottom: 0.08in }
A:link { so-language: zxx }
-->
在
pig
中使用
UDF
函数:
1
,编写
UDF
函数:
import java.io.IOException;
import org.apache.pig.FilterFunc;
import org.apache.pig.data.Tuple;
...
在eclipse下运行Map-Reduce程序:
1,在eclipse新建项目。
File-->New-->Other-->Map/Reduce
Project
项目名可以随便取,如
HadoopTest
。
复制
hadoop
安装目录
/src/example/org/apache/hadoop/example/WordCount.java
hive中分区表的使用:
1.
创建一个分区表,以
ds
为分区列:
create table invites (id int, name
string) partitioned by (ds string) row format delimited fields
terminated by '\t' stored as textfile;
2.
将数据添加到时间为
2012-10-12
这个分区中:
load data local inpath
'/home/hadoop/Desktop/data.txt' ...
使用db4o的SODA进行数据库的查询,所使用的Person对象在前面的文章中已经写过
import com.db4o.Db4o;
import com.db4o.Db4oEmbedded;
import com.db4o.ObjectContainer;
import com.db4o.ObjectSet;
import com.db4o.eight.study.bean.Person;
import com.db4o.query.Constraint;
import com.db4o.query.Query;
@SuppressWarnings("depr ...
使用db4o的NQ进行数据库的查询,所使用的Person的对象已经在前面的文章中写过
import java.util.List;
import com.db4o.Db4oEmbedded;
import com.db4o.ObjectContainer;
import com.db4o.eight.study.bean.Person;
import com.db4o.query.Predicate;
public class DB4oQueryUseNQ {
final static String DB4OFILENAME = System.getProperty ...