hadoop API 读/写数据库

xjward

浏览: 35824 次

最近访客更多访客>>

xx5333

liushicheng1

u014083580

xgf502429862

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

利用Hadoop API 从数据库中读出数据简单处理并写入数据库中

package dbio;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;
import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat;
import org.apache.hadoop.mapreduce.lib.db.DBWritable;

public class DBIO extends Configured {
	static String driverClassName = "oracle.jdbc.driver.OracleDriver";
	static String url = "jdbc:oracle:thin:@10.10.31.81:1521/oradev"; 
	static String username = "scott";
	static String password = "test001";

	/**
	 * 用户自定义对象 保存
	 * 
	 * @author Administrator
	 * 
	 */
	public static class AccessRecord implements
			WritableComparable<AccessRecord>, DBWritable {
		int prodid; // 商品编码
		int price; // 商品价格
		int count; // 商品销售数量

		@Override
		public void write(PreparedStatement statement) throws SQLException {
			statement.setInt(1, prodid);
			statement.setInt(2, price);
			statement.setInt(3, count);
		}

		@Override
		public void readFields(ResultSet resultSet) throws SQLException {
			this.prodid = resultSet.getInt(1);
			this.price = resultSet.getInt(2);
			this.count = resultSet.getInt(3);
		}

		/**
		 * Set the prodId and price and count values.
		 */
		public void set(int prodid, int price, int count) {
			this.prodid = prodid;
			this.price = price;
			this.count = count;
		}

		public int getProdid() {
			return prodid;
		}

		public int getPrice() {
			return price;
		}

		public int getCount() {
			return count;
		}

		@Override
		// 反序列化，从流中的二进制转换成AccessRecord 
		public void readFields(DataInput in) throws IOException {
			prodid = in.readInt();
			price = in.readInt();
			count = in.readInt();
		}

		@Override
		// 序列化，将AccessRecord 转化成使用流传送的二进制
		public void write(DataOutput out) throws IOException {
			out.writeInt(prodid);
			out.writeInt(price);
			out.writeInt(count);
		}

		@Override
		// key的比较
		public int compareTo(AccessRecord o) {
			if (o.count == count) {
				if (o.count == 0) {
					return o.prodid - prodid;
				}
				return o.price - price;
			}
			return o.count - count;
		}

		// 新定义类应该重写的两个方法
		@Override
		public int hashCode() {
			return count + prodid * 3;
		}

		@Override
		public boolean equals(Object right) {
			if (right == null)
				return false;
			if (this == right)
				return true;
			if (right instanceof AccessRecord) {
				AccessRecord r = (AccessRecord) right;
				return r.prodid == prodid && r.price == price
						&& r.count == count;
			} else {
				return false;
			}
		}
	}

	static class MapDataBaseInHDFS extends
			Mapper<Object, AccessRecord, LongWritable , AccessRecord> {
		
		LongWritable writeKey = new LongWritable();
		
		public void map(Object key, AccessRecord value, Context context)
				throws IOException, InterruptedException {
			context.write(writeKey,value ); // 输出到Reduce
		}
	}

	public static class ReduceHDFSInDataBase extends
			Reducer<LongWritable , AccessRecord,AccessRecord , LongWritable> {
		
		LongWritable writKey = new LongWritable();

		public void reduce(LongWritable key, Iterable<AccessRecord> values,
				Context context) throws IOException, InterruptedException {
			for (AccessRecord writValue : values) {
				context.write(writValue, writKey);
			}
		}
	}

	/**
	 * @param args
	 * @throws IOException
	 */
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		DBConfiguration.configureDB(conf, driverClassName, url, username,password);
		
		Job job = new Job(conf, "dbio");
		job.setJarByClass(DBIO.class);
		
		// 设置mapper 和 reduce
		job.setMapperClass(MapDataBaseInHDFS.class);
		job.setReducerClass(ReduceHDFSInDataBase.class);
		
		// 设置输出类型 
		// map 输出Key的类型
		job.setMapOutputKeyClass(LongWritable.class);
		// map输出Value的类型
		job.setMapOutputValueClass(AccessRecord.class);
		
		// rduce输出Key的类型
		job.setOutputKeyClass(AccessRecord.class);
		// rduce输出Value的类型
		job.setOutputValueClass(LongWritable.class);
		
		// 设置输入输出路径
		job.setInputFormatClass(DBInputFormat.class);
		DBInputFormat.setInput(job, AccessRecord.class,
				"SELECT PRODID ,PRICE ,COUNT FROM TMP_HADOOP WHERE rownum<100",
				"SELECT count(PRODID) FROM TMP_HADOOP");
		// DBInputFormat.setInput(job, AccessRecord.class, "CUST_CLUB",
		// "rownum<10", "PRODID", new String[] { "PRODID","PRICE","COUNT"});

		job.setOutputFormatClass(DBOutputFormat.class);
		DBOutputFormat.setOutput(job, "TMP_HADOOP", new String[] { "PRODID","PRICE", "COUNT" });

		job.waitForCompletion(true);
	}
}

分享到：

java 发送邮件 | hadoop API 读数据库到HDFS

2013-02-28 11:14
浏览 997
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop API 读/写数据库

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop API 读/写数据库

评论

发表评论

相关推荐

hadoop API 读数据库到HDFS

hadoop 二次排序 插入数据库

hadoop 求平均时间

hadoop 常见错误

Hadoop 分布式安装

Eclipse集成hadoop插件

Hadoop的基础配置

java.io.IOException: ORA-00911

最近访客更多访客>>

hadoop 二次排序插入数据库