`
chenchangqun
  • 浏览: 55275 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

hive shell脚本生成大量测试数据

阅读更多
背景:接到老大的指示,要为hive生成2000W条测试数据,这可愁死偶了,苦思之后,想到我写文章 hive 快速插入测试数据,可以在此基础上扩展。思路是用shell 脚本生成包含大量数据的data文件,然后导入hive中。


生成 测试数据的shell脚本
data_create.sh
rm -rf ./data.txt
touch data.txt
for((i=0;i<20000000;i++))
do
str=',name';
name=${i}${str}${i}
#echo $name
echo  $name>> data.txt
done

echo 'show testdata'
cat data.txt




运行脚本
sh data_create.sh


进入hive
[root@master hive_data]# hive


删除表
drop table test;

创建表
create table test(id int,name string) row format delimited fields terminated by ',';


导入数据
LOAD DATA LOCAL INPATH '/root/changun/hive_data/data.txt' OVERWRITE INTO TABLE test;  






0
0
分享到:
评论

相关推荐

    EDI shell脚本职责清单1

    在这个场景中,我们看到一系列shell脚本被用来自动化处理数据处理流程,主要涉及Hadoop、Hive、MySQL和NLP(自然语言处理)的任务。以下是这些脚本的主要职责和涉及的技术点: 1. `/opt/running/edi/edi_new_in_...

    hadoop hive入门学习总结

    将生成的测试数据文件上传到HDFS,然后使用`LOAD DATA`命令将数据导入Hive表中,例如: ```sql LOAD DATA LOCAL INPATH '/path/to/studyinfo.txt' INTO TABLE studyinfo; LOAD DATA LOCAL INPATH '/path/to/score....

    Hadoop Hive入门学习笔记.pdf

    使用 Perl 脚本生成测试数据,例如: ```perl #!/usr/bin/perl open(FILE, '&gt;test_data.txt'); print FILE "1\tJohn Doe\n"; print FILE "2\tJane Smith\n"; close(FILE); ``` 3. **导入数据到 Hive**: ...

    Hive用户指南 Hive user guide 中文版

    - **调用外部脚本**:Hive支持通过脚本扩展其功能,例如调用Python或Shell脚本。 **2.8 删除表** - 使用`DROP TABLE table_name [PURGE]`来删除表及其所有数据。 **2.9 其他操作** - **LIMIT**:`SELECT ... ...

    Win10不需要Cygwin搭建大数据测试环境搭建hive的bin文件(包含官方版本中缺少的cmd文件)hive)

    特别是“cmd”文件,它们是Windows下的批处理文件,用于模拟Linux下的shell脚本,使得Hive可以在Windows环境中运行。这些文件可能包括启动Hive CLI(命令行界面)、Metastore服务以及其他相关服务的命令。 在搭建...

    Hive用户手册中文版.pdf

    Hive还支持调用Python、Shell等外部脚本语言,从而实现复杂的外部数据处理逻辑。 Hive的优化与技巧包括如何选择合适的Map和Reduce操作的数量,如何处理大表之间的JOIN操作以避免数据偏斜,如何合并小文件以提高数据...

    hadoop2.2 下hive的安装

    7. **测试安装**:在Hive shell中,可以尝试创建一个数据库和表,然后加载数据并执行查询,以验证Hive是否安装成功。 在安装过程中,可能会遇到各种问题,如权限问题、配置错误或者依赖冲突。解决这些问题通常需要...

    hive X86_64的工具包

    Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL(称为HQL,Hive查询语言)对存储在Hadoop分布式文件系统(HDFS)中的大规模数据集进行查询和分析。这个"hive X86_64的工具包"显然包含了针对...

    pig-hive编程指南

    5. Grunts Shell:交互式命令行工具,用于测试和运行Pig Latin脚本。 二、Hive编程 Hive提供了一种SQL-like的语言(HQL,Hive Query Language),它将复杂的MapReduce作业封装在简单的SQL语句中,降低了大数据处理...

    tpcds-benchmark:包含我的 TPC-DS 基准测试的 Hive 实现的存储库

    2. **数据生成器**:用于根据 TPC-DS 规范生成测试数据集的工具,通常是一个 Shell 脚本或 Java 应用。 3. **配置文件**:设置 Hive 和 Hadoop 参数,以优化查询性能和资源利用率。 4. **运行脚本**:执行查询并收集...

    hive Windows 可执行文件

    通过这个Windows版本的Hive可执行文件,你可以更方便地在本地进行Hadoop数据仓库的开发和测试工作,而无需在虚拟机或Linux环境中操作。但请记住,生产环境通常建议使用更稳定且安全的Linux环境。

    HiveSqlBloodFigure:hive血缘关系解析工具

    删除hive-exec与hadoop-common的maven依赖,使得项目更加的轻量级。 重构项目代码,优化解析,修复无字段血缘时,不能获取表血缘的BUG。 规范化接口输入输出,血缘图均为自定义实体,方便进行JSON序列化。 新增接口...

    hive编译源码的资料

    - 使用`bin/hive`脚本启动Hive的交互式Shell,或者通过`schematool`命令初始化元数据。 9. **自定义Hive**: - 如果你对Hive进行了定制,例如添加新的UDF(用户自定义函数)或者改进现有功能,那么你需要重新编译...

    hive-hbase-generatehfiles

    这种模式提供了一种方法,用于获取已存储在Hive中的数据,将其导出为HFile,并从这些HFile批量加载HBase表。概述HFile生成功能已添加到。 它添加了以下属性,然后Hive HBaseStorageHandler可以利用这些属性。 hive....

    hive安装文档

    - 使用命令`hive`启动Hive的交互式shell。 - 设置一些基本参数以提高用户体验,例如: - `hive&gt; set hive.cli.print.current.db=true;`:显示当前使用的数据库。 - `hive&gt; set hive.cli.print.header=true;`:显示...

    hive-stuff:我发现有用的HIVE东西

    这个名为“hive-stuff”的压缩包很可能包含了与Hive相关的实用资源或脚本,尤其是考虑到标签为“Shell”,我们可以推测其中可能包含了一些用于与Hive交互的Shell脚本或者自动化任务。 Hive的核心功能是将结构化的...

    大数据常用脚本.rar

    2. Shell脚本:在大数据环境中,Shell脚本常用来自动化日常任务,如数据迁移、日志分析和系统监控。利用grep、awk、sed等命令,可以高效地处理文本数据和文件操作。 3. Pig Latin:Apache Pig是一个用于大数据分析...

    hive-0.10.0-bin.tar.gz

    1. **bin**:包含可执行脚本,如启动Hive服务器、客户端交互式shell等。 2. **lib**:包含Hive及其依赖库的JAR文件,这些是运行Hive服务所必需的。 3. **conf**:默认配置文件,如`hive-site.xml`,用于设置Hive的...

    解决文件与元数据类型不兼容的修改源码后并打包的hivejar包及部署脚本

    这通常是通过shell脚本或自动化工具(如Ansible、Jenkins)来实现的,确保新的jar包能在集群环境中正确工作。 在实际操作中,我们还需要注意以下几点: 1. 数据一致性:确保修改后的处理逻辑不会破坏现有数据的一致...

Global site tag (gtag.js) - Google Analytics