hive shell脚本生成大量测试数据 - - ITeye博客

`

chenchangqun

浏览: 56013 次
性别:
来自: 大连

最近访客更多访客>>

wuwen_java

mxdxm

_谁来拯救笨小孩

lihongbiao

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

shaoscj163： ...
大话分布式事务-概念篇
381573578： Ended Job = job_1400812181187_0 ...
hive 安装 bug汇总

hive shell脚本生成大量测试数据

hive mysql shell 大量数据测试

阅读更多

背景：接到老大的指示，要为hive生成2000W条测试数据，这可愁死偶了，苦思之后，想到我写文章 hive 快速插入测试数据，可以在此基础上扩展。思路是用shell 脚本生成包含大量数据的data文件,然后导入hive中。

生成测试数据的shell脚本
data_create.sh

rm -rf ./data.txt
touch data.txt
for((i=0;i<20000000;i++))
do
str=',name';
name=${i}${str}${i}
#echo $name
echo  $name>> data.txt
done

echo 'show testdata'
cat data.txt

运行脚本

sh data_create.sh

进入hive

[root@master hive_data]# hive

删除表

drop table test;

创建表

create table test(id int,name string) row format delimited fields terminated by ',';

导入数据

LOAD DATA LOCAL INPATH '/root/changun/hive_data/data.txt' OVERWRITE INTO TABLE test;

0
顶

0
踩

分享到：

mysql 'Too many connections' | hive 快速插入测试数据

2014-06-06 10:31
浏览 5815
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

EDI shell脚本职责清单1: 在这个场景中，我们看到一系列shell脚本被用来自动化处理数据处理流程，主要涉及Hadoop、Hive、MySQL和NLP（自然语言处理）的任务。以下是这些脚本的主要职责和涉及的技术点： 1. `/opt/running/edi/edi_new_in_...

hadoop hive入门学习总结: 将生成的测试数据文件上传到HDFS，然后使用`LOAD DATA`命令将数据导入Hive表中，例如： ```sql LOAD DATA LOCAL INPATH '/path/to/studyinfo.txt' INTO TABLE studyinfo; LOAD DATA LOCAL INPATH '/path/to/score....

Hadoop Hive入门学习笔记.pdf: 使用 Perl 脚本生成测试数据，例如： ```perl #!/usr/bin/perl open(FILE, '>test_data.txt'); print FILE "1\tJohn Doe\n"; print FILE "2\tJane Smith\n"; close(FILE); ``` 3. **导入数据到 Hive**: ...

Hive用户指南 Hive user guide 中文版: - **调用外部脚本**：Hive支持通过脚本扩展其功能，例如调用Python或Shell脚本。 **2.8 删除表** - 使用`DROP TABLE table_name [PURGE]`来删除表及其所有数据。 **2.9 其他操作** - **LIMIT**：`SELECT ... ...

Win10不需要Cygwin搭建大数据测试环境搭建hive的bin文件（包含官方版本中缺少的cmd文件）hive）: 特别是“cmd”文件，它们是Windows下的批处理文件，用于模拟Linux下的shell脚本，使得Hive可以在Windows环境中运行。这些文件可能包括启动Hive CLI（命令行界面）、Metastore服务以及其他相关服务的命令。在搭建...

Hive用户手册中文版.pdf: Hive还支持调用Python、Shell等外部脚本语言，从而实现复杂的外部数据处理逻辑。 Hive的优化与技巧包括如何选择合适的Map和Reduce操作的数量，如何处理大表之间的JOIN操作以避免数据偏斜，如何合并小文件以提高数据...

hadoop2.2 下hive的安装: 7. **测试安装**：在Hive shell中，可以尝试创建一个数据库和表，然后加载数据并执行查询，以验证Hive是否安装成功。在安装过程中，可能会遇到各种问题，如权限问题、配置错误或者依赖冲突。解决这些问题通常需要...

hive X86_64的工具包: Hive是Apache Hadoop生态系统中的一个数据仓库工具，它允许用户使用SQL（称为HQL，Hive查询语言）对存储在Hadoop分布式文件系统（HDFS）中的大规模数据集进行查询和分析。这个"hive X86_64的工具包"显然包含了针对...

pig-hive编程指南: 5. Grunts Shell：交互式命令行工具，用于测试和运行Pig Latin脚本。二、Hive编程 Hive提供了一种SQL-like的语言（HQL，Hive Query Language），它将复杂的MapReduce作业封装在简单的SQL语句中，降低了大数据处理...

tpcds-benchmark:包含我的 TPC-DS 基准测试的 Hive 实现的存储库: 2. **数据生成器**：用于根据 TPC-DS 规范生成测试数据集的工具，通常是一个 Shell 脚本或 Java 应用。 3. **配置文件**：设置 Hive 和 Hadoop 参数，以优化查询性能和资源利用率。 4. **运行脚本**：执行查询并收集...

伪分布式+hadoop+hive+hbase: Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。 - **2.1 安装Hive** - 安装Hive通常需要依赖Hadoop环境，确保Hadoop已经正确安装。 - 解压Hive包，并...

hive Windows 可执行文件: 通过这个Windows版本的Hive可执行文件，你可以更方便地在本地进行Hadoop数据仓库的开发和测试工作，而无需在虚拟机或Linux环境中操作。但请记住，生产环境通常建议使用更稳定且安全的Linux环境。

hive编译源码的资料: - 使用`bin/hive`脚本启动Hive的交互式Shell，或者通过`schematool`命令初始化元数据。 9. **自定义Hive**： - 如果你对Hive进行了定制，例如添加新的UDF（用户自定义函数）或者改进现有功能，那么你需要重新编译...

HiveSqlBloodFigure:hive血缘关系解析工具: 删除hive-exec与hadoop-common的maven依赖，使得项目更加的轻量级。重构项目代码，优化解析，修复无字段血缘时，不能获取表血缘的BUG。规范化接口输入输出，血缘图均为自定义实体，方便进行JSON序列化。新增接口...

hive-hbase-generatehfiles: 这种模式提供了一种方法，用于获取已存储在Hive中的数据，将其导出为HFile，并从这些HFile批量加载HBase表。概述HFile生成功能已添加到。它添加了以下属性，然后Hive HBaseStorageHandler可以利用这些属性。 hive....

hive安装文档: - 使用命令`hive`启动Hive的交互式shell。 - 设置一些基本参数以提高用户体验，例如： - `hive> set hive.cli.print.current.db=true;`：显示当前使用的数据库。 - `hive> set hive.cli.print.header=true;`：显示...

hive-stuff:我发现有用的HIVE东西: 这个名为“hive-stuff”的压缩包很可能包含了与Hive相关的实用资源或脚本，尤其是考虑到标签为“Shell”，我们可以推测其中可能包含了一些用于与Hive交互的Shell脚本或者自动化任务。 Hive的核心功能是将结构化的...

大数据常用脚本.rar: 2. Shell脚本：在大数据环境中，Shell脚本常用来自动化日常任务，如数据迁移、日志分析和系统监控。利用grep、awk、sed等命令，可以高效地处理文本数据和文件操作。 3. Pig Latin：Apache Pig是一个用于大数据分析...

hive-0.10.0-bin.tar.gz: 1. **bin**：包含可执行脚本，如启动Hive服务器、客户端交互式shell等。 2. **lib**：包含Hive及其依赖库的JAR文件，这些是运行Hive服务所必需的。 3. **conf**：默认配置文件，如`hive-site.xml`，用于设置Hive的...

解决文件与元数据类型不兼容的修改源码后并打包的hivejar包及部署脚本: 这通常是通过shell脚本或自动化工具（如Ansible、Jenkins）来实现的，确保新的jar包能在集群环境中正确工作。在实际操作中，我们还需要注意以下几点： 1. 数据一致性：确保修改后的处理逻辑不会破坏现有数据的一致...

Global site tag (gtag.js) - Google Analytics