`
085567
  • 浏览: 219178 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

定时将数据导入到hive中

    博客分类:
  • hive
阅读更多

应用crontab定时将数据导入到hive中:在调用/bin/hive -f 'loadData.sql' 的时候,报错:Cannot find hadoop installation: $HADOOP_HOME must be set or hadoop must be in the path。

查资料得知是由环境变量在crontab中不一定可识别引起的。于是在脚本中前面加入export HADOOP_HOME=/home/work/hadoop-0.20.2  问题解决。也可以加这句话/home/work/.bashrc

 

引用某博客的一句话:

crontab中必须十分注意环境变量的使用
#!/bin/sh并不是必须,只是当没有sha-bang的时候,也不要在第一行有"#"后带的中文注释!!
最好当然是加上sha-bang啦 #!/bin/sh

还有一个解决方案:
30 12 * * * source ~/.bashrc && shell.sh

 

分享到:
评论

相关推荐

    使用kettle将mysql中的数据导入到hive中

    先说说思路:1是直接从mysql输出至hive中,另外一个是先将数据搞到hdfs中,再load一下,当然这只是textfile存储格式而言,若是ORC等其他列式存储的话建议先搞一个textfile格式的中间表,再insert into table select ...

    Hive数据分析和定时任务调度,也是Flask-Hive项目的大数据处理部分.zip

    - **集成Hive**:将Hive功能集成到Flask应用中,可以创建RESTful API,允许远程用户提交HQL查询,获取查询结果或者执行其他数据操作。 4. **定时任务调度**: - **Cron Jobs**:在Linux系统中,crontab是常用的...

    Hive离线分析项目.zip

    这些文件可能涵盖了数据源定义、数据导入脚本、Hive表结构设计、ETL(提取、转换、加载)流程、查询示例以及结果分析报告等内容。 通过学习这个项目,你可以了解到以下知识点: 1. **Hive的安装与配置**:如何在...

    基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

    在大数据项目中,AirFlow能确保数据从收集到分析的整个流程自动化、有条不紊地运行,例如设置定时任务从MySQL抽取数据,用Sqoop导入HDFS,然后启动Hive和Spark作业进行分析。 最后,Grafana是一个强大的可视化工具...

    hadoop+ha+hive+mapreduce

    综上所述,这个主题覆盖了大数据处理的全貌,从数据存储的HDFS,到数据处理的MapReduce,再到数据分析的Hive,以及高可用性的保障和自动化数据导入的实践,都是大数据领域的重要知识点。理解并掌握这些技术,对于...

    hive与hbase整合经验谈.pdf

    具体操作包括在Hive中创建一个表(通常称为“pokes”),这个表用于临时存储数据,之后使用Hive的INSERT OVERWRITE TABLE语句将数据导入到HBase表中。在HBase中创建表时,需要定义列族,并在Hive表定义中通过WITH ...

    大数据环境包含hadoop+hive+sqoop数据迁移+azkaban任务调度

    首先,使用Sqoop从RDBMS导入数据到Hadoop的HDFS;然后,通过Hive对这些数据进行结构化处理和分析,提供数据查询和报表功能;最后,利用Azkaban调度工作流,确保数据分析任务按计划和依赖关系顺利执行。这样的架构既...

    毕业设计-基于Hadoop平台开发的视频收视率分析源码+项目说明.zip

    将采集到的数据导入kafka中,使用Flume框架技术从kafka采集数据到Hdfs并将数据导入到Hive中,然后使用Hue操作Hive进行离线数据分析,最后利用sqoop导入mysql,整个流程采用azkaban进行脚本定时调度,达到系统需要具备的...

    基于Hadoop的视频收视率分析

    Hdfs并将数据导入到Hive中,然后使用Hue操作Hive进行离线数据分析,最后利用sqoop导入mysql,整个流程采用azkaban进行脚 本定时调度,达到系统需要具备的视频收视分析功能 (3) 大数据分析展示系统采用企业中现今流行...

    streamsets数据采集常见问题汇总1

    问题描述:Oracle中的非空字段在Hive中显示为NULL。 解决方法:使用JDBC Query Consumer组件,并在SQL查询中使用Oracle的TO_CHAR函数来转换数据类型,确保数据能正确导入。 4. **读取Oracle速度慢** 使用场景:...

    Datax支持clickhouse

    在标题提到的"Datax支持clickhouse",意味着Datax已经扩展了对ClickHouse数据库的兼容性,使得我们可以利用Datax将数据从其他数据源导入到ClickHouse中。 ClickHouse是一款高性能的列式存储数据库管理系统(MPP),...

    基于Java的BigData项目.zip

    Project4增量追加到HDFS定时定时将MySQL中的增量数据导入HDFS。 Project5订单交易额离线审计对订单交易额进行离线审计。 Project6SparkBasic5个小问题解决5个Spark基础问题。 Project7HBase操作HBase数据库。 ...

    dolphinscheduler工作流模板

    在大数据场景中,常常需要将关系型数据库中的数据导入到Hive中进行分析。`mysql_sync_hive.json`文件就展示了这种数据同步的过程,通过ETL(提取、转换、加载)工具,将MySQL中的数据实时或定时地迁移至Hive,以支持...

    数仓hive.pdf

    非易失性是指操作型数据库主要服务于日常的业务操作,需要实时更新数据,而数据仓库只需要保存过去的业务数据,不需要实时更新,而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库。数据仓库中的数据一般仅...

    数据湖分析之Upsert详解.pdf

    为了改善这种情况,人们尝试使用CDC(Change Data Capture)技术将数据导入到Kafka,然后再导入到如HBase或Kudu这样的实时存储系统。然而,这种方法依然存在问题,比如HBase和Kudu无法存储全量数据,需要进一步导入...

    Oracle与HDFS的桥梁_Sqoop

    1. `import`:将关系型数据库中的数据导入到 HDFS。 2. `export`:将 HDFS 中的数据导出到关系型数据库。 3. `codegen`:根据数据库中的表生成 Java 源代码,便于处理数据。 4. `create-hive-table`:创建与 HDFS 中...

    数据湖分析之Upsert功能详解.pdf

    腾讯大数据的TDW入库方案采用了消息分拣层,将消息落地为HDFS文件,然后通过Hive任务定时入库,但这种方法对数据延迟的控制依赖于定时任务和Hive Job的运行状况,存在数据丢失的风险。 新一代数据湖的Upsert技术...

    1、Apache Sqoop介绍及部署

    在实际使用中,Sqoop不仅可以用于简单的数据迁移,还可以通过Sqoop Job来管理批处理的数据导入导出任务,实现定时调度。此外,Sqoop还支持多种数据类型和复杂的数据结构,如数组、结构体等,使得它能够处理更广泛的...

    基于Hadoop实现的视频收视率分析,毕设项目+源代码+文档说明

    将采集到的数据导入kafka中,使用Flume框架技术从kafka采集数据到Hdfs并将数据导入到Hive中,然后使用Hue操作Hive进行离线数据分析,最后利用sqoop导入mysql,整个流程采用azkaban进行脚本定时调度,达到系统需要具备的...

Global site tag (gtag.js) - Google Analytics