`
文章列表
HIVE教程(二)HIVE内置函数之数值函数操作1、round(double a) 返回BIGINT最近的double值。返回double类型的整数值部分 (遵循四舍五入)指定精度取整函数 1、round(double a, int d)例:select round(3.1415926) from t_fin_demo;         3例:select round(3.5) from t_fin_demo;         4例:select round(3.1415926,4) from t_fin_demo;         3.14162、指定精度取整函数: round语法: roun ...
HIVE教程(二)HIVE常用函数之时间函数操作二、时间函数1.日期比较函数: datediff语法: datediff(string enddate,string startdate) 返回值: int 说明: 返回结束日期减去开始日期的天数。select datediff('2016-12-30','2016-12-29');结果  12.日期增加函数: date_add语法: date_add(string startdate, intdays) 返回值: string 说明: 返回开始日期startdate增加days天后的日期。 举例:hive>select date_add(' ...
一、字符串操作1、字符串长度函数:length返回字符串A的长度语法: length(string A)  返回值: int  例子: select length("test") from dual;  结果:4 2、reverse 字符串反转函数 语法: reverse(string A)  返回值: string  select reverse('test') from dual;  结果:tset3、concat字符串连接函数详细说明:返回输入字符串连接后的结果,支持任意个输入字符串语法: concat(string A, string B…)  返回值: string ...
HIVE教程(一)HIVe基本介绍hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表, ...

hive优化

    博客分类:
  • Hive
hive 表优化一、表设计层面优化1、利用分区表优化分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如果筛选条件里有分区字段,那么 Hive 只需要遍历对应分区目录下的文件即可,不需要遍历全局数据,使得处理的数据量大大减少,从而提高查询效率。当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表。2、利用桶表优化指定桶的个数后,存储数据时,根据某一个字段进行哈希后,确定存储在哪个桶里,这样做的目的和分区表类似,也是使得筛选时不用全局遍历所有的数据,只需要遍历所在桶就可以了。3、选择合适的文件存储格式TextFile默认格式,如果建表 ...
JAXBJAXB(Java Architecture for XML Binding) 是一个业界的标准,是一项可以根据XML Schema产生Java类的技术。该过程中,JAXB也提供了将XML实例文档反向生成Java对象树的方法,并能将Java对象树的内容重新写到XML实例文档。从另一方面来讲 ...

hadoop教程

  Hadoop教程 Hadoop简介 Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。 Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点. 特别适合写一次,读多次的场景 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS
Solr Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
ElasticSearch(ES)和solr的关系和区别 Elasticsearch 与 Solr 的比较总结 单纯的对已有数据分析。solr更快 建立实时查询时,solr会产生io阻塞,查询性能更差。es 更有优势 随着数据量变化,solr的搜索效率会变低,而es没有明显变化 多线程下容易死锁性能降低。 综上所述,Solr的架构不适合实时搜索的应用 二者安装都很简单; Solr
elasticsearch 简介 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 ElasticSearch核心概念     接近实时(NRT)
设计模式的六大原则 1、单一职责原则 不要存在多于一个导致类变更的原因,也就是说每个类应该实现单一的职责,否则就应该把类拆分。 定义:不要存在多于一个导致类变更的原因。通俗的说,即一个类只负责一项职责。 问题由来:类T负责两个不同的职责:职责P1,职责P2。当由于职责P1需求发生改变而需要修改类T时,有可能会导致原本运行正常的职责P2功能发生故障。 解决方案:遵循单一职责原则。分别建立两个类T1、T2
深入浅出UML类图 Unified Modeling Language (UML)又称统一建模语言或标准建模语言,是始于1997年一个OMG标准,它是一个支持模型化和软件系统开发的图形化语言,为软件开发的所有阶段提供模型化和可视化支持,包括由需求分析到规格,到构造和配置。 在UML 2.0的13种图形中,类图是使用频率最高的UML图之一 类图用于描述系统中所包含的类以及它们之间的相互关系,帮助人们简化对系统的理解,它是系统分析和设计阶段的重要产物,也是系统编码和测试的重要模型依据。
1、FACTORY 追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 工厂模式:客 ...
1、FACTORY 追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 工厂模式:客 ...
Global site tag (gtag.js) - Google Analytics