您当前的位置:首页 > 新闻资讯 > 最新咨询 >

hive是什么

客户问题: 

hive是什么?

凯铧互联技术回复: 

hive 是基于 Hadoop 的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。hive 数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能,能将 SQL 语句转变成 MapReduce 任务来执行。

Hive 的优点是学习成本低,可以通过类似 SQL 语句实现快速 MapReduce 统计,使 MapReduce 变得更加简单,而不必开发专门的 MapReduce 应用程序。hive 十分适合对数据仓库进行统计分析。

简介

hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能;可以将 SQL 语句转换为 MapReduce 任务运行,通过自己的 SQL 查询分析需要的内容,这套 SQL 简称 Hive SQL,使不熟悉 mapreduce 的用户可以很方便地利用 SQL 语言查询、汇总和分析数据。而 mapreduce 开发人员可以把自己写的 mapper 和 reducer 作为插件来支持 hive 做更复杂的数据分析。

 

它与关系型数据库的 SQL 略有不同,但支持了绝大多数的语句如 DDL、DML 以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的 1:具进行数据提取转化加载,用来存储、查询和分析存储在 Hadoop 中的大规模数据集,并支持 UDF(User-Defined Function)、UDAF(User-Defnes AggregateFunction)和 USTF(User-Defined Table-Generating Function),也可以实现对 map 和 reduce 函数的定制,为数据操作提供了良好的伸缩性和可扩展性。

 

hive 不适合用于联机(online)事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。hive 的特点包括:可伸缩(在 Hadoop 的集群上动态添加设备)、可扩展、容错、输入格式的松散耦合。

 

适用场景

hive 构建在基于静态批处理的 Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,hive 在几百 MB 的数据集上执行查询一般有分钟级的时间延迟。

因此,hive 并不适合那些需要高实时性的应用,例如,联机事务处理(OLTP)。hive 查询操作过程严格遵守 Hadoop MapReduce 的作业执行模型,hive 将用户的 hiveQL 语句通过解释器转换为 MapReduce 作业提交到 Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。hive 并非为联机事务处理而设计,hive 并不提供实时的查询和基于行级的数据更新操作。hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。

 

设计特征

hive 是一种底层封装了 Hadoop 的数据仓库处理工具,使用类 SQL 的 hiveSQL 语言实现数据查询,所有 hive 的数据都存储在 Hadoop 兼容的文件系统(例如,Amazon S3、HDFS)中。hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到 HDFS 中 hive 设定的目录下,因此,hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。hive 的设计特点如下。

支持创建索引,优化数据查询。

不同的存储类型,例如,纯文本文件、HBase 中的文件。

将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。

可以直接使用存储在 Hadoop 文件系统中的数据。

内置大量用户函数 UDF 来操作时间、字符串和其他的数据挖掘工具,支持用户扩展 UDF 函数来完成内置函数无法实现的操作。

类 SQL 的查询方式,将 SQL 查询转换为 MapReduce 的 job 在 Hadoop 集群上执行。

 

 

本文适用于:

hive是什么?

 

 

阿里云2022年开年季新老客户活动

爆款产品:阿里云服务器|阿里云数据库|阿里云安全0.6折起 http://www.alibjyun.com/process.html了解更多!

 

阿里云代理凯铧互联提醒您:

如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。
如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建快照或开启RDS日志备份等功能。
如果您在阿里云平台授权或者提交过登录账号、密码等安全信息,建议您及时修改。

 

以上就是hive是什么的说明。以上说明如果还未能解决您的问题,请联系凯铧互联售后技术支持。阿里云代理凯铧互联提供阿里云服务器/企业邮箱等产品的代购服务,同样的品质,更多贴心的服务,更实惠的价格。 阿里云代理商凯铧互联会为您提供一对一专业全面的技术服务,同时还能为您提供阿里云其他产品购买的专属折扣优惠。通过凯铧互联购买可以获得折上折优惠!若您需要帮助可以直接联系我方客服,阿里云代理商凯铧互联专业技术团队为您提供全面便捷专业的7x24技术服务。 电话专线:136-5130-9831,QQ:3398234753。

为什么选择凯铧互联:北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里巴巴、腾讯等,作为阿里云,腾讯云,百度云,金山云,华为云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案。总部设在,并在内蒙设有办事处。做为一家综合性方案商,凯铧互联向各行业用户提供基于云计算的各种解决方案。为用户获得优质服务的同时,秉承"专业规划、周到服务"的服务理念,根据用户的实际情况,充分考虑各种网络资源的特点及功效,为用户量身定北京做一套适合于其实际应用需求的网络应用方案。帮助用户利用互联网的力量展开新的营销方式,并大大缩短了项目实施周期,获得用户的一致好评。

为什么选择阿里云:阿里云成立于 2009 年,在全球范围内提供一整套全面的云计算服务,旨在帮助您开发业务。阿里云是阿里集团的云计算分支,旨在满足阿里庞大的电商生态的内部需求,包括淘宝、天猫和支付宝。根据 Gartner 的报告市场份额分析:2016 年的全球公有云服务,阿里云是全球第三大云服务提供商。阿里云还是中国市场的领军者,拥有超过 100多款云计算产品和服务,跨越全球 18 个数据中心地域。


[2022-09-26 15:36:17]

在线咨询
售后咨询
扫一扫

扫一扫
凯铧科技

服务QQ
3287819116

返回顶部