hive杂谈

互联网 7 月前 0 0

本文介绍: 该工具的功能是将结构化、半结构化的数据文件映射为一张数据库表，基于数据库表，提供了一种类似SQL的查询模型（HQL），用于访问和分析存储在Had oop文件中的大型数据集。内部表的加载数据和创建表的过程是分开的，在加载数据时，实际数据会被移动到数仓目录中，之后对数据的访问是在数仓目录实现。Hi v e中的表所对应的数据是存储在HDFS中，而表相关的元数据是存储在关系数据库中。数据仓库是一个面向主题的、集成的、非易失的、随时间变化的，用来支持管理人员决策的数据集合，数据仓库中包含了粒度化的企业数据。

数据仓库是一个面向主题的、集成的、非易失的、随时间变化的，用来支持管理人员决策的数据集合，数据仓库中包含了粒度化的企业数据。

数据仓库的主要特征是：主题性、集成性、非易失性、时变性。

数据仓库的体系结构通常包含4个层次：数据源、数据存储和管理、数据服务以及数据应用。
在这里插入图片描述

数据源：数据仓库的数据来源，包括外部数据、现有业务系统和文档资料等。
数据存储和管理：为数据提供的存储和管理，包括数据仓库、数据集市、数据仓库监视、运行与维护工具和元数据管理等。
数据服务：为前端工具和应用提供数据服务，包括直接从数据仓库中获取数据提供给前端使用，或者通过OLAP服务器为前端应用提供更为复杂的数据服务。
数据应用：直接面向最终用户，包括数据工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统。

1.概述

Hi v e是建立在Had oop之上的一种数仓工具。该工具的功能是将结构化、半结构化的数据文件映射为一张数据库表，基于数据库表，提供了一种类似SQL的查询模型（HQL），用于访问和分析存储在Had oop文件中的大型数据集。
Hi v e本身并不具备存储功能，其核心是将HQL转换为MapRe duce 程序，然后将程序提交到Ha d oop 集群中执行。

2.数据模型

①库
MySQL中默认数据库是default，用户可以创建不同的database，在database下也可以创建不同的表。Hi v e也可以分为不同的数据（仓）库，和传统数据库保持一致。在传统数仓中创建 database。默认的数据库也是default。Hi v e中的库相当于关系数据库中的命名空间，它的作用是将用户和数据库的表进行隔离。

②表
Hi v e中的表所对应的数据是存储在HDFS中，而表相关的元数据是存储在关系数据库中。Hive中的表分为内部表和外部表两种类型，两者的区别在于数据的访问和删除：
内部表的加载数据和创建表的过程是分开的，在加载数据时，实际数据会被移动到数仓目录中，之后对数据的访问是在数仓目录实现。而外部表加载数据和创建表是同一个过程，对数据的访问是读取HDFS中的数据；
内部表删除时，因为数据移动到了数仓目录中，因此删除表时，表中数据和元数据会被同时删除。外部表因为数据还在HDFS中，删除表时并不影响数据。
创建表时不做任何指定，默认创建的就是内部表。想要创建外部表，则需要使用Ex ternal进行修饰

③分区
 分区是一个优化的手段，目的是减少全表扫描，提高查询效率。在Hive中存储的方式就是表的主目录文件夹下的子文件夹，子文件夹的名字表示所定义的分区列名字。
④分桶
 分桶和分区的区别在于：分桶是针对数据文件本身进行拆分，根据表中字段（例如，编号ID）的值，经过hash 计算规则，将数据文件划分成指定的若干个小文件。分桶后，HDFS中的数据文件会变为多个小文件。分桶的优点是优化 join 查询和方便抽样查询。

3.HQL的执行
Hive在执行一条HQL语句时，会经过以下步骤：

语法解析：Antlr 定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree；
语义解析：遍历AST Tree，抽象出查询的基本组成单元Que ryBlock；
生成逻辑执行计划：遍历QueryBlock，翻译为执行操作树OperatorTree；
优化逻辑执行计划：逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSin kOperator，减少sh uffle数据量；
生成物理执行计划：遍历OperatorTree，翻译为MapReduce 任务；
优化物理执行计划：物理层优化器进行MapReduce任务的变换，生成最终的执行计划。

https://datawhalech ina.github.io/juicy-bi g data/#/ch07-Hive?id=_702-%e6%95%b0%e6%8d%ae%e4%b b%93%e5%ba%93%e6%a6%82%e5%bf%b5

原文地址:https://blog.csdn.net/qq_43814415/article/details/134629063

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_14721.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

存储数据数据仓库

相关文章

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

大数据 4 月前 3

$【数据分享】1929-2023年全球站点的逐月平均风速（Shp\Excel\免费获取）$

【数据分享】1929-2023年全球站点的逐月平均风速（Shp\Excel\免费获取）

互联网 4 月前 6

$【数据分享】1929-2023年全球站点的逐年平均降水量（Shp\Excel\免费获取）$

【数据分享】1929-2023年全球站点的逐年平均降水量（Shp\Excel\免费获取）

互联网 4 月前 4

机器学习—半监督学习简单示例（标签传播算法）

机器学习—半监督学习简单示例（标签传播算法）

互联网 4 月前 3

香港倾斜模型3DTiles数据漫游

香港倾斜模型3DTiles数据漫游

互联网 4 月前 4

【Mysql】数据库架构学习合集

【Mysql】数据库架构学习合集

mysql 4 月前 2

JVM之GC垃圾回收

互联网 4 月前 1

行为型设计模式—中介者模式

互联网 4 月前 0

发表回复取消回复