本文介绍: join时的最后一个表会通过reducer流式传输,并在其中缓冲之前的其他表,因此,将大表放置在最后有助于减少reducer阶段缓存数据所需要的内存。包含左、右两个表的全部行,不管另外一边的表中是否存在与它们匹配的行 在功能上,它等价于对这两个数据集合分别进行左外连接和右外连接,然后再使用。左表数据全部返回,右表关联上的显示返回,关联不上的显示null返回。(LEFT SEMI JOIN)会返回左边表的记录,前提是其记录对于右边的表满足ON语句中的判定条件。左指的是join关键字左边的表,简称左表。
说明
inner join(内连接)、left join(左连接)、right join(右连接)、full outer join(全外连接)、left semi join(左半开连接)、cross join(交叉连接,也叫做笛卡尔乘积)。
参考网址:从零开始学大数据(二十九):HQL join连接查询,Hive参数配置 – 知乎
Hive join使用注意事项:LanguageManual Joins – Apache Hive – Apache Software Foundation
数据准备
语法说明
Hive inner join
Hive left join
Hive right join
Hive full outer join
Hive left semi join
Hive cross join
Hive join使用注意事项
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。