设为首页|加入收藏

INFORMATION CENTER

| 雷火电竞app | 最新动态

雷火电竞app:大数据开发join的运行原理_大数据培训

时间:2022-08-11 07:55:21 作者:雷火电竞app官方下载 出处:下载雷火电竞

  因此回答本问题时,可以先回答hive是怎样执行sql的,再对join的过程进行说明。

  ok,首先Hive会根据DQL类SQL语句生成一个MapReduce作业。具体是通过Driver将SQL提【关注尚硅谷,轻松学IT】交到编译器进行语法分析、解析和优化,最后生成一个MapReduce的执行计划,再根据执行计划,生成一个MapReduce作业。

  首先是map过程,会由map task 分别去读A表和B表。因为join要涉及两张表,因此要在 map 输出的时候进行标记。比如来自第一张表的输出 Value 就记录为 1, X,这里的 1 表示数据来自第一张表,key值为 join中on的关联条件;

  接着是Shuffle过程,Shuffle会将相同的key分发到相同的reducer中;

  最后是Reduce过程,在reduce端完成真正的join操作。根据表的标记对 Value 数据求笛卡尔积,用第一张表的每条记录和第二张表的每条记录连接,输出就是 join 的结果。

  Copyright © 2006-2016雷火电竞app官方下载_下载雷火电竞版权所有 ICP备案编号:
这里是您的网站名称