百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

大数据面试必问Hive排序只用过order by?看看需知的这几种排序

ztj100 2024-10-28 21:12 12 浏览 0 评论

我们经常有这样的需求,比如按照用户、访问时间进行排序,以便对排序后的数据进行一些计算,比如计算一个sessionID,计算页面访问的停留时间等。那在排序这个问题上如果只知道使用order by ,那在遇到大数据量时肯定会遇到问题。这篇文章我们就来看看hive排序的几种方式。

我们以查询测试表 webpv 为例, 有时间分区dt,三个主要字段:uid,pa,vdt,分别代表 :用户ID,访问URL,访问时间

一、 order by

全局排序,因此,最终输出的reducer只有一个,默认设置了hive.exec.reducers.max=1。当数据量比较大时,会比较耗时。默认为asc。

select user_id,url,visit_time -- 用户ID,访问URL,访问时间

from webpv

where dt='2018-12-18'

order by visit_time

加上explain后查看执行计划,生成了两个Stage,第一个Stage为Mapreduce,第二个Stage为 Fetch Operator 获取数据。

在执行打印的日志中我们可以看到,只有一个reducers。

Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

二、 sort by

在官方文档上有这么一句:Hive uses the columns in SORT BY to sort the rows before feeding the rows to a reducer

也就是说,sort by是在数据进入到reducer前,按照指定的字段对数据进行排序,所以sort by 排序不影响reducer数量。保证了在每个reducer里的是有序的,因此是局部有序。将order by visit_time,改为sort by user_id后,执行日志中可以看到:

Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 5

可以看到有5个reducers,在每个reducers里会对user_id进行排序。如果将执行结果写入到hdfs中,可以看到会生成5个数据文件,每个文件中的uid是有序的。大家可能会有一个疑问,为什么会有3个mapper,而有5个reducers呢?后面我们会写篇文章进行分析。

值的注意的是,如果我们想查询排序后limit N获取前N行。当使用order by 时数据量太大导致执行时间太长,可以使用 sort by user_id limit N,查看执行计划,我们会发现,它首先执行MapReduce任务,在reducer阶段,对每个reducer的数据的user_id进行排序,排序后返回N条记录,发送到下个stage。这个stage再对M个reducer的M*N条记录收集后,再次进行排序以获取Top N条数据,最后在Fetch Operator的stage将结果返回。

三、 distribute by

按照指定字段,将相同值的数据分发一个reducer里,比如我们在语句后使用distribute by user_id,那么相同用户的访问数据,就会被发送到相同的reducer中。他可以结合sort by,比 如我们想按照每个用户进行的访问时间进行排序,正常我们会使用 order by user_id,visit_time,我们可以用 distribute by user_id sort by user_id asc,visit_time asc, distribute by user_id 保证了相同用户的访问数据会在一个reducer里处理,sort by user_id asc,visit_time asc 保证了在一个reducer里,数据会按照user_id ,visit_time 这两个字段进行排序。

四、 Cluster By

他其实就是distribute by和sort by组合使用,但是,他不能指定排序方式是asc和desc。

也就是说:cluster by user_id 等价于 distribute by user_id sort by user_id

相关推荐

从IDEA开始,迈进GO语言之门(idea got)

前言笔者在学习GO语言编程的时候,GO语言在国内还没有像JAVA/Php/Python那样普及,绕了不少的弯路,要开始入门学习一门编程语言,最好就先从选择一个好的编程语言的开发环境开始,有了这个开发环...

基于SpringBoot+MyBatis的私人影院java网上购票jsp源代码Mysql

本项目为前几天收费帮学妹做的一个项目,JavaEEJSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。一、项目介绍基于SpringBoot...

基于springboot的个人服装管理系统java网上商城jsp源代码mysql

本项目为前几天收费帮学妹做的一个项目,JavaEEJSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。一、项目介绍基于springboot...

基于springboot的美食网站Java食品销售jsp源代码Mysql

本项目为前几天收费帮学妹做的一个项目,JavaEEJSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。一、项目介绍基于springboot...

贸易管理进销存springboot云管货管账分析java jsp源代码mysql

本项目为前几天收费帮学妹做的一个项目,JavaEEJSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。一、项目描述贸易管理进销存spring...

SpringBoot+VUE员工信息管理系统Java人员管理jsp源代码Mysql

本项目为前几天收费帮学妹做的一个项目,JavaEEJSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。一、项目介绍SpringBoot+V...

目前见过最牛的一个SpringBoot商城项目(附源码)还有人没用过吗

帮粉丝找了一个基于SpringBoot的天猫商城项目,快速部署运行,所用技术:MySQL,Druid,Log4j2,Maven,Echarts,Bootstrap...免费给大家分享出来前台演示...

SpringBoot+Mysql实现的手机商城附带源码演示导入视频

今天为大家带来的是基于SpringBoot+JPA+Thymeleaf框架的手机商城管理系统,商城系统分为前台和后台、前台用的是Bootstrap框架后台用的是SpringBoot+JPA都是现在主...

全网首发!马士兵内部共享—1658页《Java面试突击核心讲》

又是一年一度的“金九银十”秋招大热门,为助力广大程序员朋友“面试造火箭”,小编今天给大家分享的便是这份马士兵内部的面试神技——1658页《Java面试突击核心讲》!...

SpringBoot数据库操作的应用(springboot与数据库交互)

1.JDBC+HikariDataSource...

SpringBoot 整合 Flink 实时同步 MySQL

1、需求在Flink发布SpringBoot打包的jar包能够实时同步MySQL表,做到原表进行新增、修改、删除的时候目标表都能对应同步。...

SpringBoot + Mybatis + Shiro + mysql + redis智能平台源码分享

后端技术栈基于SpringBoot+Mybatis+Shiro+mysql+redis构建的智慧云智能教育平台基于数据驱动视图的理念封装element-ui,即使没有vue的使...

Springboot+Mysql舞蹈课程在线预约系统源码附带视频运行教程

今天发布的是由【猿来入此】的优秀学员独立做的一个基于springboot脚手架的Springboot+Mysql舞蹈课程在线预约系统,系统项目源代码在【猿来入此】获取!https://www.yuan...

SpringBoot+Mysql在线众筹系统源码+讲解视频+开发文档(参考论文

今天发布的是由【猿来入此】的优秀学员独立做的一个基于springboot脚手架的在线众筹管理系统,主要实现了普通用户在线参与众筹基本操作流程的全部功能,系统分普通用户、超级管理员等角色,除基础脚手架外...

Docker一键部署 SpringBoot 应用的方法,贼快贼好用

这两天发现个Gradle插件,支持一键打包、推送Docker镜像。今天我们来讲讲这个插件,希望对大家有所帮助!GradleDockerPlugin简介...

取消回复欢迎 发表评论: