hive sql查询语句练习

测试数据

course.txt
1,数据库
2,数学
3,信息系统
4,操作系统
5,数据结构
6,数据处理

sc.txt
95001,1,81
95001,2,85
95001,3,88
95001,4,70
95002,2,90
95002,3,80
95002,4,71
95002,5,60
95003,1,82
95003,3,90
95003,5,100
95004,1,80
95004,2,92
95004,4,91
95004,5,70
95005,1,70
95005,2,92
95005,3,99
95005,6,87
95006,1,72
95006,2,62
95006,3,100
95006,4,59
95006,5,60
95006,6,98
95007,3,68
95007,4,91
95007,5,94
95007,6,78
95008,1,98
95008,3,89
95008,6,91
95009,2,81
95009,4,89
95009,6,100
95010,2,98
95010,5,90
95010,6,80
95011,1,81
95011,2,91
95011,3,81
95011,4,86
95012,1,81
95012,3,78
95012,4,85
95012,6,98
95013,1,98
95013,2,58
95013,4,88
95013,5,93
95014,1,91
95014,2,100
95014,4,98
95015,1,91
95015,3,59
95015,4,100
95015,6,95
95016,1,92
95016,2,99
95016,4,82
95017,4,82
95017,5,100
95017,6,58
95018,1,95
95018,2,100
95018,3,67
95018,4,78
95019,1,77
95019,2,90
95019,3,91
95019,4,67
95019,5,87
95020,1,66
95020,2,99
95020,5,93
95021,2,93
95021,5,91
95021,6,99
95022,3,69
95022,4,93
95022,5,82
95022,6,100

students.txt
95001,李勇,男,20,CS
95002,刘晨,女,19,IS
95003,王敏,女,22,MA
95004,张立,男,19,IS
95005,刘刚,男,18,MA
95006,孙庆,男,23,CS
95007,易思玲,女,19,MA
95008,李娜,女,18,CS
95009,梦圆圆,女,18,MA
95010,孔小涛,男,19,CS
95011,包小柏,男,18,MA
95012,孙花,女,20,CS
95013,冯伟,男,21,CS
95014,王小丽,女,19,CS
95015,王君,男,18,MA
95016,钱国,男,21,MA
95017,王风娟,女,18,IS
95018,王一,女,19,IS
95019,邢小丽,女,19,IS
95020,赵钱,男,21,IS
95021,周二,男,17,MA
95022,郑明,男,20,MA

使用下面的语句来创建表。

create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored as textfile;

create table course(Cno int,Cname string) row format delimited fields terminated by ',' stored as textfile;

create table sc(Sno int,Cno int,Grade int)row format delimited fields terminated by ',' stored as textfile;

使用下面的命令来导入数据:

load data local inpath '/root/sql_learn/students.txt' overwrite into table student;

load data local inpath '/root/sql_learn/sc.txt' overwrite into table sc;

load data local inpath '/root/sql_learn/course.txt' overwrite into table course;

查询全体学生的学号与姓名

select Sno,Sname from student;

查询选修了课程的学生姓名

select distinct Sname from student inner join sc on(student.Sno=sc.Sno);

查询学生的总人数

select count(1) from student;

计算****1****号课程的学生平均成绩

select avg(Grade) from sc group by Cno having Cno=1;

查询各科成绩平均分

select Cname,avg(Grade) as average

from course inner join sc on (course.Cno=sc.Cno)

group by course.Cname,sc.Cno;

这里学到了一招:select 后的字段,必须要么包含在group by中,要么使用聚合函数。

查询选修****1****号课程的学生最高分数

select Grade from sc where Cno=1 order by Grade desc limit 1;

然后查了一下,发现order by只能用一个reducer来完成任务,可以使用下面的语句来提高效率。

select Grade from sc where Cno=1 distribute by Grade sort by Grade desc limit 1;

原理是sort by使用分组排序。按照Grade进行Hash,将结果相同的放到不同的Reducer里面。

不过需要注意的是:如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只会保证每个reducer的输出有序,并不保证全局有序。sort by不同于order by,它不受Hive.mapred.mode属性的影响,sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定),对输出的数据再执行归并排序,即可得到全部结果。

Distribute by****和****sort by****的使用场景

  1. Map输出的文件大小不均。

  2. Reduce输出文件大小不均。

  3. 小文件过多。

  4. 文件超大。

求各个课程号及相应的选课人数

select Cno,count(1) from sc group by Cno;

查询选修了****3****门以上的课程的学生学号

select Sno from sc group by Sno having count(1)>3;

查询学生信息,结果按学号全局有序

select * from student order by Sno asc;

查询学生信息,结果区分性别按年龄有序

select * from student order by Sex, Sage asc;

查询每个学生及其选修课程的情况

select student.*,sc.Cno,sc.Grade from student inner join sc on(student.Sno=sc.Sno);

查询学生的得分情况

select student.Sname,course.Cname,sc.Grade

from student inner join sc on(student.Sno=sc.Sno) inner join course on(course.Cno=sc.Cno);

查询选修****2****号课程且成绩在****90****分以上的所有学生。

select Sname from student inner join sc on(student.Sno=sc.Sno) where sc.Cno=2;

查询所有学生的信息,如果在成绩表中有成绩,则输出成绩表中的课程号

select student.*,Cno from student left outer join sc on(student.Sno=sc.Sno);

—-LEFT SEMI JOIN Hive****当前没有实现 IN/EXISTS 子查询,可以用 LEFT SEMI JOIN 重写子查询语句。

重写以下子查询

SELECT a.key, a.value

FROM a

WHERE a.key in

(SELECT b.key

FROM B);

重写后的SQL查询如下:

select a.key,a.value from a left outer join b on(a.key=b.key) where b.key is not null;

select a.key,a.value from a left semi join b on(a.key=b.key)

查询与****“****刘晨****”****在同一个系学习的学生

select s2.* from student as s1 inner join student as s2 on(s2.Sdept=s1.Sdept) where s1.Sname='刘晨';

注意比较:

select * from student s1 left join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

select * from student s1 right join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

select * from student s1 inner join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

select * from student s1 left semi join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

select s1.Sname from student s1 right semi join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

查询每科课程的成绩前两名的学号,姓名,课程号和成绩

hive> select s.sno,sname,cno,grade from student s inner join (select sno,cno,grade from(select sno,cno,grade,row_number() over(partition by cno order by grade desc) as a from sc) test where test.a<3)b on s.sno=b.sno;

95013 冯伟 1 98

95008 李娜 1 98

95018 王一 2 100

95014 王小丽 2 100

95006 孙庆 3 100

95005 刘刚 3 99

95015 王君 4 100

95014 王小丽 4 98

95017 王风娟 5 100

95003 王敏 5 100

95022 郑明 6 100

95009 梦圆圆 6 100

Time taken: 31.19 seconds, Fetched: 12 row(s)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 笔记: 一、聚合函数:计数 最大值 最小值 平均数 求和 1.计数 COUNT() 忽略NULL值 方式1:COU...
    凤之鸠阅读 4,997评论 0 1
  • 单表查询 只在一个表中查询数据 多表查询 同时查询多个表 说明:这是在学生表student和成绩表SC中查询成绩大...
    爱撒谎的男孩阅读 1,123评论 0 2
  • 一、多表查询 --编写多表查询语句的一般过程 --(1)、分析句子要涉及到哪些表 --(2)、对应的表中要查询哪些...
    __71db阅读 1,780评论 0 6
  • 数据定义 模式 定义模式CREATE SCHEMA <模式名> AUTHORIZATION <用户名>;CREAT...
    creepycool阅读 540评论 0 0
  • 一.用户运营 1.为什么我认为用户运营是非常有潜力有前景的岗位? 传统公司看中成交一个点,而互联网公司看中用户和自...
    疯起疯落阅读 1,180评论 0 7