锋利的SQL2014：基于窗口的排行计算_SQL

锋利的SQL2014：基于窗口的排名计算

从SQL Server2005开始，提供了4个排名函数，分别是：ROW_NUMBER、RANK、DENSE_RANK和NTILE。ROW_NUMBER用于按行进行编号，RANK和DENSE_RANK用于按指定顺序排名，NTILE用于对数据进行分组。

对于排名函数而言，OVER子句中可以包含PARTITION BY和ORDER BY子句，其中，ORDER BY是必选的。因为对于排名而言，没有顺序的排名没有任何意义。

本节我们将使用9.1节创建的Students表为例进行介绍。像Students表这样的数据结构设计，相对于数据库存储而言是比较合理的，因为我们不可能为每个班级创建一个表，但确实又存在像为每个班级中的学生成绩进行排序或为学生编号这样的实际需求，SQL Server的窗口计算技术就有效解决了二者之间的矛盾。

9.3.1 ROW_NUMBER函数

ROW_NUMBER返回分区内行的序列号，每个分区的第一行从1开始。例如，下面的语句指定按ClassID进行分区，并按StudentName进行排序编号。查询结果如表9-11所示。

SELECT ClassID, StudentName, Achievement,

ROW_NUMBER() OVER(PARTITION BY ClassID ORDER BY StudentName) ASRowNumber

FROM dbo.Students;

表9-11 按班级分区、按学生姓名进行编号

ClassID	StudentName	Achievement	RowNumber
1	Andrew	99.00	1
1	Grace	99.00	2
1	Janet	75.00	3
1	Margaret	89.00	4
2	Michael	72.00	1
2	Robert	91.00	2
2	Steven	86.00	3
3	Ann	94.00	1
3	Ina	80.00	2
3	Ken	92.00	3
3	Laura	75.00	4

为了理解SQL Server中排名函数的工作原理，我们来看一下查询优化器为查询生成的执行计划，如图9-4所示。

图9-4 为ROW_NUMBER( )生成的执行计划

由上图可以看出，为了计算排名，优化器首先按分区列排序，然后再对分区内行按ORDER BY子句指定的列排序。如果事先为表创建了符合该排序条件的索引，则会直接扫描该索引文件，不再进行排序。

“序列射影”运算符的工作是负责计算排名，“段”运算符用于确定分组边界。二者相互协调工作，来确定每一行的排名值。

“段”运算符在内存中会保留一行，用来与下一行的PARTITION BY列值进行比较。对于表中的第一行，“段”运算符自然会发送true信号。对于后面的行，直到PARTITIONBY列值有变化之前，会一直发送false信号。如果PARTITION BY列值发生了变化，说明已经到了下一个分区，“段”运算符会再次发送true信号。“序列射影”运算符在接收到true信号后，会重置排名值。

如果“序列射影”运算符接收到的是false信号，它会确认当前输入行的排序值是否不同于上一行，如果不同，则按排名函数所指示的递增排名值。自然，在该示例中，由于ROW_NUMBER( )函数需要为每一行递增值。因此，这个排序值比较步骤在该示例中是不存在的。但是，对于像RANK( )和DENSE_RANK( )函数，在执行计划中还会有另外一个“段”运算符，用于比较排序值是否有变化，以确定是否递增排名值。此问题我们在下面还会有介绍。

如果仅仅是为了编号，则可以省略掉PARTITION BY子句。例如，下面的语句为表中所有的行从1开始进行编号。

SELECT ClassID, StudentName, Achievement,

ROW_NUMBER() OVER(ORDER BY StudentName) AS RowNumber

FROM dbo.Students;

9.3.2 RANK和DENSE_RANK函数

ROW_NUMBER函数用于编号，它与排名具有不同的概念。例如，由表9-11可以看出，班级1中的Grace和Andrew的成绩相同，都是99分。如果使用ROW_NUMBER函数编号，有两种编号方案可供选择：一种是Grace第1、Andrew第2，另一种是Andrew第1、Grace第2。这虽然都是正确的，它具有不确定性。

而排名则不同了，它具有确定性，相同的排序值总是被分配相同的排名值。Grace和Andrew在排名的情况下都应当是第1，也就是我们常说的并列第1。那他们两人之后的名次是什么呢？是第2还是第3呢？从两人并列第1的角度讲，他们两人之后的名次应当是第2，这也是DENSE_RANK函数的排名方式；前面已经有2个人99分了，他们后面的人应当是第3个高分者，从这个角度理解，后面的名次应当是第3，这也是RANK( )的排名方式。DENSE_RANK函数的排名方式我们称之为密集排名，因为它的名次之间没有间隔。

下面的语句演示了RANK和DENSE_RANK的排名方式，查询结果如表9-12所示。

SELECT ClassID, StudentName, Achievement,

RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortRank,

DENSE_RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) ASSortDense

FROM dbo.Students;

表9-12 按班级和考试成绩分别使用RANK和DENSE_RANK排名

ClassID	StudentName	Achievement	SortRank	SortDense
1	Grace	99.00	1	1
1	Andrew	99.00	1	1
1	Margaret	89.00	3	2
1	Janet	75.00	4	3
2	Robert	91.00	1	1
2	Steven	86.00	2	2
2	Michael	72.00	3	3
3	Ann	94.00	1	1
3	Ken	92.00	2	2
3	Ina	80.00	3	3
3	Laura	75.00	4	4

图9-5是为语句生成的执行计划，与ROW_NUMBER相比，执行计划中多出了一个“段”运算符。右边段的分组依据是ClassID，左边段的分组依据是ClassID和Achievement，这是多出的“段”。右边的“段”用于分区操作，在到达下一个分区时发送true信号，“序列射影”运算符会重置排名值。而左边的“段”用于比较排序值是否有变化，如果有变化，则通知“序列射影”运算符递增排名值，递增方式则按RANK和DENSE_RANK函数的规则进行。

图9-5 为RANK和DENSE_RANK生成的执行计划

在SQL Server2005之前，也可以使用子查询的方式实现排名计算。语句的原理就是查询出比当前成绩高的个数，再加上1，就是该成绩的排名。例如，在第1个班级中，比99分高的成绩为0，加上1后，该成绩就是第1名。下面语句的执行结果与表9-12完全相同，但是由于对于每个成绩都要执行两次子查询，在性能方面与RANK和DENSE_RANK函数相差很远。

SELECT ClassID, StudentName, Achievement,

(SELECT COUNT(*) FROM dbo.Students AS S2

WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortRank,

(SELECT COUNT(DISTINCT achievement) FROM dbo.Students AS S2

WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortDense

FROM dbo.Students AS S1

ORDER BY ClassID, Achievement DESC;

9.3.3 NTILE函数

NTILE函数用于把行分发到指定数目的组中。各个组有编号，编号从1开始。对于每一个行，NTILE将返回此行所属的组的编号。

NTILE函数可以接受一个代表组数量的参数，分组的方式“均分”原则。例如，假设一个表有10行，需要分成2组，则每个组都会有5行。如果表有11行，需要分成3个组，这时候是无法均分的。它分配方法是先得到一个能够整除的基组大小（11/3=3），每组应当分配3行，剩余的2行（11-9）会被再次均分到前面的2组中。

例如，下面的语句指定将Students表按学生成绩划分为3个组，并且Students表恰好也是11行，分组结果如表9-13所示。

SELECT ClassID, StudentName, Achievement,

NTILE(3) OVER(ORDER BY Achievement DESC) AS Tile

FROM dbo.Students;

表9-13 分组结果

ClassID	StudentName	Achievement	Tile
1	Grace	99.00	1
1	Andrew	99.00	1
3	Ann	94.00	1
3	Ken	92.00	1
2	Robert	91.00	2
1	Margaret	89.00	2
2	Steven	86.00	2
3	Ina	80.00	2
3	Laura	75.00	3
1	Janet	75.00	3
2	Michael	72.00	3

也可以先分区，再分组。例如，下面的语句将每个班级的成绩划分为高、低两组，查询结果如表9-14所示。可以看出，包含4名学生的班级，每组是2人；包含3名学生的班级，第1组是2人，第2组是1人。

SELECT ClassID, StudentName, Achievement,

CASENTILE(2) OVER(PARTITION BY ClassID ORDER BY Achievement DESC)

WHEN 1 THEN '高'

WHEN 2 THEN '低'

ENDAS Tile

FROM dbo.Students;

表9-14 按班级分区再按成绩分组结果

ClassID	StudentName	Achievement	Tile
1	Grace	99.00	高
1	Andrew	99.00	高
1	Margaret	89.00	低
1	Janet	75.00	低
2	Robert	91.00	高
2	Steven	86.00	高
2	Michael	72.00	低
3	Ann	94.00	高
3	Ken	92.00	高
3	Ina	80.00	低
3	Laura	75.00	低