编纂SQL需要注意的细节 Checklist总结_SQL

编写SQL需要注意的细节 Checklist总结
本周技术研究部（TRD）的一名DBA 对我们编写SQL时的一些问题，进行了汇报讲演，以下是来自它的脚本，我在它讲演的基础上写出了自己想表述的，以便于大家相互交流学习。
/*--注意：准备数据（可略过，非常耗时）CREATE TABLE CHECK1_T1(    ID INT,    C1 CHAR(8000))CREATE TABLE CHECK1_T2(    ID INT,    C1 CHAR(8000))DECLARE @I INTSET @I=1WHILE @I<=10000 BEGIN    INSERT INTO CHECK1_T1 SELECT @I,'C1'    INSERT INTO CHECK1_T2 SELECT [email protected],'C1'        SET @[email protected]+1 ENDCREATE TABLE CHECK2_T1(    ID INT,    C1 CHAR(8000))DECLARE @I INTSET @I=1WHILE @I<=10000 BEGIN    INSERT INTO CHECK2_T1 SELECT @I,'C1'        SET @[email protected]+1 ENDINSERT INTO CHECK2_T1 VALUES(10001,'C2')INSERT INTO CHECK2_T1 VALUES(10002,'C1')CREATE TABLE CHECK3_T1(    ID INT,    C1 CHAR(7000))CREATE TABLE CHECK3_T2(    ID INT,    C1 CHAR(7000))DECLARE @I INTSET @I=1WHILE @I<=20000 BEGIN    IF @I%2 =0         BEGIN            INSERT INTO CHECK3_T1 SELECT @I,'C1'        END    ELSE        BEGIN            INSERT INTO CHECK3_T1 SELECT @I,'C2'        END        IF @I%100=0        BEGIN            INSERT INTO CHECK3_T2 SELECT @I,'C1'            INSERT INTO CHECK3_T2 SELECT @I+50000,'C2'            END        SET @[email protected]+1 ENDCREATE TABLE CHECK4_T1(    ID INT,    C1 CHAR(500),)DECLARE @I INTSET @I=1WHILE @I<=500000 BEGIN    IF @I%100000 =0         BEGIN            INSERT INTO CHECK4_T1 SELECT @I,'C2'        END    ELSE        BEGIN            INSERT INTO CHECK4_T1 SELECT @I,'C1'        END            SET @[email protected]+1 ENDCREATE NONCLUSTERED INDEX NCIX_C1 ON CHECK4_T1(C1)CREATE TABLE CHECK5_T1(    ID INT,    C1 CHAR(10),)DECLARE @I INTSET @I=1WHILE @I<=10000 BEGIN    INSERT INTO CHECK5_T1 SELECT @I,'C1'    IF @I%2=0    BEGIN        INSERT INTO CHECK5_T1 SELECT @I,'C1'    END            SET @[email protected]+1 END*/--=====================================--1、    Union all 代替 Union DBCC DROPCLEANBUFFERSDBCC FREEPROCCACHE --测试一：（26s） 执行计划：表扫描->排序->合并联接SELECT ID,C1 FROM CHECK1_T1  --1W条数据UNION SELECT ID,C1 FROM CHECK1_T2  --1W条数据--测试二： (4s)  执行计划：表扫描->表扫描串联SELECT ID,C1 FROM CHECK1_T1  --1W条数据UNION ALLSELECT ID,C1 FROM CHECK1_T2  --1W条数据--总结：测试一中的union 排序和去重合并是相当耗时的，如果不要此功能，大数据时最好加上ALL--=====================================--2、    Exists 代替 Count(*)DBCC DROPCLEANBUFFERSDBCC FREEPROCCACHE ----测试一:  （7s） 执行计划：表扫描-> 流聚合-> 计算矢量 DECLARE @COUNT INT SELECT @COUNT=COUNT(*) FROM CHECK2_T1 WHERE C1='C1'  --1W条数据 IF @COUNT>0    BEGIN           PRINT 'S'    END----测试二:  （0s） 执行计划：常量扫描/表扫描-> 嵌套循环-> 计算标量 IF EXISTS(SELECT 1 FROM CHECK2_T1 WHERE C1='C1')  --1W条数据    BEGIN        PRINT 'S'    END    --总结：判断是否存在，用Exist即可，没必要用COUNT(*)将表的所有记录统计出来，扫描一次    --=====================================--3、    IN（Select COL1 From Table）的代替方式DBCC DROPCLEANBUFFERSDBCC FREEPROCCACHE --测试一： （3s）执行计划：表扫描 -> 哈希匹配 SELECT ID,C1 FROM CHECK3_T2  --400行WHERE ID IN (SELECT ID FROM CHECK3_T1 WHERE C1='C1')  --2W行--测试二：（1s）执行计划：表扫描-> 并行度 -> 位图 -> 排序 -> 合并联接 -> 并行度SELECT A.ID,A.C1 FROM CHECK3_T2 A  INNER  JOIN CHECK3_T1 B ON A.ID=B.ID WHERE B.C1='C1'  --测试三：（3s）执行计划：表扫描-> 哈希匹配 SELECT A.ID,A.C1 FROM CHECK3_T2 AWHERE EXISTS (SELECT 1 FROM CHECK3_T1 B WHERE B.ID=A.ID AND B.C1='C1')--总结：能用INNER JOIN 尽量用它，SQL SERVER在查询时会将关联表进行优化--=====================================--4、    Not Exists 代替 Not In--测试一：（8s） 执行计划：表扫描-> 嵌套循环 -> 哈希匹配SELECT ID,C1 FROM CHECK3_T1  --2W行WHERE ID NOT IN (SELECT ID FROM CHECK3_T2 WHERE C1='C1')  --400行--测试二：（4s） 执行计划：表扫描-> 哈希匹配SELECT A.ID,A.C1 FROM CHECK3_T1 AWHERE NOT EXISTS (SELECT 1 FROM CHECK3_T2 B WHERE B.ID=A.ID AND B.C1='C1')--总结：尽量不使用NOT IN ，因为会调用嵌套循环，建议使用NOT EXISTS代替NOT IN--=====================================--5、    避免在条件列上使用任何函数DROP TABLE CHECK4_T1 CREATE NONCLUSTERED INDEX NCIX_C1 ON CHECK4_T1(C1) --加上非聚集索引---测试一：（4s）执行计划： 索引扫描SELECT * FROM CHECK4_T1 WHERE RTRIM(C1)='C2'---测试二：（0s）执行计划： 索引查找SELECT * FROM CHECK4_T1 WHERE C1='C2'--总结：where条件里对索引字段使用了函数，会使索引查找变成索引扫描，从而查询效率大幅下降--=====================================--6、    用sp_executesql执行动态sql DBCC DROPCLEANBUFFERSDBCC FREEPROCCACHE  CREATE PROC UP_CHECK5_T1 (  @ID INT)AS    SET NOCOUNT ON    DECLARE @count INT,            @sql   NVARCHAR(4000)    SET @sql = 'SELECT @count=count(*) FROM CHECK5_T1 WHERE ID = @ID'    EXEC sp_executesql @sql,                       [email protected] INT OUTPUT, @ID int',                       @count OUTPUT,                       @ID    PRINT @count     CREATE PROC UP_CHECK5_T2 (  @ID INT)AS    SET NOCOUNT ON    DECLARE @sql NVARCHAR(4000)    SET @sql = 'DECLARE @count INT;SELECT @count=count(*) FROM CHECK5_T1 WHERE ID = ' + CAST(@ID AS VARCHAR(10)) + ';PRINT @count'    EXEC(@sql) ---测试一:瞬时DECLARE @N INTSET @N=1WHILE @N<=1000BEGIN    EXEC UP_CHECK5_T1 @N    SET @[email protected]+1END---测试二:2sDECLARE @N INTSET @N=1WHILE @N<=1000BEGIN    EXEC UP_CHECK5_T2 @N    SET @[email protected]+1ENDCREATE CLUSTERED INDEX CIX_ID ON CHECK5_T1(ID)DBCC DROPCLEANBUFFERSDBCC FREEPROCCACHE --查看缓存计划SELECT a.size_in_bytes                                                                               '占用字节数',       total_elapsed_time / execution_count                                                          '平均时间',       total_logical_reads / execution_count                                                         '逻辑读',       usecounts                                                                                     '重用次数',       SUBSTRING(d.text, (statement_start_offset / 2) + 1, ((CASE statement_end_offset                                                               WHEN -1 THEN DATALENGTH(text)                                                               ELSE statement_end_offset                                                             END - statement_start_offset) / 2) + 1) '语句'FROM   sys.dm_exec_cached_plans a       CROSS apply sys.dm_exec_query_plan(a.plan_handle) c,       sys.dm_exec_query_stats b       CROSS apply sys.dm_exec_sql_text(b.sql_handle) dWHERE  a.plan_handle = b.plan_handleORDER  BY total_elapsed_time / execution_count DESC; --总结：通过执行下面缓存计划可以看出，第一种完全使用了缓存计划，查询达到了很好的效果；--而第二种则将缓存计划浪费了，导致缓存很快被占满，这种做法是相当不可取的--=====================================--7、    Left Join 的替代法--测试一 执行计划：表扫描 -> 哈希匹配SELECT A.ID,A.C1 FROM CHECK3_T1 A   --2W行LEFT JOIN CHECK3_T2 B ON A.ID=B.ID WHERE B.C1='C1'  --400行--测试二 执行计划：表扫描 -> 哈希匹配SELECT A.ID,A.C1 FROM CHECK3_T1 A RIGHT JOIN CHECK3_T2 B ON A.ID=B.ID WHERE a.C1='C1'--测试三 执行计划：表扫描 -> 哈希匹配SELECT A.ID,A.C1 FROM CHECK3_T1 A INNER JOIN CHECK3_T2 B ON A.ID=B.ID WHERE B.C1='C1'--总结：三条语句，在执行计划上完全一样，都是走的INNER JOIN的计划，--因为测试一和测试二中，WHERE语句都包含了LEFT 和RIGHT表的字段，SQLSERVER若发现只要有这个表的字段，则会自动按照INNER JOIN进行处理--补充测试：（1s）执行计划：表扫描-> 并行度 -> 位图 -> 排序 -> 合并联接 -> 并行度SELECT A.ID,A.C1 FROM CHECK3_T2 A  --400行INNER  JOIN CHECK3_T1 B ON A.ID=B.ID WHERE A.C1='C1'  --2W行--总结：这里有一个比较有趣的地方，若主表和关联表数据差别很大时，走的执行计划走的另一条路--=====================================--8、    ON(a.id=b.id AND a.tag=3)--测试一SELECT A.ID,A.C1 FROM CHECK3_T1 A INNER JOIN CHECK3_T2 B ON A.ID=B.ID AND A.C1='C1'--测试二SELECT A.ID,A.C1 FROM CHECK3_T1 A INNER JOIN CHECK3_T2 B ON A.ID=B.ID WHERE A.C1='C1'--总结：内连接：无论是左表和右表的筛选条件都可以放到WHERE子句中--测试一SELECT A.ID,A.C1,B.C1 FROM CHECK3_T1 A LEFT JOIN CHECK3_T2 B ON A.ID=B.ID AND B.C1='C1'--测试二SELECT A.ID,A.C1,B.C1 FROM CHECK3_T1 A LEFT JOIN CHECK3_T2 B ON A.ID=B.ID WHERE B.C1='C1'--总结：左外连接:当右表中的过滤条件放入ON子句后和WHERE子句后的结果不一样--=====================================--9、   赋值给变量，加Top 1--测试一：（3s） 执行计划：表扫描DECLARE @ID INTSELECT @ID=ID FROM CHECK1_T1 WHERE C1='C1'SELECT @ID --测试二：（0s）执行计划：表扫描-> 前几行DECLARE @ID INTSELECT TOP 1 @ID=ID FROM CHECK1_T1 WHERE C1='C1'SELECT @ID--总结：给变量赋值最好都加上TOP 1，一从查询效率上增强，二为了准确性，若表CHECK1_T1有多个值，[email protected]--=====================================--10、   考虑是否适合用CASE语句DECLARE @S INT=1SELECT * FROM CHECK5_T1WHERE C1=(CASE @S WHEN 1 THEN C1 ELSE 'C2' END)SELECT * FROM CHECK5_T1WHERE @S=1 OR C1='C2'/*--=====================================12、检查语句是否需要Distinct.  执行计划：表扫描-> 哈希匹配-> 并行度-> 排序select distinct c1 from CHECK3_T1 13、禁用Select *，指定具体列名select c1 from CHECK4_T1select * from CHECK4_T114、Insert into Table（*）,指定具体的列名15、Isnull,没有必要的时候不要对字段使用isnull，同样会产生无法有效利用索引的问题，    和避免在筛选列上使用函数同样的原理。    16、嵌套子查询，加上查询条件，确保子查询的结果集最小--=====================================*/