概述
??从本质上来讲,计算机只识别二进制代码,因此,不论计算机程序还是其处理的数据,最终都必须转化为二进制码,计算机才能识别。人们给每一个文字符号编码以便计算机识别处理,这就是计算机字符集的由来。
选择合适的字符集
MySQL5.6支持几十种字符集,包括UCS-2、UTF-16、UTF-16LE、UTF-32、UTF-8、utf8mb4等Unicode字符集,选择字符集可以考虑如下几个因素:
- 满足应用支持语言需求,如果应用需要处理各式各样的文字,应该选择Unicode编码,对于MySQL,建议为UTF-8;
- 如果应用中涉及已有数据导入,要充分考虑数据库字符集对已有数据的兼容性。
- 如果数据库只需要支持一般中文,数据量大,性能要求较高,那可以选择双字节定长编码的中文字符集,比如GBK,因为相对于UTF-8,GBK比较小,每个汉字只占2个字节,utf-8汉字需要3个字节;相反,如果主要处理英文字符,选择UTF-8更好,因为GBK,UCS-2,UTF-16中的西文字符编码都是2个字节。
- 如果数据库需要做大量的字符运算,选择定长字符集更好一些。
- 如果所有的客户端程序都支持相同的字符集,则优先选择该字符集作为数据库的字符集。
常用字符集比较:
MySQL字符集
- MySQL支持在同一台服务器,同一个数据库,甚至同一个表的不同字段都可以使用不同的字符集。
- MySQL字符集包括
字符集
和校对规则
;其中字符集用来定义MySQL存储字符串的方式,校对规则用来定义字符串比较方式,字符集与校对规则是一对多的关系。 - MySQL有4个级别的默认设置:服务器级,数据库级,表级,字段级。服务器级可以在MySQL配置文件(my.cnf)中设置
character-set-server=utf-8
;其他是创建时候设置。 - 对于实际应用中, 还存在客户端和服务器之间的字符集和校对规则设置。MySQL提供3个参数设置:
character_set_client
、character_set_connection
、character_set_results
分别代表客户端、连接、返回结果的字符集。通常不会单独设置这3个参数,可以通过命令:set names ***
来设置,还可以设置my.cnf中的default-character-set=utf-8
来设置。
MySQL字符集系统变量含义如下: