前言
之前研究过MySQL的一个中间件amoeba来做MySQL数据库的读写分离,今天带来一个功能更为强大的中间件——mycat,从定义和分类来看,它是一个开源的分布式数据库系统,但是本身并不存储数据,它是一个实现了MySQL协议的Server,前端用户可以把它看做是一个数据库代理,用MySQL客户端工具和命令行访问,而其后端可以用MySQL原生(Native)协议与多个MySQL服务器通信,也可以用JDBC协议与大多数主流数据库服务器通信,其核心功能是分库分表(这点amoeba不支持)。说它是MySQL的中间件,其实发展到现在的版本,也不只这么简单了,它可以支持包括MySQL、SQL Server、Oracle、DB2、PostgreSQL等主流数据库和MongoDB等NOSQL数据库。
主要功能
那么,mycat到底能干什么呢?
1、读写分离,此时配置最为简单,支持读写分离,主从切换
2、分表分库(主要),对于超过一千万的表进行分片,最大支持一千亿的单标分片
3、容灾备份(集群)
4、多租户应用开发,每个应用一个库,但应用程序只连接Mycat,从而不改造程序本身,实现多租户化
5、云平台基础设施
6、报表系统,借助于Mycat的分表能力,处理大规模报表的统计,代替Hbase,分析大数据,比如100亿条频繁查询的记录需要在3秒内查询出来结果,除了基于主键的查询,还可能存在范围查询或其他属性查询,此时ycat可能是最简单有效的选择
7、…………
原理
mycat的原理并不复杂,其最重要的一个动词就是“拦截”,它拦截了用户发送过来的SQL语句,首先对SQL语句做了一些特定的分析:如分片分析、路由分析、读写分离分析、缓存分析等,然后将此SQL发往后端的真实数据库,并将返回的结果做适当的处理,最终再返回给用户。
优点
那么,既然选择了mycat作为中间件,它与不使用中间件相比,优势在哪里呢?首先,我们知道,mycat是介于应用和数据库之间进行数据处理与交互的中间件服务,它最主要的功能就是数据分片存储以及多租户的实现,下面我们主要从表的数据切分方面来简单介绍一下mycat。
数据切分
简单来说,就是指通过某种特定的条件,将我们存放在同一个数据库中的数据分散存放到多个数据库(主机)上面,以达到分散单台设备负载的效果。
数据的切分根据其切分的规则,可以分为两种切分模式,一种是按照不同的表来切分到不同的数据库之上,这种切分成为数据的垂直(纵向)切分,另外一种则是根据表中的逻辑关系,将同一个表中的数据按照某种条件拆分到多台数据库上面,这种切分成为数据的水平(横向)切分。
垂直切分的最大特点就是规则简单,实施也更为方便,尤其适合各业务之间的耦合度非常低,相互影响很小,业务逻辑非常清晰的系统。在这种系统中,可以很容易做到将不同业务模块所使用的表分拆到不同的数据库中。根据不同的表来进行拆分,对应用程序的影响也更小,拆分规则也会比较简单清晰。
水平切分于垂直切分相比,相对来说稍微复杂一些。因为要将同一个表中的不同数据拆分到不同的据库中,对于应用程序来说,拆分规则本身就较根据表名来拆分更为复杂,后期的数据维护也会更为复杂一些。
垂直切分
一个数据库由很多表的构成,每个表对应着不同的业务,垂直切分是指按照业务将表进行分类,分布到不同 的数据库上面,这样也就将数据或者说压力分担到不同的库上面,如下图:
一般来说,功能之间耦合性越低,垂直拆分越容易。在系统前期,功能之间有耦合的情况,会让数据库让步业务,两个功能公用一套数据,但是到了后期,负载很大的情况下,分库是必须要做的。
优点
1、拆分后业务清晰,规则明确
2、系统之间整合或扩展容易
3、数据维护简单
缺点
1、部分业务表无法join,只能通过接口的方式,提高了系统复杂度
2、垂直切分后,还是存在单库的性能瓶颈,性能不易提高。
3、事务处理复杂。
水平切分
相对于垂直拆分,水平拆分不是将表做分类,而是按照某个字段的某种规则来分散到多个库之中,每个表中包含一部分数据。简单来说,我们可以将数据的水平切分理解为是按照数据行的切分,就是将表中的某些行切分到一个数据库,而另外的某些行又切分到其他的数据库中,如图:
水平拆分是什么意思呢?简单来说,就是把一张庞大的表,根据分片规则,拆分到多个表中去,所有表一起组成了这张表,比如,我可以将一张用户表,根据id分到n个库中,每个库存放(总量/n)个数据,同样,我可以根据年份,将每年的数据单独放到一个库中等等。几种mycat提供的典型的分片规则如按照用户ID求模,将数据分散到不同的数据库,具有相同数据用户的数据都被分散一个库中;按照日期,将不同月甚至日的数据分散到不同的库中;按照某个特定的字段求模,或者根据特定范围段分散到不同的库中。
优点
1、拆分规则抽象好
2、不存在单库大数据,高并发的性能瓶颈
3、应用端改造较少
4、提高了系统的稳定性跟负载能力
缺点
1、拆分规则难以抽象
2、分片亊务一致性难以解决
3、数捤多次扩展难度跟维护量极大
4、跨库 join 性能较差
数据切分规则
第一原则:能不切分尽量不要切分。
第二原则:如果要切分一定要选择合适的切分规则,提前规划好。
第三原则:数据切分尽量通过数据冗余或者表分组(Table Group)来降低跨库 Join 的可能。
第四原则:由于数据库中间件对数据 Join 实现的优劣难以把握,而且实现高性能难度极大,业务读取尽量少使用多表 Join。
总结
这篇文章简单介绍了一下mycat的用途和表的切分,下篇博客开始,就来深入学习一下mycat如何配置主从、读写分离、切库、分库分表、通过zookeeper来实现mycat的自动建库建表乃至mycat集群的搭建。