该系列的前面一些文章我重点讲了sqlite的核心功能,比如封锁机制,共享缓存,以及事务管理等。但对于sqlite的整体没有作一个全面的介绍,本文将从实现的层面,整体介绍sqlite的框架、各个核心模块以及功能。后续再针对核心模块作进一步的分析。我们说sqlite是一个关系型的嵌入式数据库。提到关系型数据库,我们会想到诸如oracle,mysql,sqlserver等主流数据库,它们的核心功能点在于支持SQL,支持事务;提到嵌入式数据库,我们会想到berkeleyDB,sqlite,它们核心在于嵌入式,即作为应用程序的一部分,没有独立的进程。Sqlite当然具有以上特性,那么这些特性在sqlite中如何实现,有哪些模块实现呢?
图1
如图1,Sqlite由7个模块组成,分别是词法分析器(Tokenizer),解析器(Parser),代码生成器(Code generator),虚拟机(Virtual machine),Tree模块,Pager模块以及OS接口。前面3个模块主要用于解析SQL语句或者命令,后面四个模块则主要用于执行。虽然各个数据库的模块划分可能千差万别,但基本功能是一致的。为了解析SQL,一定有词法+语法分析+语义分析;为了能执行SQL语句,一定需要先生成执行计划,并通过优化器选择最优的执行计划;为了实现事务的ACID特性,一定有事务管理模块,并发控制模块和故障恢复模块等。其实说白了就是这么些东西,针对sqlite,我们看看这些核心的功能分别是由具体哪个模块实现的。
Tokenizer:将SQL语句进行分词
Parser:将词法分析器的输出作为它的输入,结合语义(利用元数据判断,比如表是否存在),生成一个语法树,并最终转换化为执行计划树,这个过程中包含了通过优化器选择最佳路径。所以说整个词法分析+语法分析+语义分析+代价优化都在Parser这个模块中实现。
Code generator:将执行计划树生成虚拟机指令集,这个是sqlite比较独特的地方,主要为虚拟机做准备。
Virtual machine:通过执行代码生成器产生的指令集,来执行SQL语句满足用户的需求。通过操作数据库文件中的记录,来查询或修改数据。
The tree:将用户的记录通过B树结构来管理,每个用户表通过一个B+树管理,每个索引通过一个B树管理。VM通过tree模块实现从Btree中查询、插入、删除、更新记录,或者创建/删除一个Btree等。所有这些操作接口都有tree模块封装。VM执行指令时,直接调用接口即可。
The pager:在tree模块看来,所有的B树的节点都是在内存中的,tree模块不直接与数据库文件打交道。Pager模块负责直接与数据库文件交互,它管理缓存,并负责内外存交互。同时它还负责并发控制和故障恢复。所以pager模块是sqlite中核心模块之一,事务的ACID特性全部靠pager模块实现。
The operating system interface:针对不同的操作系统,提供统一的操作文件接口。Pager模块并不关心底层的硬件和操作系统,在它看来,只需要调用统一的接口就能达到读写文件的目的。当然不仅限于此,除了文件IO,mutex,sleep,随机数生成的统一接口也是该模块封装的。
可以看到,sqlite每个模块的功能边界非常清晰,模块间虽相互依赖,但耦合度很低,因此sqlite扩展相对容易。麻雀虽小,五脏俱全用在sqlite身上再合适不过了,哈哈!