Part1 - REPL的简介和设置
思考目录中的问题——简而言之就是数据库是如何工作的。为了搞清楚这些问题,我正在从头开始编写一个数据库,它模仿了sqlite,因此它更小而且功能更少。整个数据库被存储在一个文件中(便于理解)。
sqlite
sqlite的网站上有很多文档,这里我给出一个sqlite的设计与实现的架构图。
一个查询(query)通过一系列的组件来实现检索或修改数据。
前端(front-end) 组成:
- 分词器(tokenizer)
- 语法分析器(parser)
- 代码生成器(code generator)
前端的输入是一个SQL查询,输出是sqlite虚拟机字节码(实际上是一个可以对数据库进行操作的的已编译程序)
后端(back-end) 组成:
- 虚拟机(virtual machine)
- B树(B-tree)
- 寻呼机(pager)
- 操作系统接口(os interface)
虚拟机 以前端生成的字节码作为指令。然后它可以对一个或多个表索引执行操作,每个表或索引都存储在称为B树的数据结构中。虚拟机本质上是一个关于字节码指令类型的大型switch语句。
每个 B树 由许多节点组成,每个节点的长度为一页。B树可以从磁盘检索页面,也可以通过向寻呼机发出命令将其保存回磁盘。
寻呼机 接受命令以读取或写入数据页。它负责以适当的偏移量在数据库文件中进行读取/写入。它还在内存中保留了最近访问页面的缓存,并确定何时需要将这些页面写回到磁盘。
操作系统接口 是根据不同的操作系统对sqlite进行不同的编译的层。本教程中,将不支持多平台。
让我们从更直接的东西开始:REPL。
实现一个简单的REPL
从命令行启动时,sqlite将会启动一个“读取-执行-打印”的循环(这个就是REPL)
~ sqlite3
SQLite version 3.16.0 2016-11-04 19:09:39
Enter ".help" for usage hints.
Connected to a transient in-memory database.
Use ".open FILENAME" to reopen on a persistent database.
sqlite> create table users (id int, username varchar(255), email varchar(255));
sqlite> .tables
users
sqlite> .exit
~
所以我们的主函数将有一个无限循环,它打印提示符,获取一行输入,然后处理这一行输入。
int main(int argc, char* argv[]) {
InputBuffer* input_buffer = new_input_buffer();// 无限循环while (true) {
// 打印提示符print_prompt();// 获取一行输入read_input(input_buffer);// 处理这一行输入,为.exit时退出if (strcmp(input_buffer->buffer, ".exit") == 0) {
close_input_buffer(input_buffer);exit(EXIT_SUCCESS);} else {
printf("Unrecognized command '%s'.\n", input_buffer->buffer);}}
}
我们将InputBuffer定义为一个小包装器,包装我们需要存储的与getline()交互的状态。(稍后详细介绍)
typedef struct {
char* buffer;size_t buffer_length;ssize_t input_length;
} InputBuffer;InputBuffer* new_input_buffer() {
InputBuffer* input_buffer = (InputBuffer*)malloc(sizeof(InputBuffer));input_buffer->buffer = NULL;input_buffer->buffer_length = 0;input_buffer->input_length = 0;return input_buffer;
}
print_prompt()显示提示信息。
// 类似mysql中的"mysql>"
void print_prompt() {
printf("db > "); }
使用getline来读入一行。
ssize_t getline(char **lineptr, size_t *n, FILE *stream);
参数:
lineptr: 指向包含读取行的缓冲区的指针。
n: 指向保存已分配缓冲区大小的变量的指针。
stream: 读入数据的流类型,例如stdin。
返回值:
返回读取的字节数(bytes),可能小于n。
使用getline将读入的数据存入 input_buffer->buffer ,读入数据的大小存入 input_buffer->buffer_length,返回值存入 input_buffer->input_length。
// 此处与InputBuffer做交互
void read_input(InputBuffer* input_buffer) {
// 使用getline读入指令并存入input_buffer中ssize_t bytes_read = getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);// 读入失败if (bytes_read <= 0) {
printf("Error reading input\n");exit(EXIT_FAILURE);}// 忽略行末换行符input_buffer->input_length = bytes_read - 1;input_buffer->buffer[bytes_read - 1] = 0;
}
现在可以定义一个函数来释放读入时给InputBuffer所分配的空间。
void close_input_buffer(InputBuffer* input_buffer) {
// 注意也要释放input_buffer中给buffer分配的内存free(input_buffer->buffer);free(input_buffer);
}
最后,我们解析并执行命令。现在只有一个可识别的命令 “.exit” ,它将终止程序。否则,我们将打印错误消息并继续循环。
让我们来尝试一下:
~ ./db
db > .tables
Unrecognized command '.tables'.
db > .exit
~
实践结果:
现在我们就有一个可以工作的REPL了,下一部分我们将会继续完善我们的命令语言。下面是第一部分的完整代码:
#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>typedef struct {
char* buffer;size_t buffer_length;ssize_t input_length;
} InputBuffer;InputBuffer* new_input_buffer() {
InputBuffer* input_buffer = malloc(sizeof(InputBuffer));input_buffer->buffer = NULL;input_buffer->buffer_length = 0;input_buffer->input_length = 0;return input_buffer;
}void print_prompt() {
printf("db > "); }void read_input(InputBuffer* input_buffer) {
ssize_t bytes_read =getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);if (bytes_read <= 0) {
printf("Error reading input\n");exit(EXIT_FAILURE);}// Ignore trailing newlineinput_buffer->input_length = bytes_read - 1;input_buffer->buffer[bytes_read - 1] = 0;
}void close_input_buffer(InputBuffer* input_buffer) {
free(input_buffer->buffer);free(input_buffer);
}int main(int argc, char* argv[]) {
InputBuffer* input_buffer = new_input_buffer();while (true) {
print_prompt();read_input(input_buffer);if (strcmp(input_buffer->buffer, ".exit") == 0) {
close_input_buffer(input_buffer);exit(EXIT_SUCCESS);} else {
printf("Unrecognized command '%s'.\n", input_buffer->buffer);}}
}