当前位置: 代码迷 >> 综合 >> 简单数据库实现——Part1 - REPL的简介和设置
  详细解决方案

简单数据库实现——Part1 - REPL的简介和设置

热度:46   发布时间:2023-12-06 14:07:51.0

Part1 - REPL的简介和设置

思考目录中的问题——简而言之就是数据库是如何工作的。为了搞清楚这些问题,我正在从头开始编写一个数据库,它模仿了sqlite,因此它更小而且功能更少。整个数据库被存储在一个文件中(便于理解)。

sqlite

sqlite的网站上有很多文档,这里我给出一个sqlite的设计与实现的架构图。
sqlite architecture
一个查询(query)通过一系列的组件来实现检索或修改数据。
前端(front-end) 组成:

  • 分词器(tokenizer)
  • 语法分析器(parser)
  • 代码生成器(code generator)

前端的输入是一个SQL查询,输出是sqlite虚拟机字节码(实际上是一个可以对数据库进行操作的的已编译程序)

后端(back-end) 组成:

  • 虚拟机(virtual machine)
  • B树(B-tree)
  • 寻呼机(pager)
  • 操作系统接口(os interface)

虚拟机 以前端生成的字节码作为指令。然后它可以对一个或多个表索引执行操作,每个表或索引都存储在称为B树的数据结构中。虚拟机本质上是一个关于字节码指令类型的大型switch语句。

每个 B树 由许多节点组成,每个节点的长度为一页。B树可以从磁盘检索页面,也可以通过向寻呼机发出命令将其保存回磁盘。

寻呼机 接受命令以读取或写入数据页。它负责以适当的偏移量在数据库文件中进行读取/写入。它还在内存中保留了最近访问页面的缓存,并确定何时需要将这些页面写回到磁盘。

操作系统接口 是根据不同的操作系统对sqlite进行不同的编译的层。本教程中,将不支持多平台。

让我们从更直接的东西开始:REPL。

实现一个简单的REPL

从命令行启动时,sqlite将会启动一个“读取-执行-打印”的循环(这个就是REPL)

~ sqlite3
SQLite version 3.16.0 2016-11-04 19:09:39
Enter ".help" for usage hints.
Connected to a transient in-memory database.
Use ".open FILENAME" to reopen on a persistent database.
sqlite> create table users (id int, username varchar(255), email varchar(255));
sqlite> .tables
users
sqlite> .exit
~

所以我们的主函数将有一个无限循环,它打印提示符,获取一行输入,然后处理这一行输入。

int main(int argc, char* argv[]) {
    InputBuffer* input_buffer = new_input_buffer();// 无限循环while (true) {
    // 打印提示符print_prompt();// 获取一行输入read_input(input_buffer);// 处理这一行输入,为.exit时退出if (strcmp(input_buffer->buffer, ".exit") == 0) {
    close_input_buffer(input_buffer);exit(EXIT_SUCCESS);} else {
    printf("Unrecognized command '%s'.\n", input_buffer->buffer);}}
}

我们将InputBuffer定义为一个小包装器,包装我们需要存储的与getline()交互的状态。(稍后详细介绍)

typedef struct {
    char* buffer;size_t buffer_length;ssize_t input_length;
} InputBuffer;InputBuffer* new_input_buffer() {
    InputBuffer* input_buffer = (InputBuffer*)malloc(sizeof(InputBuffer));input_buffer->buffer = NULL;input_buffer->buffer_length = 0;input_buffer->input_length = 0;return input_buffer;
}

print_prompt()显示提示信息。

// 类似mysql中的"mysql>"
void print_prompt() {
     printf("db > "); }

使用getline来读入一行。

ssize_t getline(char **lineptr, size_t *n, FILE *stream);

参数:
lineptr: 指向包含读取行的缓冲区的指针。
n: 指向保存已分配缓冲区大小的变量的指针。
stream: 读入数据的流类型,例如stdin。
返回值:
返回读取的字节数(bytes),可能小于n。

使用getline将读入的数据存入 input_buffer->buffer ,读入数据的大小存入 input_buffer->buffer_length,返回值存入 input_buffer->input_length。

// 此处与InputBuffer做交互
void read_input(InputBuffer* input_buffer) {
    // 使用getline读入指令并存入input_buffer中ssize_t bytes_read = getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);// 读入失败if (bytes_read <= 0) {
    printf("Error reading input\n");exit(EXIT_FAILURE);}// 忽略行末换行符input_buffer->input_length = bytes_read - 1;input_buffer->buffer[bytes_read - 1] = 0;
}

现在可以定义一个函数来释放读入时给InputBuffer所分配的空间。

void close_input_buffer(InputBuffer* input_buffer) {
    // 注意也要释放input_buffer中给buffer分配的内存free(input_buffer->buffer);free(input_buffer);
}

最后,我们解析并执行命令。现在只有一个可识别的命令 “.exit” ,它将终止程序。否则,我们将打印错误消息并继续循环。

让我们来尝试一下:

~ ./db
db > .tables
Unrecognized command '.tables'.
db > .exit
~

实践结果:
在这里插入图片描述

现在我们就有一个可以工作的REPL了,下一部分我们将会继续完善我们的命令语言。下面是第一部分的完整代码:

#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>typedef struct {
    char* buffer;size_t buffer_length;ssize_t input_length;
} InputBuffer;InputBuffer* new_input_buffer() {
    InputBuffer* input_buffer = malloc(sizeof(InputBuffer));input_buffer->buffer = NULL;input_buffer->buffer_length = 0;input_buffer->input_length = 0;return input_buffer;
}void print_prompt() {
     printf("db > "); }void read_input(InputBuffer* input_buffer) {
    ssize_t bytes_read =getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);if (bytes_read <= 0) {
    printf("Error reading input\n");exit(EXIT_FAILURE);}// Ignore trailing newlineinput_buffer->input_length = bytes_read - 1;input_buffer->buffer[bytes_read - 1] = 0;
}void close_input_buffer(InputBuffer* input_buffer) {
    free(input_buffer->buffer);free(input_buffer);
}int main(int argc, char* argv[]) {
    InputBuffer* input_buffer = new_input_buffer();while (true) {
    print_prompt();read_input(input_buffer);if (strcmp(input_buffer->buffer, ".exit") == 0) {
    close_input_buffer(input_buffer);exit(EXIT_SUCCESS);} else {
    printf("Unrecognized command '%s'.\n", input_buffer->buffer);}}
}
  相关解决方案