1. 立即数
立即操作数,immediate operand,是我觉得在汇编中比较难理解的概念之一了。立即数简单理解就是被编译在指令中的,能被处理器立即使用的常数。在CPU的算数逻辑计算单元 (ALU) 中,能接触到的值只能是来自寄存器的值或者是立即数,他没法儿直接去内存中获取值,内存中的数值必须先被取到寄存器中,然后才能被运算。比如下面这几句C代码:
int a , b;
a = 5;
b = b + a;
ALU要处理a和b的值,就必须先把他们的值取到寄存器中,因为a和b都是变量,他们在内存中都有自己的地址。但是下面这条命令中的5就是一个立即数,5这个常数会被编译到机器指令中,CPU在处理的时候无需去内存单独获取。
int a;
a = a + 5
如下图RISC-V的6种汇编指令类型中,除了第一种纯Register操作的R-type指令外,多达5种都涉及到了立即数的操作。但是我们也看到像I-type指令中立即数只有12个bit,只能表示[-2048, 2047)的范围,对于超出这个范围的立即数如何处理呢?
注意U-type指令类型就是为此而生的,将一个大立即数的高20位先放到寄存器rd中,然后再将rd与I-type指令中的低12位立即数相加,就得到了32位的立即数。这个过程比较复杂,RISC-V提供了一个伪指令li
来表示这一系列操作。
2. 理解汇编指令的寻址模式
寻址模式指的是指令中定位操作数(oprand)或者地址的方式。或者我觉得是CPU获取自己操作对象的方式,上一个小结中我介绍过,CPU能直接接触的只有两类:一类是自己的寄存器,另一类是指令中藏着的立即数。我们可以去看所有汇编语言的汇编指令,其操作数除了寄存器就是立即数。所以我觉得定义寻址模式可以算作一个伪命题嘛,要么是立即数寻址,要么是寄存器寻址,CPU没有别的选择,如果非要说有,那就是把这两者加起来进行寻址。
比如下图中列出的四种RISC-V指令寻址方式中,基址寻址就是普通寄存器(基址)+立即数(偏移),PC相对寻址不同的就是用的寄存器不是普通寄存器了,而是PC寄存器,本质上还是把寄存器和立即数加起来的方式。
那有人可能就会问出一个问题:为什么要有寄存器+立即数这种寻址? 原因在上一小节也提到了,因为一条指令只有32位,其中不可能全部都是立即数,所以当操作一些32位的数据(比如地址等)时,就只能先把大头的部分先放到一个寄存器里存起来,用立即数表示小头,两者加起来得到最终想要的。
当我们搞清楚了为什么要设计这样的寻址模式后,也就能理解一些汇编指令到底为什么要设计成这样或那样的格式。
- 举个例子,如果要我们自己来设计"内存读"这条指令,该怎么设计呢?内存读的作用是把内存中的数据搬到寄存器中,所以第一个操作数肯定是内存地址,内存地址有32位,肯定不能由一个立即数表示完,所以我肯定要用寄存器基地址+立即数偏移的方式,即rs1和imm;接下来第二个操作数自然是数据要搬移到的寄存器,即rd;第三点要考虑的是搬多少,在指定地址搬一个Byte,还是接着搬他两个Byte,还是搬四个?通过不同的指令类型区分一下就好了。轻而易举,我们知道了应该采用I-type这种指令类型,因为其指令元素与上面我们的分析吻合。
然后,给这几条命令起个名,就有了下表的命令。
之前听说一句话,说汇编语言是寻址的艺术。我觉得寻址是汇编的前提,理解了寻址,才能理解汇编指令如何被设计。但是在很多人看来,寻址只是汇编指令的一个结果总结,那就本末倒置了。
3. 精简指令集(RISC)与复杂指令集(CISC)
在学习RISC-V汇编指令的时候,发现最能体现RISC-V是精简指令集的地方就是其存在很多伪指令。如下图所示,比如NEG、MV、NOP等基于算术运算指令实现的伪指令。换句话说,能用其他指令凑出来的指令,就不开发新的指令。由于有的操作需要多条精简指令一起作用,甚至有比较复杂的分支,所以就定义一条伪指令来概括,比如上面的li
指令,从伪指令到多条精简指令这一过程交给汇编器来做。
参考
感谢并十分推荐来自PLCT实验室汪辰老师的课程《循序渐进、学习开发一个RISC-V上的操作系统》:https://www.bilibili.com/video/BV1Q5411w7z5?p=12&spm_id_from=pageDriver