当前位置: 代码迷 >> 综合 >> LLVM IR(二)——IR基本语法及高级结构(High Level Structure)
  详细解决方案

LLVM IR(二)——IR基本语法及高级结构(High Level Structure)

热度:19   发布时间:2024-01-28 15:00:27.0

可以转载,请注明出处!

这一章后续会持续更新,直到这一句话没了!

2.1 标识符

LLVM标识符有两种基本类型:全局标识符和局部标识符。全局标识符包括函数和全局变量,以’@‘字符开头;局部标识符包括局部变量和type,以’%'字符开头。此外,为了不同的目的,标识符有三种不同的格式:

  • 1)命名的值由前缀(@或者%)加字符串表示,比如%foo等。识别变量的 正则表达式为[%@][-a-zA-Z . ] [ ? a ? z A ? Z ._][-a-zA-Z ._0-9]*。
  • 2)未命名的值由签注加无符号数字表示,比如%2等。目前我称其为零时变 量,后面觉得有更好的解释再改。
  • 3)常量,对于常量后面再做详细的介绍。

例如:
@.str是一个全局变量;%call是一个局部变量。

【注】标识符由前缀开头有两个方面的原因:一是编译器不用担心其与保留字冲突;二是编译器可以方便的给未命名的值设置临时变量而不需要考虑符号表冲突。所谓临时变量,就是当计算结果没有分配给指定值时,就会创建未命名的临时变量,未命名的临时文件是按顺序编号的,从0开始,比如%0、%1。

2.2 注释

LLVM的注释只有一种表示形式,以字符“;”开始,持续到改行的结束。

例如:

define i32 @main() #0 {		;这是一个注释,这里定义了一个函数
entry:ret i32 0
}

2.3 IR代码结构

Module:LLVM程序由模块组成,每个输入程序都对应一个模块,模块包括函数、全局变量和符号表。多个模块可以被LLVM 链接器(linker)组合在一起。可以将LLVM中的Module类比为C程序中的源文件。一个C源文件中包含函数和全局变量定义、外部函数和外部函数声明,一个Module中包含的内容也基本上如此,只不过C源文件中是源码来表示,Module中是用IR来表示。

Function:被Module所包含,LLVM的Function包含函数名、函数的返回值和参数类型,Function内部则包含BasicBlock。

BasicBlock:与编译技术中常见的基本块(basic block)的概念是一致的,BasicBlock必须有一个进入标签和一条结束指令。结束指令一般是br跳转指令或者ret返回执行。

Instruction:就是上面提到过的“指令”,LLVM IR的最基本的单位,Instruction被包含在BasicBlock中,一个BasicBlock可以有多条Instruction。

2.4 链接类型(Linkage Types)

全局的值(全局变量和函数)都由指向某个特定位置的指针表示,并且有一个链接类型:

  • 1)private。private类型的全局变量只能被当前模块内的对象直接访问。而且,当将代码链接到一个包含private类型值的模块的时候,这个private值可能被重命名以避免冲突。由于这个值是模块私有的,所以所有的引用都可以直接更新。private的值不会出现在目标代码的符号表中。
  • 2)internal。与private类似,不过它的值会作为局部变量出现在目标文件中。类似C语言中static的概念。
  • 3)available_externally。该类型的变量不会被输出到对应模块的目标文件中。对于链接者来说,该类型相当于一个外部声明。这种类型只允许在定义时使用,而不能在声明时使用。
  • 4)linkonce。链接时,这种类型的变量会和其他同名变量merge。该类型的变量如果没被使用则可以被丢弃。这种类型的函数不允许优化器将其内联到调用者的函数体中,这个它有可能被重写。如果想允许内联或者其他优化,请使用“linkonce_odr”类型
  • 5)weak。与linkonce类似,但即使不被使用,也不能丢弃。类似C语言中的“weak”类型的变量(多个变量拥有相同的名字不会造成冲突,只要其中一个是weak类型的。链接时,weak类型的定义被忽略而使用正常的定义,如果没有正常的定义,则使用weak的定义)。
  • 6)common。与weak类似,用于C语言中的临时定义,比如全局作用域中的“int x;”。函数和别名没有common类型
  • 7)appending。只用于数组类型的指针。两个这种类型的变量链接时,对应的全局数组被连接在一起。
  • 8)extern_weak。这种类型在链接之前是weak的,如果不被链接,这个变量是null而不是undefined reference。
  • 9)linkonce_odr, weak_odr。ODR(one definition rule),只有等效的变量才能被merge。这个链接类型就表示只能跟等效的变量合并。
  • 10)external。如果没有指定上面的任意类型,那么就是external的。

【注】函数声明只能使用external或者extern_weak。

2.5 可见性(Visibility Styles)

所有的全局变量和函数都有一种可见性样式:

  • “default”,默认样式。对于使用ELF(Executable and Linking Format)格式的目标文件,这种可见性样式意味着声明对其他模块可见;在共享库中,意味着声明的实体可以被重写;在Darwin,声明对其他模块可见。
  • “hidden”。具有这种可见性样式的声明引用相同的对象,如果它们在相同的共享对象中的话。通常,具有这种可见性样式的符号不会出现在动态符号表中,所有其他模块不能直接引用它。
  • “pretected”。对于ELF,这种样式表明符号会放置在动态符号表中,但是在定义这个符号的模块中的引用会绑定到局部变量,也就是说这个符号不能被其他模块重写。

【注】用于internal或者private链接类型的符号必须是default类型的。

  相关解决方案