Binary Translator

June 3, 2016

（本文是对知乎问题二进制翻译( binary translation )有没有成熟的现实应用？请介绍一下实现方式与性能瓶颈的回复）

简介

Binary Translation是一个非常大的课题，如果要说得详细了可以写一本书。在这里我们仅仅讨论它的皮毛，也仅仅是大致勾画出二进制翻译器的运行结构。解释有错误的地方还请各位斧正。

二进制翻译器在业界已然有不少产品使用了，这里只是简单介绍几个。BT之中最著名的可能是Qemu了。还有大家手中各式各样的游戏机模拟器也属于BT，其中，Dolphin模拟器是最成熟的，现在最新的Dolphin已不再是解释执行模拟器了，它已然加入了JIT优化。Intel曾开发过在X86 Android上运行ARM Android app的Houdini，但似乎由于性能问题已不再投入。在中国，计算所胡伟武他们正在做龙芯支持X86的工作（Zhang et al. HERMES: A Fast Cross-ISA Binary Translator with Post-Optimization, CGO'15），也相当不错。

系统地讲，现有的virtual machine在三个层次上：

机器层面，比如游戏机模拟器
系统层面，比如X86 Macintosh运行Power架构的Mac app
应用层面，比如JVM

一般来说需要Binary translation（以下简称BT）的地方是guest代码与host机器架构不同的时候（也可以是相同的架构，但那样的翻译大多出于安全或优化而言的，如著名HP Dynamo：Bala et al. Dynamo: A Transparent Dynamic Optimization System PLDI'2000）。

原理

下面说说常用的二进制转换的方法和需要注意的问题。BT在执行的过程中需要不做任何假定地考虑：

冯诺依曼结构计算机的数据和指令不分家，BT如何在执行的过程中区分哪些是数据，哪些是指令呢？
对会自我修改自我引用的的程序如何处理？
如何处理间接跳转语句？
等等等等（一时半会想不起来）…

二进制转换分两种，一种是静态转换，另一种是动态转换（JIT）。静态转换就是将guest machine的二进制可执行代码翻译成host machine的可执行代码，动态转换就是边执行边翻译。对于静态转换来说，由于没有运行时信息，一个不可能解决的问题是在编译时如何知道间接跳转的目标地址。如果需要完美地转换，一个解决办法是自带一个解释器，当程序跳转到未被翻译指令处时，就启动解释器引擎。当然，这样其实还是需要即时转换的; 另一个办法比较极端，因为我们不知道哪些地址是指令，哪些是数据，我们只能假定所有地址都可以是指令来转换。如果是特定用途的BT，不一定需要这么严格的要求。

对于动态转换来说，翻译间接跳转成为了可能。由于JIT的特性，对自我修改的程序也能够处理了。以一个动态Binary Translator来说，一种实现方式的伪代码是这样的：

程序执行流交给BT，BT获得跳转目标地址或入口地址(设名字为tgt)
BT以tgt所指指令为起始收集接下来的每一条指令，直到找到需要翻译的一段guest指令块
BT对在第2步获得的block分析，优化，生成host代码
- 对每一条跳转语句，如果目标地址next_tgt已经被转译则更改跳转地址至已转译地址
- 如果next_tgt未被转译过，则对该跳转语句生成返回第1步的函数调用，并tgt=next_tgt
- 对间接跳转，同样生成一段返回BT的调用。BT查表得到next_tgt之后跳转至第1步
BT将生成的block代码段登记在自己系统里
跳转到生成的host代码执行

在第二步收集的指令块的方式决定了指令块的结构，同时也决定了第3步能做哪些优化。通常要求生成的指令块是一个super basic block。SBB与basic block不同的地方在于SBB允许指令流在SBB的中间跳转出去，但因为它和BB一样入口唯一中间没有跳转，仍然保持了块内各指令间的依赖关系，故适合做小范围的优化。当发现程序有自我修改的行为的时候，BT需要将被改写的指令块重新转译。通常做法是在被改写的指令块头插入跳转语句转入新生成的指令块。BT还需要同时修改guest code，以防止自引用的代码出错。

性能与优化

不要指望BT的性能会非常好，毕竟它是在跑一个虚拟机。一个naïvely写成的BT要是有host machine的四分之一性能就算很不错了。经过优化后，一般可以达到三分之一。Bansal et al.号称他们用super-optimization可以达到平均三分之二的性能（Binary Translation Using Peephole Superoptimizers OSDI'08）。

BT的一个重要优化是用 Shadow Stack来预测返回指令的跳转地址，这是BT overhead的一个非常大的一块。注意到返回指令虽然是一条间接指令，通常是要用runtime helper来查表搜索跳转地址的，开销非常大。注意到程序运行时的call stack通常都保存得很完整，每一个函数结束时返回的地址通常都是caller的下一条指令。利用这一个稳定的性质，我们可以用一个缓存栈保存程序调用栈的返回地址。那么下一次转译的返回指令就不需要再用helper查找跳转地址了。

原理如下：对每个call jump指令，在跳转的同时向ShadowStack这个BT维护的栈中压入一个二元组，元素分别为guest的返回地址和host的返回地址（guestPC+1, hostPC+1）。

对每个return jump指令，查找SS栈顶的二元组。如果guestPC+1正好是返回地址寄存器RA的值，直接跳转到hostPC+1; 否则弹出SS栈顶搜索下一个。如果超过一定次数或者SS栈为空则跳转到helper查表。

针对不同的guest architecture还可以进行如下的性能优化（仅举例）：像ARM这样的指令集带有PC relative load，即类似ld r1,10(pc)，可以简化。但要考虑程序的自我修改。

ARM指令都可以以零成本生成一个算术运算结果的status flag，即NZCV flags，用于比较判断。如果host是像龙芯MIPS这样自身不具有状态寄存器的架构，维护NZCV的开销可以算大头，需要将不需要的状态计算删除。

如果host machine的寄存器数量低于guest machine（如X86模拟ARM），还需要做合理的register mapping，减少不必要的context switching开销。

至于其余的代码生成优化，大家可以看上文提到的几篇paper。“Virtual Machines: Versatile Platforms for Systems and Processes"这本书也是很好的资料。