LVM:解读ZKEVM:编译Solidity源码到LLVM IR系列(一)

零知识证明(ZKP)发展至今,大多数方案都是基于低级别表述语言实现的,例如 QAP、R1CS 或 Circuit。尽管 ZKP 不受语言限制,可以使用任何语言定义,但是高级语言所带来的生成证明的复杂度却是难以接受的。因此很多区块链技术团队开始使用新的 DSL 语言去编写业务逻辑,来实现复杂度较低的证明,但是这种模式却增加了用户编写合约的难度,因为大多数用户根本没有时间和精力学习 Rust、C++ 等语言。

Matter Labs 团队为了解决 ZKP 的图灵完备问题,引入了 ZINC 这门新的编写智能合约的语言。 然而该团队在 Youtube 上一段 ZKEVM 设计视频中曾公开表示 ZINC 目前并不是图灵完备的,缺乏循环、递归等内容。团队还表示,为了减少引入新的语言给开发者带来的学习成本,将尝试采用 Solidity-> YUL -> LLVM IR-> ZKEVM 的技术路线。

受该视频启发,本系列文章将与读者探讨使用 LLVM 编译器编译 Solidity /YUL字节码 到 R1CS 或 Circuit 的过程。尽管该方案后续可能发生重大变化,但是也是一次很好的学习机会。

第一篇 LLVM 介绍

概念

LLVM是模块化和可重用的编译器与工具链技术的集合, 经常被误认为是一个单纯的编译器,拿来跟 Clang 和 GCC 进行比较,实际上 Clang 也是仅仅作为 LLVM 项目的一部分单独发行的。以下是对这几个概念的详细介绍。

ChatGPT金融业应用首批研究成果可解读美联储声明、预测股价:金色财经报道,Man AHL机器学习在4月发表了两篇新论文——《ChatGPT能否解读美联储表态?》和《ChatGPT可以预测股价走势吗?回报可预测性和大型语言模型》,将这一人工智能聊天机器人应用于市场相关的任务,一项是解读美联储的声明是鹰派还是鸽派,另一项是确定消息面对某只股票而言是利好还是利空。ChatGPT在两项测试中都取得了出色的成绩,暗示该技术在将新闻报道、推文和演讲稿等大量文字转化为交易信号方面,可能迈出了重大一步。(新浪财经)[2023/4/18 14:09:37]

LLVM:LLVM 和虚拟机技术没有关系。它的名字并不是一个缩写,而是 LLVM 项目的全称。LLVM 的目标是提供一个现代化的、基于 SSA 编译策略的、同时支持静态和动态编译任何编程语言的编译器架构。现在 LLVM 已经发展成为一个由多个子项目组成的总体项目,其中许多子项目已被广泛应用于学术研究、商业和开源项目中。LLVM 核心库提供了与编译器相关的支持,可以作为多种语言编译器的后端来使用。能够进行程序语言的编译期优化、链接优化、在线编译优化和代码生成。

Clang:是 LLVM 的一个编译器前端,它目前支持 C, C++, Objective-C 以及 Objective-C++ 等编程语言。Clang 对源程序进行词法分析和语义分析,并将分析结果转换为 Abstract Syntax Tree(AST 抽象语法树) 和LLVM-IR,最后使用 LLVM 作为后端代码的生成器。

网信办:加强对《区块链信息服务管理规定》等法规规章的宣传解读:金色财经报道,中央网络安全和信息化委员会办公室印发《网信系统法治宣传教育第八个五年规划(2021-2025年)》,其中指出要加强对《关键信息基础设施安全保护条例》《互联网信息服务管理办法》《互联网新闻信息服务管理规定》《区块链信息服务管理规定》等法规规章的宣传解读。[2021/11/18 6:57:19]

GCC:GNU编译器套件(GNU Compiler Collection)包括C、C++、Objective-C、Java、Go语言的前端,也包括这些语言的库(如 libstdc++、libgcj 等)。GCC的开发初衷便是一款专为GNU操作系统设计的编译器。

LLVM-IR 优化器 - opt

通过 opt 命令,我们可以直接在命令行中调用 LLVM 工具链提供的 IR 代码优化器对 LLVM-IR 代码优化,该优化器同时支持对可读文本以及二进制格式下的 LLVM-IR 代码进行优化,并且可以通过参数执行相应的优化策略。

优化策略比较多,这里不一一列举,只列举一些常用的策略

-mem2reg:该策略会将IR内的内存级变量引用提升为寄存器级变量引用

“-constprop” :该策略主要是用于 “常量传播优化”

“-dce” :该策略主要是用于删除死代码(无法执行到的代码)

opt -S -mem2reg -constprop -dce hello.ll

LLVM 静态编译器 - llc

llc 是 LLVM 命令行工具提供的一个静态编译器。通过该编译器,可以将一个包含有 LLVM-IR 代码的 “.ll' 文件编译为以 “.s” 结尾的为特定平台架构的汇编代码文件。

llc hello.ll

执行完上述命令,会在当前目录生成一个 hello.s 的汇编文件,因为我的机器是 mac os 的,所以生成的汇编文件中会带有 mac os version 等字样

LLVM 汇编器 - llvm-as

通过 llvm-as 命令行工具,可以将包含有可读文本格式的 LLVM-IR 文件转为二进制格式的 LLVM 比特码

llvm-as hello.ll

执行完上述命令,会在当前目录生成一个 hello.bc 的比特码文件,可以通过 hexdump 查看文件具体内容

LLVM 符号表查看器 - llvm-nm

通过 llvm-nm 命令行工具,我们可以查看一个包含二进制 LLVM-IR 比特码的 “.bc” 文件内的符号表信息

上述命令中, “-A” 参数表示在输出结果中显示每个符号的来源文件名。 查看该输出可知在这个 LLVM 模块中存在两个符号,一个是内部名为 “main” 的符号,该符号对应着源码中的主函数,“T” 表示该函数是一个全局对象函数。“printf” 符号是引用外部标准库的函数, 所以用 “U”表示。

上面的实例中,我们生成了多个包含不同状态的 LLVM-IR 中间代码,以及面向特定底层平台架构的汇编代码,对于这些文件,我们都可以使用 Clang 将其编译为可执行的二进制文件。

本文简单介绍了 LLVM 项目,让读者能够了解 LLVM 项目的整体架构,懂得通过改造 LLVM 编译器前端,可以适配多种高级编程语言,包括 Java、Rust、Solidity 等。 鉴于直接通过 Solidity 生成 LLVM IR 难度较大,且 Solidity 语法变更迅速,开发者可通过 Solidity 生成中间语言 YUL ,将 YUL 作为输入提供给 LLVM 前端生成 LLVM IR 字节码,即各种零知识证明需要的表示形式,最后在 ZKEVM 中执行。从理论上来讲这套逻辑没有任何问题,但是实际执行的工程难度还是非常大的,具体细节需要研究后再做定论。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金星链

[0:0ms0-1:909ms