RUN:技术 | 链上账本数据写入慢？试试LSM

导读

首先问大家一个小问题？区块链的账本数据存储格式主要是什么类型的？

相信聪明的你一定知道是Key-Value类型存储。

下一个问题，这些Key-Value数据在底层数据库如何高效组织？

答案就是我们本期介绍的内容：LSM。

LSM是一种被广泛采用的持久化Key-Value存储方案，如LevelDB,RocksDB,Cassandra等数据库均采用LSM作为其底层存储引擎。

据公开数据调研，LSM是当前市面上写密集应用的最佳解决方案，也是区块链领域被应用最多的一种存储模式，今天我们将对LSM基本概念和性能进行介绍和分析。

LSM-Tree背景：追本溯源

LSM-Tree的设计思想来自于一个计算机领域一个老生常谈的话题——对存储介质的顺序操作效率远高于随机操作。

如图1所示，对磁盘的顺序操作甚至可以快过对内存的随机操作，而对同一类磁盘，其顺序操作的速度比随机操作高出三个数量级以上，因此我们可以得出一个非常直观的结论：应当充分利用顺序读写而尽可能避免随机读写。

Figure1Randomaccessvs.Sequentialaccess

青海省长刘宁：推广应用区块链等信息技术推动产业链数字化改造:6月17日消息，青海省人民政府省长刘宁刊文《以“四种经济形态”为引领加快构建高质量发展新格局》。他表示，数字经济在创造新的产业形态、商业模式和创新模式的同时，也深刻地影响了传统产业及其相关的商业和创新模式。刘宁在文中提出，下一步将充分发挥青海在发展数字经济方面的比较优势，建设大数据产业园、数字经济发展展示运行平台，组建数字经济发展集团，加快建设“云上青海”。推进5G网络和智慧广电建设，推广应用物联网、云计算、大数据、区块链、人工智能等新一代信息技术，整合现有产业、企业和产品，与国际国内市场耦合，发展平台经济，谋划和推动产业链数字化改造。（学习时报）[2020/6/17]

考虑到这一点，如果我们想尽可能提高写操作的吞吐量，那么最好的方法一定是不断地将数据追加到文件末尾，该方法可将写入吞吐量提高至磁盘的理论水平，然而也有显而易见的弊端，即读效率极低，我们称这种数据更新是非原地的，与之相对的是原地更新。

为了提高读取效率，一种常用的方法是增加索引信息，如B+树,ISAM等，对这类数据结构进行数据的更新是原地进行的，这将不可避免地引入随机IO。

LSM-Tree与传统多叉树的数据组织形式完全不同，可以认为LSM-Tree是完全以磁盘为中心的一种数据结构，其只需要少量的内存来提升效率，而可以尽可能地通过上文提到的Journaling方式来提高写入吞吐量。当然，其读取效率会稍逊于B+树。

通化县法院采用区块链智能合约技术实现执行“一键立案”:3月16日消息，通化县法院采用区块链智能合约技术，实现执行“一键立案”。2019年末，通化县法院成为吉林省法院系统首批审执衔接工作试点单位，探索以区块链智能合约技术为依托，以调解结案为切入点，逐步推行审执工作自动衔接。在区块链智能合约嵌入调解书案件中，作为当事人需要进行的操作只有一步：点击“未履行完毕”按钮，即可跳过后续繁复程序直接完成执行立案，后台将通过区块链智能合约技术自动生成执行申请书、抓取当事人信息、抓取执行依据、自动执行立案等。（新浪网）[2020/3/16]

LSM-Tree数据结构：抽丝剥茧

图2展示了LSM-Tree的理论模型(a)和一种实现方式(b)。LSM-Tree是一种层级的数据结构，包含一层空间占用较小的内存结构以及多层磁盘结构，每一层磁盘结构的空间上限呈指数增长，如在LevelDB中该系数默认为10。

Figure2LSM与其LevelDB实现

对于LSM-Tree的数据插入或更新，首先会被缓存在内存中，这部分数据往往由一颗排序树进行组织。

当缓存达到预设上限，则会将内存中的数据以有序的方式写入磁盘，我们称这样的有序列为一个SortedRun，简称为Run。

随着写入操作的不断进行，L0层会堆积越来越多的Run，且显然不同的Run之前可能存在重叠部分，此时进行某一条数据的查询将无法准确判断该数据存在于哪个Run中，因此最坏情况下需要进行等同于L0层Run数量的I/O。

为了解决该问题，当某一层的Run数目或大小到达某一阈值后，LSM-Tree会进行后台的归并排序，并将排序结果输出至下一层，我们将一次归并排序称为Compaction。如同B+树的分裂一样，Compaction是LSM-Tree维持相对稳定读写效率的核心机制，我们将会在下文详细介绍两种不同的Compaction策略。

声音 | Web Summit创始人：区块链也许是一项革命性的技术但需很长的时间来发展:据界面报道，全球网络峰会（Web Summit）的创始人Paddy Cosgrave接受专访时表示，区块链技术的落地应用很少。也许它是一项革命性的技术，但是需要很长的时间来发展。就我个人而言，更看好另一项技术FHE(fully homomorphic encryption,全同态加密技术），我认为它将比区块链更有发展前景。我认为Libra的加密货币特性比较少，反而更像是支付宝、财付通这样的支付工具。Facebook在使用超过150种货币的200多个国家运营，Libra为Facebook提供了一种全球通用的电子货币工具来解决交易和支付的问题。Facebook是用更开放、更有合作精神的态度来解决全球通用的货币问题，尽管很多人担忧年轻一代越来越少使用Facebook，意味着Libra所依赖的用户群体在减少，但是他们忽略了Facebook旗下的Instagram和Whatsapp两大软件的庞大用户群。[2019/9/1]

另外值得一提的是，无论是从内存到磁盘的写入，还是磁盘中不断进行的Compaction，都是对磁盘的顺序I/O，这就是LSM拥有更高写入吞吐量的原因。

Levelingvs.Tiering：一读一写，不分伯仲

LSM-Tree的Compaction策略可以分为Leveling和Tiering两种，前者被LevelDB，RocksDB等采用，后者被Cassandra等采用，称采用Leveling策略的的LSM-Tree为LeveledLSM-Tree，采用Tiering的LSM-Tree为TieredLSM-Tree，如图3所示。

沃尔玛利用区块链分类账技术可以将产品追溯回农场:沃尔玛公司开始利用在线分类账技术来管理芒果，浆果和几十种其他产品的供应链数据。这个系统是由国际商业机器公司（International Business Machines Corp.）制造，在沃尔玛测试区块链可追溯性的过程中，沃尔玛员工可以检查货架上或后台的产品，并用零售商的智能应用程序追溯到农场。在产品召回过的过程中可以追溯不合格食物的来源。[2018/2/7]

Figure3两种Compaction策略对比

▲Leveling

简而言之，Tiering是写友好型的策略，而Leveling是读友好型的策略。在Leveling中，除了L0的每一层最多只能有一个Run，如图3右侧所示，当在L0插入13时，触发了L0层的Compaction，此时会对Run-L0与下层Run-L1进行一次归并排序，归并结果写入L1，此时又触发了L1的Compaction，此时会对Run-L1与下层Run-L2进行归并排序，归并结果写入L2。

▲Tiering

反观Tiering在进行Compaction时并不会主动与下层的Run进行归并，而只会对发生Compaction的那一层的若干个Run进行归并排序，这也是Tiering的一层会存在多个Run的原因。

区块链领域首个国家标准获批立项：《信息技术区块链和分布式账本技术参考架构》:据中国区块链技术和产业发展论坛官方公众号消息，根据《国家标准委关于下达2017年第四批国家标准制修订计划的通知》（国标委综合[2017]128号），《信息技术区块链和分布式账本技术参考架构》作为区块链领域的首个国家标准获批立项。中国区块链技术和产业发展论坛于2016年10月18日，在工业和信息化部、国家标准化管理委员会工业标准二部的指导下，由中国电子技术标准化研究院、蚂蚁金服、万向控股、微众银行、平安保险、乐视金融、万达网络科技等共同发起成立。[2018/1/5]

▲对比分析

相比而言，Leveling方式进行得更加贪婪，进行了更多的磁盘I/O，维持了更高的读效率，而Tiering则相正好反。

本节我们将对LSM-Tree的设计空间进行更加形式化的分析。

LSM层数

布隆过滤器

LSM-Tree应用布隆过滤器来加速查找，LSM-Tree为每个Run设置一个布隆过滤器，在通过I/O查询某个Run之前，首先通过布隆过滤器判断待查询的数据是否存在于该Run，若布隆过滤器返回Negative，则可断言不存在，直接跳到下个Run进行查询，从而节省了一次I/O；而若布隆过滤器返回Positive，则仍不能确定数据是否存在，需要消耗一次I/O去查询该Run，若成功查询到数据，则终止查找，否则继续查找下一个Run，我们称后者为假阳现象，布隆过滤器的过高的假阳率会严重影响读性能，使得花费在布隆过滤器上的内存形同虚设。限于篇幅本文不对布隆过滤器做更多的介绍，直接给出FPR的计算公式，为公式2.

其中是为布隆过滤器设置的内存大小，为每个Run中的数据总数。读写I/O

考虑读写操作的最坏场景，对于读操作，认为其最坏场景是空读，即遍历每一层的每个Run，最后发现所读数据并不存在；对于写操作，认为其最坏场景是一条数据的写入会导致每一层发生一次Compaction。

核心理念：基于场景化的设计空间

基于以上分析，我们可以得出如图4所示的LSM-Tree可基于场景化的设计空间。

简而言之，LSM-Tree的设计空间是：在极端优化写的日志方式与极端优化读的有序列表方式之间的折中，折中策略取决于场景，折中方式可以对以下参数进行调整：

当Level间放大比例时，两种Compaction策略的读写开销是一致的，而随着T的不断增加，Leveling和Tiering方式的读开销分别提高/减少。

当T达到上限时，前者只有一层，且一层中只有一个Run，因此其读开销到达最低，即最坏情况下只需要一次I/O，而每次写入都会触发整层的Compaction；

而对于后者当T到达上限时，也只有一层，但是一层中存在：

因此读开销达到最高，而写操作不会触发任何的Compaction，因此写开销达到最低。

Figure4LSM由日志到有序列的设计空间

事实上，基于图4及上文的分析可以进行对LSM-Tree的性能进一步的优化，如文献对每一层的布隆过滤器大小进行动态调整，以充分优化内存分配并降低FPR来提高读取效率；文献提出“LazyLeveling”方式来自适应的选择Compaction策略等。

限于篇幅本文不再对这些优化思路进行介绍，感兴趣的读者可以自行查阅文献。

小结

LSM-Tree提供了相当高的写性能、空间利用率以及非常灵活的配置项可供调优，其仍然是适合区块链应用的最佳存储引擎之一。

本文对LSM-Tree从设计思想、数据结构、两种Compaction策略几个角度进行了由浅入深地介绍，限于篇幅，基于本文之上的对LSM-Tree的调优方法将会在后续文章中介绍。

作者简介叶晨宇来自趣链科技基础平台部，区块链账本存储研究小组

参考文献

.O’NeilP,ChengE,GawlickD,etal.Thelog-structuredmerge-tree(LSM-tree).ActaInformatica,1996,33(4):351-385.

.JacobsA.Thepathologiesofbigdata.CommunicationsoftheACM,2009,52(8):36-44.

.LuL,PillaiTS,GopalakrishnanH,etal.Wisckey:Separatingkeysfromvaluesinssd-consciousstorage.ACMTransactionsonStorage(TOS),2017,13(1):1-28.

.DayanN,AthanassoulisM,IdreosS.Monkey:Optimalnavigablekey-valuestore//Proceedingsofthe2017ACMInternationalConferenceonManagementofData.2017:79-94.

.DayanN,IdreosS.Dostoevsky:Betterspace-timetrade-offsforLSM-treebasedkey-valuestoresviaadaptiveremovalofsuperfluousmerging//Proceedingsofthe2018InternationalConferenceonManagementofData.2018:505-520.

.LuoC,CareyMJ.LSM-basedstoragetechniques:asurvey.TheVLDBJournal,2020,29(1):393-418.

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

BitcoinVER:DeFi保险喜忧参半：COVER9天上涨695%，Nexus Mutual遭受攻击，损失超过800万美元

1900/1/1 0:00:00

原标题：《DeFi保险喜忧参半》去中心化保险协议CoverProtocol势头正猛,既有Yearn.finance创始人AndreCronje的光环加持,又有治理代币大涨的走势.

以太坊交易TTL:数字资产结算网络Settle Network获Stellar发展基金会300万美元投资

1900/1/1 0:00:00

据TheBlock12月17日报道,拉丁美洲数字资产结算网络SettleNetwork获Stellar发展基金会300万美元投资.

波场数字货币:巴比特专栏 | 蔡凯龙：中国的数字货币交易所，到底该如何监管？

1900/1/1 0:00:00

原标题：《蔡凯龙丨加密数字货币交易未来之路》最近比特币价格飙升到23000美元历史新高,再次成为焦点,一时风光无限。而作为比特币价格发现的重要环节,加密数字货币交易所,却暗流涌动.

火币网下载官方appETH:三方聚首，波卡平行链插槽拍卖有何吸引之处？

1900/1/1 0:00:00

本篇文章为Polkadot社区志愿者组织提供的第二篇文章。众所周知波卡的平行链插槽数量是有限的,因而项目方想要成为波卡的平行链,必须要抵押DOT,和其他项目方一起竞争插槽的使用权,我们把平行链插.

金星链

RUN:技术 | 链上账本数据写入慢？试试LSM

金星链