区块链:想做好区块链数据分析？先看看如何解决“去匿名化”这个大难题

作者?|?新缸中之脑

责编|?Carol

来源|区块链大本营

在最近的会议演讲中我经常会被问到：区块链数据分析的最大挑战是什么？我的回答就一个词：

去匿名化。

我坚定地认为，识别不同类型的参与者并理解其行为是解锁区块链分析潜力的核心挑战。我们花费了相当多的时间来考虑这个问题以识别出与数字货币运动的伦理不发生冲突的正确边界。在这篇文章里，我想进一步探讨这个思路。

市场上大多数区块链的架构依赖于匿名或伪匿名机制来保护其节点的隐私并实现去中心化。数据混淆机制可以将加密资产交易数据记录在公开的账本上让每个人都能访问，但是也让分析这些数据变得异常困难。

如果不能识别参与者的身份，就很难理解区块链数据集并分析出有意义的结果，而且区块链分析只能徘徊在初级阶段。然而，重要的一点是要理解，去匿名化区块链数据集并不是要知道账本中每个地址的真实身份，这个方向基本上是不具备可扩展性的可能。

韩国Neowiz集团将推出首款以太坊流动性质押产品:金色财经报道，Neowiz集团旗下区块链平台公司Neopin于12日宣布推出针对以太坊（ETH）和Klaytn（KLAY）的流动性质押产品。以太坊流动性质押产品的推出在韩国尚属首次。[2023/7/12 10:49:59]

相反的，我们可以识别并理解区块链中已知参与者的行为，例如交易所、OTC柜台、矿工以及其他构成区块链生态系统的核心成员。

地址数量会不知不觉误导你

网络的量度是区块链分析中无所不在的一个指标，也是一个可以清晰地展示去匿名化威力的指标。

地址数量是最常见的一个具有误导性的指标，因为并非所有的地址都同等重要。交易创建的一个用于临时性转账的地址，显然不能和另一个长期持有资产的钱包地址相提并论。

类似的，像币安这样的交易所的热钱包，肯定也不同和我的个人钱包采用同样的方法和指标去分析。同等对待所有地址的匿名性，注定会导致解读的有限性并且经常会得出误导性的结论。

黄立成在70天内波段交易APE获利440万美元:金色财经报道，推特加密KOL余烬发推表示，黄立成波段APE结利清仓，70天获利440万美元。黄立成从2022年12月12日-2023年1月20日，40天时间从0一直买到持有220万APE。再从1月22日开始一路出售APE，30天时间从220万APE卖到目前仅余5万APE，几近清仓。[2023/2/25 12:29:21]

匿名性vs.可解读性

匿名或伪匿名身份是可伸缩的去中心化架构的关键因素之一，但是这也让从区块链数据集中获取有价值的信息变得极端困难。理解这一观点的一个办法，就是把匿名性视为区块链分析的可解读性的一个反因子。

数字资产金融服务公司EQONEX在新加坡提交自愿清算程序:金色财经报道，纳斯达克上市数字资产金融服务公司EQONEX在向美国证券交易委员会提交的文件中表示，其位于香港的实体Diginex已进入债权人自愿清算程序，预计位于新加坡的Eqonex Capital也将进入自愿清算程序。

EQONEX于11月15日宣布：“对集团持续经营的能力以及集团营运资金是否足以履行其短期财务义务存在重大不确定性。为了解决这些流动性问题，EQONEX团一直在与潜在投资者协商通过发行新股获得股权融资，并与Bifinity协商寻求（其中包括）豁免违约和修改贷款协议，遗憾的是，融资计划未取得成功。”（the block）[2022/11/22 7:56:33]

在区块链数据集中匿名性与可解读性之间的摩擦相对来说还比较小。一个区块链数据集的匿名性越高，从中获取有意义的信息的难度就越大。参与者的身份提供了其行为的上下文环境，而上下文环境则是可解读性的关键构建模块。

A股收盘：深证区块链50指数上涨0.79%:金色财经消息，A股收盘，上证指数报3189.04点，收盘上涨0.8%，深证成指报12065.22点，收盘上涨0.69%，深证区块链50指数报2802.59点，收盘上涨0.79%。区块链板块收盘上涨2.04%，数字货币板块收盘上涨2.13%。[2022/8/4 12:01:52]

去匿名化vs.打标签

「你是什么」远比「你是谁」要重要。

去匿名化区块链数据集并不涉及了解每个参与者的真实身份。试图了解每个用户的真实身份不仅是一个意义重大的任务，而且也会让分析工作难以突破一定的规模。

DeFi初创公司Stakefair完成67万美元pre-seed轮融资:7月13日消息，DeFi初创公司Stakefair宣布完成67万美元pre-seed轮融资，本轮融资由Adaverse、Nestcoin、Kepple Africa Ventures、Canza Finance、Voltron Capital、Echo VC Chain、Timi Aboyeji、Tomiwa Olaosebikan、Peter Kisadha、Saturn Blockchain Ventures、Thrive Africa Syndicate、NehikhareIgbinijesu、Oluchi Enebeli和Clement Hugbo等参投。[2022/7/13 2:11:09]

相反，我们可以试着理解一个参与者的关键特征来让我们的分析达到一定程度的可解读性。因此，不需要清楚地识别每个地址的真实身份，我们可以给地址打标签或者附加一些描述性的元数据，来让其行为具备一定的上下文环境。

在大规模数据中，打标签常常要比个体识别更有效果。理解区块链生态系统中特定个体的行为当然会让分析达到更个性化的程度，但是对于在宏观层面理解行为的趋势就显得相对受限了。

因此，相对与对区块链地址的个体真实身份的识别，去匿名性的挑战与地址的关键性属性的标注的关系更大。我们如何实现这一点？

机器学习会是一个优秀的解决方案

标注或者去匿名化区块链的思路可以让区块链分析更好地生态中已知参与者的行为模式和特征。直觉上我们可以考虑创建一些规则来分析区块链生态系统中的不同成员，例如：

“如果一个地址持有大量比特币地址并且一次执行100个交易，那么这是一个交易所地址……”

虽然很有吸引力，但是基于规则的方法将很快失效，无法再提供有用的信息。下面列出了部分原因：

预置知识的完整性：基于规则的分类会假定我们对于如何识别区块链生态中的不同参与者有足够的知识。这显然是不正确的假设。

持续的变化：区块链解决方案的架构一直都在演变，这对任何嵌入的规则而言都是挑战。

特征属性的数量：创建一条有两三个参数的规则很简单，但是试图创建一条有几十个甚至上百个参数的规则就没那么简单了。要识别出像交易所或OTC柜台这样的地址需要大量的特征。

因此我们不能使用预置的规则，我们需要一种可以从区块链数据集中学习模式的机制来自动推断出有意义的规则让我们可以标注相关的参与方。从概念上来说，这是一个经典的机器学习问题。

从机器学习的观点，我们应该从两个主要途径来考虑应对去匿名化的挑战：

无监督学习：无监督学习聚焦于学习指定数据集中存在的模式并识别相关分组。在区块链数据集的上下文中，可以使用无监督学习模型基于地址的特征将其匹配到不同的分组中并对这些分组进行标注。

监督学习：监督学习方法可以利用已有的知识来学习指定数据集中的新的特性。在区块链上下文中，可以使用监督学习方法基于已有的交易所地址数据集训练一个模型来识别出新的交易所地址。

去匿名化或者给区块链数据集打标签很少是只用监督学习或者只用非监督学习，更多的情况下需要两种方法的结合。机器学习模型可以有效地学习区块链生态系统中特定参与者的特征，并利用这些特征来理解其行为。

在使用区块链ETL工具将区块链原始数据加载到数据库或大数据分析平台后，将标注层引入区块链数据集是进行更有价值的区块链数据分析的一个关键挑战。

这些标签提供了更好的上下文环境，也让区块链分析模型具有更好的可解读性。不过尽管我们有机器学习这样强大的工具，去匿名性依然是分析理解区块链生态系统的道路上一个不可忽视的重大路障。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

以太坊最新价格比特币:中国银行原行长李礼辉：中国或许会成为全球第一个推出法定数字货币的国家

1900/1/1 0:00:00

作者：亓宁来源：金融界12月5日,第四届智能金融国际论坛暨2019金融界“领航中国”年度盛典在北京盛大召开,逾千位精英学者、数百家金融机构共同聚首,探讨中国和世界的“大变局、大视野、大未来”.

比特币最新价格石油币:全国政协委员周延礼：区块链在文化产业的知识产权链条上有着极大潜力

1900/1/1 0:00:00

据新浪财经消息,12月13日,2019中国文化金融峰会在京举行。全国政协委员、原中国保监会副主席周延礼在会上表示,区块链在文化产业的知识产权链条上有着极大潜力.

中币下载稳定币:QKL123行情分析 | 黄金大涨，比特币不涨反跌（1204）

1900/1/1 0:00:00

摘要：昨日受消息面的影响,避险情绪激增,全球股市和美元下跌,黄金大涨。但是,加密资产继续下行,部分场内资金寻求比特币避险,场外资金依然匮乏.

UNILIBRA:市场阴晴不定，盘点2019年度区块链行业的重大事件

1900/1/1 0:00:00

原创：?五火球教主转眼间,2019已即将步入尾声。这也意味着区块链的第一个十年,已正式走完。这一年,发生了太多值得写入区块链编年史的大事件.

金星链

区块链:想做好区块链数据分析？先看看如何解决“去匿名化”这个大难题

金星链