GCN:学术向丨运用AI算法促进比特币反

译者前言:比特币等区块链应用的初衷是为实现惠普金融目的,然而,犯罪分子的使用却为它们带来了坏名声,这也凸显出了反工作的重要性,对此,MIT、IBM以及区块链分析公司Elliptic的研究者联合推出了一些检测非法区块链交易的方法,其还提供了一个包含20多万笔标记比特币交易的数据集,其中只有少数交易被归类为非法交易。

以下为论文译文:

比特币的反研究:运用图卷积网络进行金融鉴证

作者:

摘要

反监管在保障金融体系方面发挥着关键作用,但同时也使得金融机构承担了高昂的成本,并促使那些处于社会经济和国际边缘的金融被排除在外。而加密货币的出现,带来了一个有趣的悖论:假名允许罪犯隐藏于显而易见的地方,而开放的数据则赋予了调查人员更多的权力,并使法庭分析的众包成为可能。同时,学习演算法的发展也大大助推了AML工具包。在本次研讨会中,我们提供了Elliptic数据集,一个超过20万笔比特币交易及23.4万条定向支付流的时间序列图,其拥有166个节点特征,包括基于非公开数据的特征。

据我们所知,这是目前与加密货币相关的最大的标记交易数据集。我们分享了使用逻辑斯蒂回归算法、随机森林算法、多层认知器演算法以及图卷积网络算法的变体来预测非法交易的二元分类任务结果。

其中图卷积网络作为一种新兴的获取关系信息的方法,其具有特殊的意义。

结果表明了随机森林算法的优越性,同时也展示出了结合随机森林算法和图卷积网络方法各自能力的可能。

最后,我们考虑到,由于现实交易图的大小及动态性方面的因素,可视化分析和解释是很难实现的,我们为此提供了一个简单的原型,其能够确定图形,并观察模型在检测非法活动方面的表现。

有了这些方法和数据集,我们希望邀请反馈来支持我们正在进行的调查,激励他人努力应对这一重要挑战。

关键词

图卷积网络、异常检测、金融取证、加密货币、反、可视化。

一、反与惠普金融的冲突

“贫穷的代价是昂贵的,”这是惠普金融倡导者的共同信条。它说明了这样一个事实:那些处于社会边缘的人在进入金融体系方面受到了限制,参与的相对成本也较高。限制访问的问题,在某种程度上是越来越严格的反法规带来的意外结果,虽然反对保护金融体系至关重要,但却对低收入者、移民和难民产生了不成比例的负面影响。而全球大约有17亿成年人处于无银行账户的状态。

相对成本较高的问题,在一定程度上也是反政策的特性造成的,该政策在货币服务业务上强制执行较高的固定合规成本,而“低价值”客户根本不值得这些业务冒这个风险。

以全球中低收入国家的汇款为例,它们在2018年进行的汇款活动达到了5290亿美元,创下了历史新高,远远超过全球1530亿美元的援助捐款。

而目前人们发送200美元,平均的汇款费用率是昂贵的7个点,有些国家的费率甚至超过了10%。而联合国可持续发展目标是在2030年降低至3%。

尽管问题普遍存在着,反监管却不能因为负担过重的原因而被草率驳回。原因是,诸多非法产业,如贩集团、人口贩运和恐怖组织,在世界各地造成了众多人类悲剧。最近发生的马来西亚发展有限公司丑闻,夺走了马来西亚人民用于国家发展的110多亿美元纳税人资金,这起事件也牵连了高盛等组织,涉及到巨额罚款和刑事起诉。爱沙尼亚最近发生的丹斯克银行丑闻,曾是俄罗斯和阿塞拜疆约2000亿美元非法资金流入的中心,其同样给这些国家的无辜公民造成了不可估量的损失,而受其牵连的机构,如丹麦银行和德意志银行,因此而损失数十亿美元。

并不是一种无受害人的犯罪,而目前传统金融体系的方法在制止方面却做得很差。

1、1加密货币世界的反

由比特币网络所引入的加密货币,引发了技术与企业对支付处理兴趣的爆发。

在世界各地,货币转移类创业公司开始与传统银行和诸如西联等货币服务业务竞争。

他们专注于使用比特币和其他加密货币作为“轨道”,以实现低成本、点对点的跨境资金转移。

很多人明确指向了汇款目标,并支持惠普金融事业。

科学家学术论文描述针对以太坊PoS链的3种攻击方法:10月31日消息,来自斯坦福大学和以太坊基金会的计算机科学家Caspar Schwarz-Schilling、Joachim Neu、Barnabé Monnot、Aditya Asgaonkar、Ertem Nusret Tas、David Tse最近撰写一份新白皮书,描述了针对以太坊PoS(权益证明)链的3种攻击方法。该白皮书揭示了最近出现的两次以太坊网络攻击,并且该论文的作者改进了这些技术。

除了前两种方法(理论上会造成“短程重组”和“对抗性网络延迟”)的改进之外,计算机科学家还提出了第三种攻击。“结合两种改进的攻击技术,我们获得了第三种攻击,它允许拥有极少权益(stake)且无法控制网络消息传播的对手进行甚至是远程(long-range)共识链重组。”作者们补充说,“诚实但理性或有意识形态动机的验证者可以利用这种攻击来增加他们的利润或阻塞协议,从而威胁到PoS Ethereum的激励一致性和安全性。该攻击还可能导致投票处理拥堵导致共识不稳定。”

同时,以太坊网络批评者使用这篇论文强调当网络过渡到完整的PoS系统时与这些攻击相关的潜在漏洞。Chia创始人、Bittorrent创建者Bram Cohen发布关于这项新研究的推文。Chia支持者回应称,“让我们在一年后重温你的推文,看看Chia与ETH相比取得了什么成就。请考虑你的态度,正在拒绝像我这样的社区成员。”

该论文的作者总结道,“我们的攻击也使得可能出于意识形态动机的先天性恶意行为者推迟并在某些情况下彻底拖延达成共识的决定。第4.2节的改进攻击为攻击者提供了一种工具来做到这一点,即使攻击者无法控制消息传播延迟(这被认为是概率性的)。”(Bitcoin.com)[2021/10/31 6:23:20]

与这些企业家一起成长的,还有来自学术界的学者,以及支持更新加密货币监管政策的倡导者团体。

然而,抑制这种令人兴奋应用的,却是比特币的坏名声。

很多犯罪分子利用比特币的假名特性隐藏在人们的视线中,然后进行勒索软件攻击,并经营暗网市场,以交换非法商品和服务。

2019年5月,美国金融犯罪执法网络发布了关于1970年《银行保密法》如何适用于加密货币,这也被称为可转换虚拟货币指南。

与《银行保密法》一致,该指南要求货币服务业务生成衡量、恐怖主义金融和其他金融犯罪的风险评估。这些评估基于客户构成、服务地区和提供的金融产品或服务。

评估必须告知客户关系的管理层,包括实施与风险相称的控制措施。换言之,货币服务业务不仅必须报告可疑账户,而且必须对它们采取行动。该指南将“完善的风险评估”定义为“协助最高管理层识别并提供其个人风险状况的综合分析”。该指南强化了BSA的“了解你的客户”要求,其要求MSB对其服务的客户有足够的了解,以便能够确定他们向机构陈述的风险水平。

对客户“足够了解”,到底是指到什么样的程度,这是合规与政策圈争论不休的话题。在实践中,其中最具挑战性的一个方面是一个隐含但有效执行的要求,即不仅要了解客户,还要了解客户的客户。在传统金融零散的数据生态系统中,这方面的合规性通常是通过MSB之间的通话来执行的。但在比特币的开放系统中,整个图形交易网络数据是公开的,尽管这是以假名和无标记的形式而存在。

为了迎接这一公开式数据带来的机遇,加密货币情报公司应运而生,它们为加密货币领域提供量身定制的反解决方案。虽然比特币的假名特性对于犯罪分子而言是一种可利用的优势,但公开数据的特性,也同样是调查人员的关键优势。

二、ELLIPTIC数据集

Elliptic是一家加密货币情报公司,其致力于保护加密货币生态系统免受犯罪活动的影响。作为对研究社区的贡献,我们给出了Elliptic比特币交易图形网络数据集,并同意公开分享该数据集。据我们所知,它是与加密货币相关最大的标记交易数据集。

2、1图形构造

该Elliptic数据集,将比特币交易映射到属于合法类别的真实实体,以及非法实体。根据原始比特币数据,构造并标记一个图,其中节点表示交易,边缘表示比特币从一笔交易流向下一笔交易。

如果发起交易的实体属于合法实体,则将给定交易视为合法类别,反之则判为非法类别。重要的是,所有的功能都是使用公共信息构建的。

2.1.1节点和边缘:有203,769笔节点交易以及234,355条定向边缘支付流。而在当前整个比特币网络,使用相同的图形表示,那么整个BTC网络大约有4.38亿个节点,以及11亿条边。在Elliptic数据集当中,约有2%的交易被标记为非法,有21%的交易被标记为合法,其余的交易没有被贴上合法或非法的标签,而是具有其他的特征。

声音 | 黑龙江省委书记:加强区块链技术人才队伍建设,积极培育区块链领域学术型、复合型人才:12月4日,黑龙江省委理论学习中心组第四十二次集体学习召开,省委书记、省人大常委会主任张庆伟表示,总书记在中央局第十八次集体学习时发表的重要讲话,深刻阐明了发展区块链技术的重要战略意义。区块链技术蕴含巨大变革潜力、发展前景广阔,要把握区块链技术发展的趋势和特点,加强学习研究,主动谋篇布局,为黑龙江高质量发展增添新动能。要加快区块链技术的研究创新,结合“数字龙江”建设和新一代信息技术产业发展,强化产学研用合作,促进区块链技术与人工智能、大数据、物联网等前沿技术深度融合,推动区块链技术和产业创新发展。要加强区块链技术人才队伍建设,积极培育区块链领域学术型、复合型人才,鼓励有条件的高校开展区块链学科、专业建设,用好落实人才政策,支持区块链领域人才扎根龙江、服务发展。(人民网)[2019/12/5]

2.1.2特征:每个节点都关联了166个特征,其中前94个特征表示有关交易的原生信息,包括时间步长、输入/输出数、交易费、输出量以及合计数字的平均BTC和与输入/输出相关联的传入交易的平均数量)。其余的72个特征称为聚合特征,通过从中心节点向后/向前一跳聚合交易信息来获得的相邻交易的最大、最小、标准差和相关系数)。

图1:数据集中不同时间步长,非法节点与合法节点的比例。节点数与时间步长

2.1.3时间信息:时间戳与每个节点相关联,表示比特币网络确认交易时的估计时间。共有49个不同的时间步长,平均间隔约为两周。每个时间步长包含在区块链上出现的、彼此之间不到三小时的交易单个连接组件;没有连接不同时间步长的边。

很明显,特定时间步长中的节点彼此关联的时间戳非常接近,因此可有效地将它们中的每一个视为时间上的即时“快照”。每个时间步长的节点数随时间的推移是相当均匀的。见图1。

2、2关于特征构造的解释

合法与非法的标签过程,是通过基于启发式的推理过程来实现的。例如,较高数量的输入和相同地址的重用,通常与较高地址群集相关,这导致签名交易实体的匿名性降低。另一方面,将由多个地址控制的资金合并到一笔交易中,在交易成本方面提供了好处。因此,应对大量用户请求,避免使用匿名保护措施的实体可能是合法的。

相反,非法活动可能倾向于使用较少输入的交易,以减少反匿名地址群集技术的影响。

此外,在为比特币交易构建特征方面还有两大挑战。第一个挑战在于比特币区块链的规模相当于200GB的压缩数据和约4亿笔已处理交易。虽然并非所有交易都包含在本研究中使用的子集中,但仍有必要访问完整的区块链,以便观察交易的完整历史。为了克服这个问题,Elliptic使用了一个高性能的all-in-memory图形引擎来计算特征。

第二个挑战来自数据的底层图结构和交易可拥有邻交易数量的异质性。在构建72个聚合特征时,异质邻域的问题是通过简单地构造邻居交易的原生特性的统计总量。一般来说,这个解决方案是次优的,因为它会带来很大的信息损失。

我们将在即将提到的关于图形深度学习方法的讨论中讨论这个问题,这些方法可以更好地解释局部图拓扑。

三、任务和方法

从高维度来讲,反分析是一项反常现象检测挑战,其目的是在不断增长的海量数据集中准确分类出少量非法交易。行业高达90%以上的假阳性率抑制了这一努力。

我们希望在不增加假阴性率的情况下降低假阳性率,也就是说,在不允许更多罪犯的情况下,识别出更多无辜者。

逻辑斯蒂回归和随机森林算法是这项任务的基准方法。而图形深度学习也已经成为反的潜在工具。

在Elliptic数据集的情况下,要对该数据执行的任务是筛选交易,以评估与给定的往来于加密货币钱包的交易关联风险。

具体来说,每一笔未标记的比特币交易都将被分类为非法或合法的。

3、1基准方法

基准机器学习方法使用监督式学习中的前94个特征进行二进制分类。这些技术包括逻辑斯蒂回归、多层认知器演算法以及随机森林算法。

在MLP中,每个输入神经元接受一个数据特征,输出是一个Softmax,每个类有一个概率向量。逻辑斯蒂回归和随机森林是用于反的两种常用方法,特别是它们各自存在的优点:随机森林用于精确性,而逻辑斯蒂回归则用于可解释性。但是,这些方法没有利用任何图形信息。

声音 | 观点:学术机构应在规范Libra方面发挥作用:多伦多大学罗特曼管理学院的创业加速器Creative Destruction Lab(CDL)是Libra协会唯一的学术创始合作伙伴。CDL与Libra的合作旨在通过为初创企业群体提供更多机会,巩固CDL的孵化作用。根据罗特曼管理学院教授和CDL首席经济学家Joshua Gans的说法,这种合作关系旨在为加入区块链领域的CDL初创企业提供更多机会。Joshua Gans表示,从长远来看,Libra为整个创业社区提供了一个机会。“在创造更好的创业生态系统的过程中,我们将完成我们的使命。”Gans还讨论了这种伙伴关系将如何造福于大学社区,“对大学来说,这是一个大胆的创新举措——一系列挑战通常不在大学的操舵范围内,但其领导层可以在这些挑战的基础上发展,并标志着超越日常学术生活的愿景。”罗特曼管理学院和UTM管理系金融学副教授Andreas Park在接受采访时表示,学术机构应在规范Libra方面发挥作用。(The Varsity)[2019/10/28]

在Elliptic数据集中,局部特征被一组包含邻域信息的72个特征增强。我们将看到这些特征的利用会改善性能。虽然这种方法显示了二元分类问题中的图结构,并且这种方法可以与标准的机器学习技术一起使用,而将纯基于特征的方法扩展到邻域之外是一个挑战。这一缺点促使人们使用图卷积网络方法。

3、2图卷积网络

图形结构数据深度学习,是一个迅速增长的研究课题。处理图形结构固有的组合复杂性,给实际应用带来了可扩展性挑战,而在解决这些挑战方面,研究者们已取得了重大进展。

具体地说,我们考虑了图卷积网络。图卷积网络由多层图卷积组成,它类似于认知器演算法,但还使用由谱卷积驱动的邻域聚合步骤。

假设来自Elliptic数据集的比特币交易图为G=(N,E),其中N是节点交易集,E是表示BTC流的边集。图卷积网络的第l层采用邻接矩阵A和节点嵌入矩阵H^(l)作为输入,并使用权重矩阵W^(l)将节点嵌入矩阵更新至H^(l+1)作为输出。数学上,我们写为:

其中

的定义如下:

σ是除输出层外所有层的激活函数。初始嵌入矩阵来自节点特征,例如

。该矩阵是由图的拉普拉斯矩阵上的谱图滤波驱动的,它是拉普拉斯矩阵的一个线性函数的结果。另一方面,我们也可以将

的乘法解释为相邻节点的转换嵌入的集合。图卷积网络的参数是不同层l的权重矩阵

分析 | 研究报告:比特币对其他学科学术研究产生全面影响:据AMBCrypto报道,研究人员马克·霍卢布(Mark Holub)和杰基·约翰逊(Jackie Johnson)进行了一项名为“绘制比特币对学术研究的影响”的综合研究;他们调查了2011年至2016年间被引用的1260篇关于比特币的文献样本,揭示了比特币的多学科影响。为了证明比特币的“多学科影响”,他们对样本进行了分类和绘制,其中43%的样本是从期刊出版物中提取的,而在过去六年里,发表和未发表的文章都占了近25%。该研究表明,以高科技为基础的报道可以归因于大量的论文发表,解释了数字货币和它赖以发展的技术。比特币的经济相关性也被记录为最广泛研究之一,主要集中在比特币在支付系统、货币系统、货币政策或治理方面的影响。这项研究不仅反映了比特币对其他学科的全面影响,还暗示了比特币越来越受欢迎。[2019/6/17]

一个通常使用的2层图卷积网络,可整洁地写为:

一个“skip”变量,我们发现它实际上很有用,在中间嵌入

和输入节点特征X之间插入了一个skip连接,导致架构:

其中

是skip连接的权重矩阵,我们称之为架构Skip-GCN。当

是0时,Skip-GCN相当于逻辑斯蒂回归。因此,Skip-GCN至少应和逻辑斯蒂回归一样强大。

3、3图卷积网络

金融数据本质上具有时间性,因为交易是有时间戳的。有理由假设存在某种动力,尽管是隐藏的,其驱动着系统的进化。如果一个预测模型是以捕捉动态的方式设计的,那么它将更加有用。这样,在给定时间段上训练的模型,可更好地推广到后续的时间步长。模型捕捉到的系统动力越好,其所能进入的视界就越长。

扩展GCN的时间模型是EvolveGCN,它为每个时间步长计算单独的GCN模型。然后通过递归神经网络将这些GCN连接起来,以捕捉系统动力。

因此,未来时间步长的GCN模型是从过去的模型演变而来的,其进化捕捉了动力。

在EvolveGCN中,GCN权重被集体视为系统状态。通过使用RNN,模型在每次系统输入时进行更新。输入是当前时间点的图形信息。图形信息可以多种方式实例化,在EvolveGCN中,它由图中top-k个有影响的节点的嵌入来表示。

四、实验

下面是我们给出的在Elliptic数据集上获得的实验结果,我们分别对训练和测试数据进行了70:30的时间分割。也就是说,前34个时间步长用于训练模型,后15个时间步长用于测试。我们使用时间分割是因为它反映了任务的性质。因此,GCN是在归纳环境中训练的。

我们首先使用三种标准方法来测试合法/非法预测的标准分类模型:逻辑斯蒂回归、随机森林和多层认知器演算法。

经济学家向凌云:区块链领域的学术研究等方面已经成为当下的重要课题:5月7日上午,著名经济学家向凌云博士受聘为亚洲区块链学会首席研究员。向凌云表示,区块链领域的学术研究、技术开发、产业应用都已成为当下的重要课题。各国越来越重视区块链技术以及这个朝阳产业在技术创新、社会发展中的作用,需要了解区块链的人也越来越多。亚洲区块链学会将组建全球顶尖的研究团队,致力于区块链行业的学术研究,推动实体经济结合区块链技术的跨越式发展。[2018/5/9]

我们的MLP有一个隐藏层,其由50个神经元组成,并使用Adam优化器训练200个时期,学习率为0.001。

我们通过使用所有166个特征以及仅使用局部特征来评估这些模型。结果汇总至表1的上半部分。

表1的下半部分报告了当我们利用数据的图结构时所取得的结果。我们使用Adam优化器对GCN模型进行了1000个时期的训练,学习率为0.001。在我们的实验中,我们使用了一个2层的GCN,然后超参数调整,我们将节点嵌入的大小设置为100。

图2:测试时间跨度内的非法F1结果

表1:非法分类结果。表格上半部分显示的是没有利用图信息的结果,每个模型都显示了具有不同输入的结果:AF指所有特征,LF指局部特征,即前94个特征,而NE是指由GCN计算的节点嵌入。表的下半部分显示了使用GCN的结果。

这个任务是一个二进制分类,两个类是不平衡的。对于反来说,更重要的是少数分类。因此,我们使用加权交叉熵损失方法训练GCN模型,以提供更高的非法样本重要性。在超参数调整之后,我们为合法类和非法类选择了0.3/0.7的比率。表1显示了针对非法类的精确性、召回率(Recall)和F1分数的测试结果。为了完整起见,我们还显示了微观平均F1分数。

注意,GCN和变量Skip-GCN的性能优于逻辑斯蒂回归,这表明基于图的方法与不可知图信息方法相比是有用的。另一方面,在本示例中,输入特性已经相当丰富了,仅使用这些特性,随机森林方法就可以获得最佳的F1分数。

表1中的另一个细节来自于对所有特征和仅对94个局部特征训练方法的比较。对于所有三个被评估的模型,聚合的信息导致了更高的准确性,这表明了图结构在这个环境中的重要性。通过这一观察,我们进一步评估了增强输入特征集的方法。这个实验的目的是证明图信息对于增强交易的表示是有用的。在该设置中,我们将从GCN获得的节点嵌入与原始特征X连接起来。结果表明,增强的特征集提高了全特征和局部特征模型的精度。

表2比较了非时态GCN和时态EvolveGCN的预测性能。结果显示EvolveGCN的性能一直优于GCN,尽管这一数据集的改进并不显著。进一步研究的一个途径,是使用其他形式的系统输入来驱动GRU内部的重复更新。

表2:GCNv.s.EvolveGCN

黑市关闭:反的一个重要考虑因素是预测模型对新出现事件而呈现出的稳健性。这一数据集的一个有趣方面,是在数据的时间跨度内有一个黑市突然被关闭。如图2所示,此事件导致所有方法在黑市关闭后的表现都出现了不佳的情况。即使是一个随机森林模型,在每一个测试时间步长后重新训练,假设每次测试后都能获得真实的信息,也无法可靠地捕获黑市关闭后新的非法交易。对于此类事件的稳健性,是我们需要解决的重大挑战。

五、讨论

我们已经看到了随机森林方法显著优于逻辑斯蒂回归的事实,并且它也优于GCN,即使后者有图结构信息的加持。随机森林使用一种投票机制对来自多个决策树的预测结果进行集成学习,每个决策树使用数据集的子样本进行训练。与之相反,GCN则与大多数深度学习模型一样,使用逻辑斯蒂回归作为最终输出层。因此,它可以被视为逻辑斯蒂回归的一个重要泛化存在。

问题是:是否可以将随机森林与图神经网络方法结合使用?一个简单的想法是在运行随机森林之前,使用从GCN计算的嵌入来增加节点特征。根据先前的实验,这一想法只能起到很小的作用。文献提出了另一种想法,其利用前向神经网络对决策树中的每个节点进行参数化。这种想法将随机森林和神经网络有机地结合在一起,但并没有提出如何整合图信息。一种可能的方法是用决策树的可微版本替换GCN中的逻辑斯蒂回归输出层,从而实现端到端的训练。

我们会在将来研究这一想法的执行情况。

六、图形可视化

最后,为了支持分析和解释目的,我们创建了一个名为Chronograph的可视化原型。Chronograph的目的,是通过模型的综合表示,使得人类分析师可清晰和容易地进行研究分析。

6、1Elliptic数据集的可视化研究

在Chronograph系统中,交易被可视化为图形上的一个节点,其边缘表示BTC从一笔交易到另一笔交易的流动。使用投影算法UMAP在所有时间步长同时计算节点坐标。这种全局计算使布局在时间上具有可比性。界面顶部的时间步长滑块控件,允许用户通过仅提交选定时间步长中的节点来浏览时间。图中的非法交易被染成了红色,而合法交易则被染成了蓝色,未分类的交易则为默认的黑灰色。

单击交易节点或在左侧控件中输入交易ID时,系统会可视化突出选定的交易,并以绿色突出显示所有的相邻交易。在界面的左侧,用户可以看到关于不同交易类之间传输号的图表一般统计信息。

在这个简单的原型中,Chronograph使简单的探索场景能够直观地检查集群及其随时间的存在,观察明显的转移模式,或检测其他偏差,如单个异常值。作为一个更复杂的用例,我们还提高了UMAP计算输入的自由度:原始交易特性数据以及网络最后一层的神经元激活似乎是两个有趣的替代方案;对于一般的神经网络,Rauber等人也提出了类似的方法。结果可视化中的差异将暗示模型的特殊性,即我们假设数据之间相似性的变化,可用于解释哪些基本特征对模型是重要的。

图4显示了一个时间步长的两个可选输入的结果,原始特性数据在顶部,模型激活在底部。我们进一步使用左栏中的实际标签和右栏中的GCN预测标签对节点进行染色,然后得到4个网络可视化结果。

在基于模型的布局中,非法节点显得更为集中,这似乎是一个值得关注的特性:非法节点应该具有一些重要的特征,节点的相似性使得布局更接近。然而,由于它们并没有在一个位置完全崩溃,因此在非法节点集内存在着质的差异是很有可能的。可视化进一步揭示了模型无法检测非法节点的确切位置。如果附近地区出现多个错误预测,这可能进一步暗示该模型表现的不足。详细研究这些交易的特性,可以从新的角度启发讨论,并导致模型的进一步改进。

a)原始交易特征向量的投影

b)最后GCN层激活的投影

图3:UMAP投影的两个可选输入,左:由输入标签着色,右:由GCN预测着色。

图4:Chronograph的用户界面,用户可浏览时间切片的交易数据,并观察交易模式和变化模式。其中非法交易被染成了红色。进一步的统计数据显示在左侧。

七、总结

总的来说,我们提出了一些加密货币交易鉴证法,以此打击犯罪活动。我们已向反社区提供了一个大的、带有标签的交易数据集,这类数据以前从未公开过。我们分享了早期的实验结果,使用了各种方法,包括图卷积网络,并讨论了下一步可能的算法改进。我们为这些数据的可视化提供了一个原型,并为增强人类的分析和解释能力提供了模型。最重要的是,我们希望以此激励他人应对反这一重大问题挑战,使我们的金融体系更安全、更具包容性。

致谢

这项研究工作由MIT-IBM沃森人工智能实验室资助完成,该实验室是麻省理工学院和IBMResearch联合研究计划,研究涉及的数据及领域知识由Elliptic提供。

参考文献

ChristopherBishop.2006.PatternRecognitionandMachineLearning.SpringerVerlag.

LeoBreiman.2001.Randomforests.Machinelearning45,1(2001),5–32.

JoanBruna,WojciechZaremba,ArthurSzlam,andYannLeCun.2014.SpectralNetworksandLocallyConnectedNetworksonGraphs.InICLR.

LarsBuitinck,GillesLouppe,MathieuBlondel,FabianPedregosa,AndreasMueller,OlivierGrisel,VladNiculae,PeterPrettenhofer,AlexandreGramfort,JaquesGrobler,RobertLayton,JakeVanderPlas,ArnaudJoly,BrianHolt,andGa?lVaroquaux.2013.APIdesignformachinelearningsoftware:experiencesfromthescikit-learnproject.InECMLPKDDWorkshop:LanguagesforDataMiningandMachineLearning.108–122.

JieChen,TengfeiMa,andCaoXiao.2018.FastGCN:FastLearningwithGraphConvolutionalNetworksviaImportanceSampling.InICLR.

Micha?lDefferrard,XavierBresson,andPierreVandergheynst.2016.ConvolutionalNeuralNetworksonGraphswithFastLocalizedSpectralFiltering.InNIPS.

Demirguc-Kunt,LeoraKlapper,DorotheSinger,SinyaAnsar,andJakeHess.2017.TheGlobalFindexDatabase2017:MeasuringFinancialInclusionandtheFintechRevolution.

JustinGilmer,SamuelS.Schoenholz,PatrickF.Riley,OriolVinyals,andGeorgeE.Dahl.2017.NeuralMessagePassingforQuantumChemistry.InICML.

WilliamL.Hamilton,RexYing,andJureLeskovec.2017.InductiveRepresentationLearningonLargeGraphs.InNIPS.

MartinHarriganandChristophFretter.2016.Theunreasonableeffectivenessofaddressclustering.In2016IntlIEEEConferencesonUbiquitousIntelligence&Computing,AdvancedandTrustedComputing,ScalableComputingandCommunications,CloudandBigDataComputing,InternetofPeople,andSmartWorldCongress(UIC/ATC/ScalCom/CBDCom/IoP/SmartWorld).IEEE,368–373.

ThomasN.KipfandMaxWelling.2017.Semi-SupervisedClassificationwithGraphConvolutionalNetworks.InICLR.

KnomadandWorldBankGroup.2019.MigrationandRemittances:RecentDevelopmentsandOutlook.MigrationandDevelopmentBrief31.

PeterKontschieder,MadalinaFiterau,AntonioCriminisi,andSamuelRotaBulo.2015.DeepNeuralDecisionForests.InICCV.

YujiaLi,DanielTarlow,MarcBrockschmidt,andRichardZemel.2016.GatedGraphSequenceNeuralNetworks.InICLR.

LelandMcInnes,JohnHealy,andJamesMelville.2018.Umap:Uniformmanifoldapproximationandprojectionfordimensionreduction.arXivpreprintarXiv:1802.03426(2018).

DanielJ.Mitchell.2012.WorldBankStudyShowsHowAnti-MoneyLaunderingRulesHurtthePoor.Forbes.

SatoshiNakamoto.2008.Bitcoin:Apeer-to-peerelectroniccashsystem.(2008).

FinancialCrimesEnforcementNetwork.2019.ApplicationofFinCENa??sRegulationstoCertainBusinessModelsInvolvingConvertibleVirtualCurrencies.FIN-2019-G001(May2019).

AldoPareja,GiacomoDomeniconi,JieChen,TengfeiMa,ToyotaroSuzumura,HirokiKanezashi,TimKaler,andCharlesE.Leiserson.2019.EvolveGCN:EvolvingGraphConvolutionalNetworksforDynamicGraphs.PreprintarXiv:1902.10191.

PauloERauber,SamuelGFadel,AlexandreXFalcao,andAlexandruCTelea.2016.Visualizingthehiddenactivityofartificialneuralnetworks.IEEEtransactionsonvisualizationandcomputergraphics23,1(2016),101–110.

MarkWeber,JieChen,ToyotaroSuzumura,AldoPareja,TengfeiMa,HirokiKanezashi,TimKaler,CharlesE.Leiserson,andTaoB.Schardl.2018.ScalableGraphLearningforAnti-MoneyLaundering:AFirstLook.CoRRabs/1812.00076(2018).arXiv:1812.00076http://arxiv.org/abs/1812.00076

Wikipedia..1MalaysiaDevelopmentBerhadscandal.

Wikipedia..DanskeBankmoneylaunderingscandal.

RexYing,RuiningHe,KaifengChen,PongEksombatchai,WilliamL.Hamilton,andJureLeskovec.2018.GraphConvolutionalNeuralNetworksforWeb-ScaleRecommenderSystems.InKDD.

?

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金星链

[0:0ms0-0:908ms