Graph:中国科技创新如何跑出加速度?

我年少时遇到过一个非常风趣博学且经常引经据典的数学老师,她在课上给我们讲过很多让人印象深刻的数学发展史小故事,其中就包括了著名的“柯尼斯堡七桥问题”。

作为一个关注中国科技发展和前沿技术应用的作者,每年国内最重要的几个科学技术奖项一直都是我关注的重点。我之所以在这个时间节点上,想起了这位老师和她的故事,源自于一张“2022中国电子学会科学技术奖”的获奖名单。

这个奖项是由国家科学技术奖励工作办公室批准设立的,已连续评选了19届,是国内电子信息领域最高奖项,也一直被认为是国内电子信息技术发展的风向标,获一等奖及以上的项目,可以择优提名中国国家科学技术奖的评选。

在今年公布的科技进步一等奖名单里,就有一个叫做“大规模复杂异质图数据智能分析技术与规模化应用”的项目。

这个项目引起我的注意,主要有两个原因。一是这个项目所涉及的,正是现在科技界炙手可热的“图技术”,这是个大众十分陌生,但在科技界已经成为各大巨头们兵家必争之地的前沿技术,而且其应用早就已经渗透到了普通人日常生活之中。

二是这个项目,是由北京邮电大学和蚂蚁集团等团队合作完成的。它所代表的高校+民营企业的科研合作模式,在这些年越来越受到欢迎和重视,它代表着中国民营企业在中国科技创新领域正在成长、甚至已经成长为了一支极为重要的力量。

蚂蚁集团对图技术的研发也只是这支力量的一个缩影,向其身后望去,看到的或许将是未来中国民营科技创新的星辰大海。

01

图:理解世界的全新方式

现在的俄罗斯,有个飞地叫加里宁格勒,位置在波兰和立陶宛之间。

三百年前,这里还叫柯尼斯堡,一条名叫普列戈利亚的河流横穿这座城市,并将城市分割成了中心两个小岛和其他河岸陆地的布局,当地人为了方便交通,在河上建了七座桥。

在苏联还没将这里收入囊中之前,这里曾是德国东部最著名的文化中心之一,也曾是条顿骑士团和普鲁士的“龙兴之地”。无数游客与行人们穿行在这个忙碌而又繁华的城市,久而久之便有人在游览这里时提出了一个问题:

中国科学院院士何积丰:元宇宙很难实现真正的孪生:金色财经报道,在“上海科技时尚先锋实验室”揭牌上,计算机软件专家、中国科学院院士何积丰表示,“元宇宙这个概念最近很火,我们要理性看待。智能制造领域的数字孪生技术与元宇宙相仿,也是把物理世界转化为对应的虚拟世界,这种转化遇到了两个难题:一是孪生的虚拟世界里没有问题,但真实的物理世界却出现了故障,两个世界很难实现真正的孪生;二是很难将物理世界中的一些物体和性质直接转化为虚拟世界,这方面有待进一步的技术研发。”[2022/1/9 8:36:03]

一个步行者,要怎样才能不重复、不遗漏地一次游览完七座桥,最后还能回到出发点呢?

这个谜题被提出后始终没能解决,以至于一度成为了当地人十分热衷的一项消遣运动,许多人曾声称找到了解决方案,但被要求按照规则再走一遍时却都失败了。直到1736年,29岁的天才数学家欧拉写下了一篇名为《柯尼斯堡七桥问题》的论文。

他将每一块陆地视为一个“点”,连接陆地的桥梁视为“线段”,将德国的“龙兴之地”抽象成了一个简单明了的数学模型,并将柯尼斯堡七桥问题提炼为了一个典型的一笔画问题,最终得出了准确的结论:这是一个无法一笔完成的图形,人们不可能不走重复路段并一次性游览完七座桥再回到出发点。

我每次想起这个故事,都深觉时间于人类科技传承之间的美妙与宏大。

彼时,距离世界上第一台计算机的诞生还有两百年的时间,做梦都不会有人能想到,欧拉的论文将要开辟的,是未来计算机科学领域最重要、最有趣,也几乎是最容易被误解的一个基础理论体系:图论。

更不会有人知道,三百年后,以图论为基础的图技术,在今天这个百年未有之大变局的时代,将会成为整个科技界最前沿最受关注的风口技术,甚至成为再下一个百年里科技竞赛的兵家必争之地。

用Gartner在《2021年十大数据和分析技术趋势》报告中的预测来说,到2025年,也就是从现在开始到两年后,图技术就将会应用于80%的数据和分析创新。

中国科技行业持续增长对区块链技术的投资:虽然受到疫情影响,但是中国科技行业持续加大对于区块链技术的投资。据《2020年中国互联网报告》,截至6月30日,中国金融科技公司已完成了高达390亿美元的融资。而在资金实力最为雄厚的初创公司当中,80%的金融科技公司进行区块链试点或者区块链技术投资。

面对政府的支持和良好的区块链投资环境,风险投资公司Blockchain Global的创始人兼首席执行官Sam Lee表示:“我们希望利用在中国的科技巨头(百度,阿里巴巴,腾讯)创建的人才库,然后将其运用到区块链领域并将其出口到海外。”[2020/7/7]

今天大家对大数据、AI、算法推荐这些名词已经熟悉得不能再熟悉了,而你今天听到的几乎所有用得到大数据分析和AI算法相关的应用,无论是支付宝的移动支付,还是抖音的算法推荐,亦或者精准地预测天气预报、电网复杂的故障分析和保障、各大电商平台上的智能推荐,甚至是你在蚂蚁森林偷个能量……

到两年后,至少将有80%都是由图技术在背后进行支撑的。

柯尼斯堡七桥问题的解决,成为了计算机科学发展史上一个重要伏笔。在英文中,图片是“image”,图形叫“graphics”,而图技术的“图”与图论的“图”一脉相承,写为“Graph”,它指代的是一种结构模型,一种以“节点”和“关系”解构和看待问题的系统。

在我看来,这是一种以“思维导图”的方式理解这个世界的全新视角、全新体系。

柯尼斯堡七桥问题的解决过程,就是这种新视角最好的诠释。欧拉将每一块陆地视为节点,每一座桥梁视为连接这些节点的“边”,这种建模方式天然就关注“链接”和“事物之间的联系”,而且对这种联系的方向和属性都有更出色的描述能力。

相比传统的方式,以“图”的结构形式来认识世界,尤其是认识事物之间的联系,显然更加直接和先进。

就拿社交平台的关系网络来说,不知道大家有没有在其他朋友的关注列表里寻找共同好友的经历,传统的方式,是把两个人的好友都列出来,然后寻找其中重合的部分。

声音 | 中国科学院院士尹浩:区块链技术在工业互联网主要有三个方面的应用:12月7日,由中国科学院学部主办,中国信息通信研究院等单位联合支持的“区块链技术与应用”科学与技术前沿论坛在深圳举行。中国科学院院士、军事科学院系统工程研究院研究员尹浩在题为“工业互联网安全问题”的演讲中表示,区块链作为点对点网络、密码学、共识机制、智能合约等多种技术的集成创新,提供了一种在不可信网络中进行信息与价值传递交换的可信通道。区块链通过建立信任,增强安全性,降低成本,加速交易,提升供应链效率,在工业互联网中可以发挥重要作用。区块链技术在工业互联网主要有三方面的应用:大数据管理、安全和产品交易全过程的监管。他还指出,区块链的多方协同治理对监管提出了更高的要求,且区块链尚未找到真的“杀手级”应用。[2019/12/7]

而图数据本身就是通过事物间的联系组织的数据结构,所以想要寻找“共同好友”,甚至都不需要检索,因为一切关系在图上完全就是一目了然的,你只需要定位就行了。

进入信息爆炸的大数据时代之后,人工智能、机器学习开始越来越强调相关性和因果性。而“图”这一数据构建方式,恰恰就关注,甚至基于相关性和因果性。这种数据结构几乎天然就是为了AI时代而生的,它让很多过去看上去十分复杂的问题,在这种理解世界的全新视角之下都变得迎刃而解。

02

图技术里的产业链未来

图技术应用最典型的案例,是金融风控。

我早年做一二级市场并购研究的时候,有个私心觉得十分迷人却也十分糟心的活,就是研究股权关系和资金链,其中很重要的一个环节就是研究担保链。

比如A企业要贷款,说我找B企业担保,B企业又找了C企业,C企业找D企业。D企业说好啊,但你一查,发现D企业可能又找B做了担保。最后大家形成了一个闭环,这样的担保根本是无效的。风控就是要找出担保链上的这类问题,避免把钱贷出去收不回来。如果用“图”的方式来理解,其实就是在担保的关系网络里寻找和定位“成环”的部分。

声音 | 瑞信研究院:中国科技巨头企业正利用区块链等科技,建立自己的医疗生态系统:据经济日报报道,中国医疗系统面临诸多挑战,如人口老龄化、医生短缺、医生过劳等问题。瑞信研究院6月26日发布的“医疗变革”报告指出,为应对这些挑战,中国科技巨头企业正利用区块链、人工智能和先进生物识别技术等最前沿科技,建立自己的医疗生态系统,通过人工智能辅助的网络门诊服务,力图更快更好地满足日益增加的医疗服务需求,并大大缩短候诊时间。[2019/6/27]

传统的方式不是不能做,但排除风险所需要的时间和资源需求都很高,而且也没有那么准确全面,能力有限。比如有些银行用MapReduce大数据处理的方法,但在企业担保场景里,它大概只能找到长度为6的环,再长的就找不到了。

套现交易检测相比担保的场景对时效性的要求就更高,同时不仅时效性要求高,还需要综合考虑多种信息来提高检测精度。因为在套现交易检测里虽然也需要识别闭环,但简单地检测交易闭环所得出的结果,往往是不够精准的。

举个例子,A转账给B,B转账给C,C再转账给A,这是一个交易闭环,意味着可能存在套现交易。

但如果A转账给B后半个月,B再转账给C;C再过半个月,才转账给A。这虽然也形成了一个闭环,但因为黑灰产作案需要考虑时间成本,所以在现实生活中这种情况往往不是在进行套现。

要更加确地判断这类交易的性质,就需要在图上融入时间信息。这就是所谓的“动态图”。

再比如,同一个闭环中,如果B是一个大企业账户,那大概率不会认为A->B的交易存在问题。但如果A/B/C之间本就互相认识,且都是通过线下扫码支付进行的交易,那存在套现风险的可能性就明显很高。

在图上融入比如节点的类型、边的类型等信息,这就是所谓“异质图”的概念。

传统方式寻找闭环本身已经比较吃力,更不要提在寻找闭环的基础之上,还需要综合考虑其他信息。所以必须得做图技术。

人物 | 中国科学院大学创业创新学院副院长洪勇:去伪存真推动区块链技术应用亟待思考:在日前举行的“2018年全球区块链创新创业大赛启动仪式”上,中国科学院大学创业创新学院副院长洪勇表示,如何推动有价值的区块链应用是亟待思考的话题。洪勇认为,区块链成为全球技术发展的前沿阵地,开辟国际竞争新赛道的同时,也成为创新创业的新热土,技术融合将拓展应用新空间。但他也同时坦言,各界对于区块链技术对金融、产业以至生产关系的变革,不知该怎样参与,同时疑惑着监管层将如何对这一次产业变革给予评价。洪勇说:“面对这样的变革,我们如何在创新创业中推动区块链的发展,是值得思考的问题。”[2018/7/9]

真实应用中的图数据都很复杂,既包含动态性,又包含异质性,需要对这些特性同时进行建模,才可以有更高的识别精度。

蚂蚁开始研究图技术,最初就是源于业务需求的驱动。2020年双11的最高交易数是每秒58万笔,在如此之高的并发下,要求在极短的时间内极高精度地检测出风险,还要保障交易能够按时完成,以传统的形式几乎没有可能。所以一直以来有人说中国的移动支付能够发展起来纯粹得益于人口红利带来的高频应用场景,缺乏技术含量,我都是极不赞同的。

在软件界,越是易用、浅白,却还功能齐全的软件,就意味着越高的开发难度。支付领域也一样,用户越是能简单、快速、便捷、安全地完成支付,就意味着背后需要越强大的硬核技术实力进行支撑。

拿这次获奖的“大规模复杂异质图数据智能分析技术与规模化应用”项目来说,北邮和蚂蚁等团队合作攻坚了十年,期间累计拿了43项国内外的发明专利,51篇CCF-A类论文等知识产权成果,还参与了2项行业标准的制定。

过程不可谓不艰辛,当然成果也不可谓不丰硕。

根据官方发布的信息,近两年来,该技术项目已为金融、互联网、通信、电力等行业的十多家企业节省了7亿左右的成本。作为项目实践案例的网商银行“大雁系统”将核心企业上下游的小微商家贷款可得率从30%提升至了80%。支付宝如今可以在0.01秒内完成对一笔交易的风险判定,2021年资损率小于亿分之0.98——即平台上每1亿人民币的资金流转中,只有不到1块钱的损失风险。

人类社会的进步,本质建立在生产力提升的基础之上,而生产力提升的本质则是效率的提升。二十年前一笔交易的判定可能要1分钟,二十年后只需要0.01秒,并且对上万亿动态的、异质的数据进行分析和识别,能支撑这种效率和精度提升的图技术毫无疑问是未来推动社会进步和科技创新的一项重要基础技术。

它的应用场景也不止在金融领域,在能源、交通、医疗领域也有大量应用。

比如天气预报,其原理是将地球按照“经度-纬度-气压层”划分成超100万个小网格,并在网格上确定天气状态。一个网格天气的变化,可能会受到很远的网格的影响,预测天气的难点就在于如何建模如此大量的网格之间高效且稀疏的交互影响。

开发过AlphaGo的DeepMind和谷歌新研究出了一种基于机器学习的天气模拟器GraphCast,这个模型用多尺度网格图的方式建模了这些小网格,利用了一个16层的图神经网络,即可实现局部和全局的信息传播,可以捕捉到比传统方法更长的空间互动,从而极大地提高了天气预测的准确率。

对未来于4至10天内天气变化趋势的预报,被称为“中期天气预报”,其准确性对于农业、建筑业、旅游业等行业的政策制定来说至关重要。目前GraphCast可以在60秒内预测未来10天内的天气,而且准确率极高。

大型制造业比如半导体行业、新能源行业,也是图技术应用的重要场景。这些工艺路线长,设计设备多,参数复杂,产品数据量极大的产业,每一个环节和数据之间往往都有很复杂的关联性,而图技术特别适合处理复杂关系、发现隐藏的特殊关联,不仅可以分析风险,甚至可以预测潜在的设备、工艺、供应链风险。只要是需要体现关联性的地方,图技术的处理方式就有时效性和精确性的天然优势。

社交媒体和电商的推荐系统这些极为日常的场景,已经被图技术深入渗透,在新药研发、智慧交通、工业物联网、传统产业数字化升级改造层面,图技术都有极为广阔的应用前景。

03

民营企业的创新活力

“大规模复杂异质图数据智能分析技术与规模化应用”项目,只是中国民营企业和高校合作推动中国科技创新的一个缩影。

根据2020年数据,我国的民营经济贡献了50%以上的税收,60%以上的国内生产总值,和70%以上的技术创新成果。

2021年我国全社会研发投入27900亿元,其中76%来自企业投入;2021年国家重点研发计划中的79%是由企业牵头或企业参与的,而民营企业的投入还在增长,2021年,我国企业研究与试验发展(R&D)经费支出21500亿元,比上年增长了15.2%。

我特意拉出了中国电子学会科技进步一等奖从2012年到2022年十年来所有的获奖名单。早年间这个名单上获奖项目的主要完成单位,大多是各大高校和相关专业的研究所,出现在名单上的民营企业则主要是一些通讯设备硬件和服务的提供商,比如中兴、华为等等。

而随着时间的推移,这个名单上开始出现越来越多各行各业的民营企业,阿里、百度、腾讯、网易、奇安信、OPPO、TCL、海信、京东方、蚂蚁集团……这些互联网巨头和各自领域的龙头企业,都开始出现名单里。

根据国家知识产权局知识产权发展研究中心发布的《中国民营企业发明专利授权量报告》,截至2021年年底,研发投入前1000家民营企业的研发费用总额已经达到了1.08万亿元,占全国研发经费投入的38.58%,占全国企业研发经费支出的50.16%;同比增长23.14%,增速比全国高8.5个百分点,比全国企业高7.9个百分点。

中国民营企业500强国内外有效专利合计为633922项,较上年增幅53.60%。其中,国际有效专利134657项,增幅为474.65%。在《国家中长期科学和技术发展规划纲要(2006-2020年)》指导下发展的近20年里,正在涌现出越来越多源自民营企业的科技成果。

在不知不觉间,全球经济竞争格局已经发生了转变,国家间的综合国力竞争,演变成了以科技创新为核心的发展竞争。

卡脖子是一件很痛的事,这些年一直埋在每个中国人的心里。但能让人好受一点的是,这样的国际环境,也进一步促进了中国企业自主创新意识的提升,迫使企业走上了国际科技竞争的舞台。其中大量都是民营企业。

以前的很多技术空白正在被一点点填补起来,手机操作系统有华为的鸿蒙,人工智能我们也有了百度自主研发的深度学习平台,云计算领域阿里有着深厚的技术积累,新能源汽车领域从比亚迪到蔚小理,都已经走在世界前列。中国的民营企业正在成为我国参与国际科技竞争和掌握国际科技创新话语权的代表者,以超乎想象的科技创新活力,成为全球市场上不可忽视的一支力量。

结语

2011年,北京邮电大学计算机系教授石川因为一个契机,最早接触到了图智能技术中的重要概念,异质图。

这个概念最早由国际数据挖掘权威韩家炜和俞士伦在2009年提出。彼时,业内对这个概念的接受度还很低,一些该领域的奠基之作投稿顶会论文,也被拒了好几次。

但好的技术会发光,石川不甘这样的技术被埋没,踏上了长达十多年的布道之路。后来,石川遇到了产业界做图技术领先的蚂蚁集团,双方一拍即合搭建了科研小组。经历过大规模工业级场景的考验,蚂蚁已对图技术游刃有余,与学术界的双剑合璧,催生出了开篇提到的图智能研究成果,将图智能水平提升到了新的层次。

图这样的技术,发展到一定程度就需要一个自身规模就够大,应用场景就够多的平台做舞台,才能进一步的进化迭代,这种事小型创业团队很难做得了,过去二十年里成长起来的中国科技产业巨头们,就成了前沿技术大规模推广应用的重要力量。

而还有更多的企业,虽然未必像大平台一样能量巨大,但也逐渐成长为了产业链上的关键技术企业。

工业和信息化部自2016年发布《制造业单项冠军企业培育提升专项行动实施方案》以来,共计公布了六个批次的“单项冠军”评选结果,这些企业在细分产品市场中实现了生产技术或工艺的国际领先,共计848家“单项冠军”里,有400多家是民营企业。

去年我们盘点过中国航母相关的供应商,山东舰的配套单位一共532家,其中非军工的社会配套单位就有412家,其中民企占了半壁江山。

我写这篇文章之前,刚刚去二刷了《流浪地球2》,片子的导演郭帆经常被人调侃为全中国最会“化缘”的导演,拍球1的时候带着个草台班子,拍球2就已经建立起来了一套完全属于中国电影工业自己的标准化管理体系,实现了云端的5G媒资管理和现场拍摄的直播推流。

5年左右的时间,试图给中国科幻电影趟出一条路的《流浪地球》主创团队,就从草台班子变成了现代化、工业化的电影制片厂,成为了中国文化先进生产力的代表。

而所有这些为人知、不为人知的公司,看得见、看不见的努力下,中国的民营企业已经成为我国科研创新和社会进步的重要力量,爆发出超乎想象的科创力。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金星链

[0:0ms0-0:576ms