撰文:TanyaMalhotra
来源:Marktechpost
编译:DeFi之道
图片来源:由无界版图AI工具生成
随着生成性人工智能在过去几个月的巨大成功,大型语言模型正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI开发的ChatGPT是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如Pathways语言模型、Chinchilla等,在模仿人类方面也有很好的表现。
THORChain:金库的 TERRA 地址已提供给 TFL,资金将稍后在 LUNA、UST 池按比例份额分配:金色财经消息,去中心化跨链交易协议 THORChain 发布“TERRA 流动性提供者更新”,称 THORChain 金库的 TERRA 地址已提供给 Terraform Labs(TFL)(攻击前和攻击后快照的所有地址都包括在内),新空投指定给 THORChain 流动性提供者,并将在稍后的日期在 LUNA、UST 池按比例份额分配。这将是一个半手动的过程,请继续关注细节。最新信息将在 Discord 的 terra-status 中发布。[2022/5/30 3:50:16]
大型语言模型使用强化学习来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像ChatGPT这样的LLM表现出的卓越性能都要归功于强化学习。
Chainlink发布跨链互操作性协议CCIP:8月30日,Chainlink发布跨链互操作性协议(CCIP),旨在实现去中心化跨链消息传递和通证转移。据悉,CCIP是跨链通信新的开源标准,目的是在几百个公链和私有链网络之间建立通用的连接,让本来孤立的通证在所有链上生态之间流通,并实现跨链应用。
CCIP为智能合约开发者提供了具有计算能力的通用基础架构,能够跨越各个区块链网络传输数据和智能合约指令,并将成为各种跨链服务的底层协议,其中包括Chainlink的可编程通证桥,用户可以将通证安全高效地转移到任何区块链网络中,并具有可扩展性。[2021/8/30 22:47:27]
ChatGPT使用来自人类反馈的强化学习,通过最小化偏差对模型进行微调。但为什么不是监督学习呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员SebastianRaschka在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。
跨链交易平台Multichain.xyz已添加第一批新代币:YFI创始人Andre Cronje发推称,跨链交易平台Multichain.xyz已经更新,添加了第一批新代币,可以在Tokens选项卡上确认状态。针对ETH- BSC- FTM-FSN-HT的转移已启用。v3尚未部署跨链跨资产兑换。用户可以直接从Tokens选项卡填写表单申请。[2021/3/6 18:21:22]
AxieInfinity与Chainlink达成合作,集成Chainlink预言机和ChainlinkVR:11月16日,AxieInfinity宣布与Chainlink达成合作,将使用Chainlink预言机作为喂价来源以确定Axie市场的ETH/USD汇率;同时将使用ChainlinkVRF来保证每一只OriginAxies具有的“神秘部位”等所有的随机元素都是公平,不能被AxieInfinity团队或任何外部实体所操纵。[2020/11/17 21:00:09]
不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF则被训练来估计产生反应的质量,而不仅仅是排名分数。
SebastianRaschka分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和ChatGPT之间的连贯对话也是必要的,而监督学习无法提供这种奖励。
不选择SL的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠SL是不够的,RLHF对于考虑整个对话的背景和连贯性是必要的。
监督学习可以用来训练一个模型,但根据经验发现RLHF往往表现得更好。2022年的一篇论文《从人类反馈中学习总结》显示,RLHF比SL表现得更好。原因是RLHF考虑了连贯性对话的累积奖励,而SL由于其文本段落级的损失函数而未能很好做到这一点。
像InstructGPT和ChatGPT这样的LLMs同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用SL对模型进行微调,然后使用RL进一步更新。SL阶段允许模型学习任务的基本结构和内容,而RLHF阶段则完善模型的反应以提高准确性。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。