RMB:数字翻译大作战:火山翻译精准通关

近期,国外一份调查报告误将392万和83万的采购费用翻译为39.2亿和830万,闹出国际笑话。有分析认为,此乌龙事件是国外机器翻译软件造成的。

让很多人意想不到的是,看似简单的数字,在机器翻译中向来是一大痛点。就以「392.687694万元」为例,我们测试不同翻译软件的翻译结果。

数字翻译「中译英」测试

首先测试「中译英」,国内外9款主流翻译软件中,只有火山翻译和腾讯翻译君准确地翻译出了392万。其余7款产品,有翻译成392的,有翻译成39.2亿的,甚至还有翻译成392万亿的,比正确结果扩大一亿倍,另外4款都翻译成了3.92亿。测试结果如下列组图所示。

火山翻译:

腾讯翻译君:

中国人大研究员:法定数字货币应具有不可“双花”、匿名、可编程等特点:中国人民大学区块链研究院研究员黄尹旭发文称,相对于私人发行的数字货币,中央银行发行的数字货币更需要特殊化。为了发行法定数字货币,需要对中国人民银行法等现行的法币发行法律机制作出一定具体化、补充或者修改,进一步明确法定数字货币权力配置、职责承担和绩效考核机制。完美状态下的法定数字货币具有一系列特点:不可“双花”、匿名、不可伪造、系统无关、安全、可传递、可追踪、可分性、可编程(可附加用户自定义的可执行脚本,为基于数字货币的数字经济提供智能化助力)、公平的数字货币。这些特殊技术要求也需要进一步出台法律加以固化和确认。(澎湃新闻)[2020/8/27]

以下为其他7款翻译产品的测试结果。

翻译为39.2亿:

声音 | 任凌霞:区块链正在进入爆发期,将有力地支撑数字经济高质量发展:12月26日,中国电子学会数字经济研究室副主任凌霞在光明日报刊文称,当前,各研究机构和区块链从业者对区块链的认识相对明确,对区块链产业的概念尚缺乏明确的、公认的科学界定。笔者认为,可将围绕区块链技术及衍生出的产品、应用和服务形成的具有一定规模、商业模式较为清晰可行的行业集合视为区块链产业的主要构成。依据产业属性和不同发展阶段,区块链产业可分为基础产业、特色产业和前瞻产业。当前,区块链产业规模快速扩大,应用场景持续扩展,正在进入加速创新、加快迭代、群体突破的爆发期,将有力地支撑数字经济高质量发展。[2019/12/26]

翻译为392:

翻译为392万亿:

翻译为3.92亿:

声音 | 中国人大董希淼:“天秤币”难成法定数字货币:7月11日,中国人民大学重阳金融研究院副院长董希淼在《经济日报》上刊文《“天秤币”难成法定数字货币》,其表示,尽管“天秤币”具有一些与众不同的特征,但它不是法定数字货币,难以成为真正的超主权世界货币。在主权国家没有消亡的情况下,未得到各国央行认可并纳入监管的虚拟货币,难以超越国界成为世界货币。所以,对于“天秤币”,全球金融稳定理事会等国际组织和各国央行普遍采取观望和谨慎态度。[2019/7/11]

动态 | 华为发布区块链联合征信等解决方案 深度布局金融服务数字化:据中金在线消息,在近日举行的2019华为全球金融峰会上,华为发布了5G智慧银行、虚拟银行、区块链联合征信、商品交易所动产质押、AI金融等系列解决方案,深度布局金融服务数字化。[2019/4/26]

数字翻译「英译中」测试

我们用不同软件把英文「3.92687694millionyuan(RMB)」翻译回中文,会是怎么样的结果?

这次只有火山翻译准确翻译出了392万元人民币。其他8款产品,有翻成3.92万的,有翻成39.2亿的,也有翻成392万亿的,另外5家都翻成了3.92万亿。测试结果见下列组图。

火山翻译:

其他产品的翻译结果:

声音 | BB:如果特朗普拥抱区块链 美国将引领数字时代:据引力观察消息,Block.one的CEO Brendan Blumer表示:EOS和其他协议的长期成功在很大程度上取决于社区快速迭代和升级更新的能力。法规是相互同意的约束集合,旨在提高市场的安全性、透明度和互操作性。区块链调节数据传输和存储,以实现同样的数字化。如果特朗普以促进金融市场和数字产品创新的明确规则拥抱区块链,美国将引领下一个繁荣的数字时代。他还认为,主流的区块链创新的沃土是通过连接政府和加密生态系统而发现的。在那里,创新将以前所未有的势头毫无顾虑地蓬勃发展。[2019/1/7]

数字的重要性毋庸多言,在商业条款中如果翻译错一个数字,可能会带来成千上万的损失;建筑图纸中一个数字翻译的疏漏,就可能导致一项庞大建筑工程轰然倒塌。想要保证数字翻译的准确度,远不是誊写一串阿拉伯数字再翻译单位这么简单。从上面测试中也可以看到,一些国际巨头的翻译产品,在数字翻译中照样会出现偏差万倍甚至上亿倍的错误。

数字翻译难在哪?

数字翻译对翻译者关于目标语言数字表达的理解要求较高,在中英翻译中,数字翻译的难点主要在以下方面:

a.中英语言中不同的数字单位,如1000万翻译成10million,不能简单地「拷贝」

b.很长的数字容易带来偏差

c.超大数字的翻译问题,如trillion、万亿以上的单位

d.中英语言中不同的计量单位,如中文中的“斤”,容易被翻译成“kg”

e.带有货币符号的数字容易犯错

当前,很多翻译软件对数字没有做额外的处理,采用的是与普通文字相同的sequence-to-sequence神经机器翻译模型。这一模型翻译质量较高,流畅性较好,但存在一个显著的缺陷,就是缺乏常识和推理能力,无法理解对于人类来说比较简单的规则,例如,“万”和“million”的的转换、单位货币之间的不同等。

火山翻译如何解决数字翻译难题?

我们从火山翻译技术分享中了解到,火山翻译的翻译模型见到对应的数字之后,会将其抽取出来,通过推理、计算等智能过程,对数字进行跨语言的语义转换,然后将其置于翻译句子适当的位置中,类似人类的翻译推理过程。

火山翻译是字节跳动旗下火山引擎的AI中台能力之一,技术能力已经在飞书的文档、消息翻译和火山引擎的企业级客户中广泛应用。由于当前机器翻译场景中存在大量的数字内容,数字翻译也一直是火山翻译团队持续优化的重要方向。目前,火山翻译已经支持56门语言、3080个语向的翻译。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金星链

[0:15ms0-0:533ms