跨越语言鸿沟-跨境电商多语言翻译实现电商全球化

2018-06-22 23:36:43 965

2018云栖大会上海峰会,阿里云高级技术专家太武对跨越语言鸿沟-跨境电商场景多语言翻译应用和实践进行了讲述。机器翻译助力跨境电商全球化。本文主要从机器翻译的背景,具体翻译跨境电商以及搭建跨界电商场景语言翻译技术条件以及运营的技术挑战及创新。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
直播视频请点击

机器翻译背景

机器翻译的目的是使机器翻译能成为沟通的工具。每当提起机器翻译我们首先能想到的是谷歌翻译,百度翻译。然而机器翻译不是简单的翻译软件。以下对机器翻译的历史和现实生活中的应用进行介绍。

机器翻译的发展史

1954年开始有一些机器翻译进行了初步的研究研究;1966这一时期由于硬件落后只能采用直接翻译;1982年,第一个基于规整类机器翻译引擎诞生,当时是应用于加拿大天气预报;1993年IBM的Brown和Della Pietra等人提出的基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。2003年爱丁堡大学的Koehn提出短语翻译模型,使机器翻译效果显著提升,借助同时期Franz Och提出的对数线性模型及其权重训练方法,短语翻译模型在工业界开始广泛采用。2005年David Chang进一步提出了层次短语模型,同时还有多个大学和研究所在基于语法树的翻译模型方面研究也取得了长足的进步;2014年,人工智能开始应用,诞生了基于神经网络的一个机器翻译引擎,机器学习对语言的流利度和业务的忠实度有非常的大的提升。

机器翻译的应用

首先是语言类的服务公司,需要机器翻译来辅助人工翻译进行成本的降低;物联网的内容提供方,需要进行多语言的咨询和内容的再现,如优酷等视频类站点,需要机器翻译来提供多语言的视频内容;第三块就是社交平台,像facebook、微信和阿里的钉钉等都需要机器翻译来解决沟通的问题;另一个应用点是政府部门,像公安部、国防等对一些少数民族语言进行翻译;还有的用在跨国公司,像华为惠普需要机器翻译辅助开发;最后是我们平时旅游学习会用语言类的翻译工具。翻译的市场规模非常大,像大的互联网公司和翻译公司都在做机器翻译相关的事情。2017年,整个翻译市场每年以百分十的增长率进行增长。阿里正在全力的推全球化战略,阿里的所有业务都在走国际化。一个很重要的业务湿跨境电商,买家和卖家之间都来自世界各地,说不同的语言。这就需要机器翻译来解决他们之间的语言问题,使他们之间快速的达成一笔交易。

跨界电商案例

1


如上图所示是跨境电商的链路,首先我们应该做的是站点的本地化,需要做到网站框架、网站规则和APP本地化。当做完站点的本地化后,需要进行引流拉新,必须做好引流词翻译、LP页翻译、营销创意翻译和TOP商品精翻。当把流量引入到站点后,希望对用户进行一个好的转化,就需要站点搜索。到站搜索就涉及到搜索词的多元化、类目和属性的多语化。用户到达站点搜索所需商品后需要提高用户的转化率。用户搜索到商品需要获取标题、详描和评论翻译,还需要获得多语言品牌库。当找到物品需要下单时,进行支付、物流和关检务。当产品到达用户手中之后,电商希望用户再次购买。提高复购率就会设计多语言的实时沟通和多语言的智能客服。

具体的应用场景

多语言的搜索

2


如上图所示是多语言的搜索中俄语搜索的一个实例。我们首先对俄语进行语种的识别,然后对内容进行纠错并转换成英语。

商品信息的多语言化

当用户对商品进行搜索,搜索到商品后进行观察和阅读。但是当语言不通的情况下,最终用户会由于读不懂相关的信息放弃购买。所以机器翻译的目的是当用户浏览商品的网页时,必须能读懂、理解网页内容。

3


商品信息的多语言化如上图所示,首先需要对商品的标题翻译成16个国家的语言。然后对商品有关的其他信息,如详情、评论、类目和属性进行相应的翻译成多国语言,帮助用户进行决策。

菜鸟全球关务平台通关翻译

4


如上图所示,阿里联合MP团队做了一个菜鸟全球关务平台通关翻译,对出关产品进行品名生成,然后调用智能翻译,关务平台就能进行备案和申报清单。该平台支持两千四百万的品名生成,准确率达到96%。

搭建电商场景机器翻译系统的挑战和解决办法

首先需要保证翻译质量,机器翻译需要做到电商场景翻译结果的高可读,领域相关关键信息翻译的准确性以及灵活的干预机制。然后达到服务要求,机器翻译需要达到高可用性,多区域的要求,而且实现高并发响应。最后是快速迭代,需要具备快速大规模预料训练能力,语种快速扩展能力,实现模型迭代更新效率。
阿里主要从模型、数据和工程三个方面完成了以上三方面的挑战。

5


模型上为了确保翻译质量的高可读性,采用了如上所示的多模型的融合。最里层响应时间和成本比较高,采用神经网络机器翻译,神经网络翻译比较适合强文本的,它实现语言的流利度和业务的忠实度能力强。我们在商品描述、评论和沟通上使用神经网络机器翻译;在商品标题、搜索词和属性上使用统计机器翻译;在数字、日期、单位、地址和菜单上使用规则翻译;在精准匹配上使用翻译记忆。
领域数据主要包括电商领域的双语语料、电商域的单语语料、电商品牌词表、通用领域单语语料、通用领域双语语料、电商高频短语翻译和电商专业词表。这些语料主要是通过网络抓取和人工翻译获得。
工程上主要是架构上的事情,即如何做好全局化的部署。阿里自己建立了一个分布式训练体系。在这个体系下,我们可以对上亿级的语料SMT统计及其翻译模型进行训练,这个训练可以在几个小时就完成。电商的应用场景采用了并行计算,电商详情里具有大量的大文本网页数据,采用并行计算能把大文本进行解析和拆分,同时调用翻译引擎。这就能在保证吞吐量的同时达到一个很好的响应时间。

电商 并行计算 神经网络

作者

云迹九州
TA的文章

相关文章