全球最强大脑在哪里?阿里小蜜算法团队在寻找

简介:

阿里小蜜是什么?

阿里小蜜是阿里巴巴集团智能服务事业部旗下的面向电商领域的服务机器人。阿里小蜜所在的智能服务事业部,致力于以体验为核心,通过人工智能算法,以数据和技术为驱动,提升用户的服务体验以及解决问题的效率。目前围绕着智能对话、智能辅助、智能决策、智能管理4大核心体系通过人工智能技术全面赋能客户,引领服务的智能化升级。在2017年,阿里小蜜家族产品通过自然语言处理、知识图谱、深度学习等技术引领阿里小蜜从阿里走向行业,从中国走向国际,围绕这商家生态圈及阿里云生态圈,赋能数百万商家和全球中小企业,覆盖了英语、俄语、葡萄牙语、西班牙语、印尼语、泰语等多个国家和地区。

ba4ade431a65aeb3345532b1994d56ea0e300d58

阿里小蜜吉祥物

在过去的一年中,阿里小蜜团队已经在文本匹配及迁移学习两个方向上做了很多工作,不仅在工业界落地,真实服务消费者,而且在一些重要的国际会议上,如ACL、WSDM、CIKM等,发表了多篇论文。例如在2018的WSDM上,我们提出了一个文本匹配模型的迁移学习框架,尝试解决了同种语言下的文本匹配模型的冷启动问题。

为什么会选择“跨语言短文本匹配算法”相关赛题?

随着人工智能时代的到来,大数据和算法成为了互联网企业发展的两个重要驱动力。作为人工智能重要的落地场景之一,以聊天机器人出现的智能服务系统,为企业减少大量劳动力的同时,也对提升用户体验具有重要意义。因此在过去几年中,聊天机器人成为了商业公司重金投入的热点。从微软小冰、亚马逊的Echo等到各种垂直行业的客服机器人,聊天机器人蓬勃发展,形态各异,又不乏共性。阿里小蜜正是阿里巴巴集团围绕电商领域构建的超级个人助理,不仅可以解决用户的各种信息咨询类问题,也可以帮助用户挑选商品,为用户订购机票等任务。

根据应答产生的方式,聊天机器人可以分为检索式、生成式或者混合式。在检索式的聊天机器人中,文本匹配模型是至关重要的一个模块,决定了聊天机器人解决用户问题的能力。文本匹配模型接受一个用户的问题,在FAQ数据集上寻找一个匹配的问答对,并将人工编写的答案回传给用户。为了构建一个文本匹配模型,不仅需要人工收集一个称之为FAQ(Frequently Asked Questions)的数据集,同时也需要人工标注一批用户问题与FAQ中问答对的匹配语料,用于训练模型。然而这种情况在一些小语种中不太现实,一方面缺乏相应的标注语料,另一方面了解小语种的NLP研发人员很稀少,这两个方面都限制了聊天机器人的研发。

49666ce4fc5567959f039119410ff29b35d6b702

阿里巴巴集团在去年开始明显加快了国际化的进程,不仅通过速卖通(AliExpress)覆盖了俄罗斯、西班牙等120多个国家和地区,而且还在不同地区收购或投资了当地的电商企业,比如收购了东南亚地区最大的电商Lazada,在印度地区投资了Paytm等。

未来,阿里巴巴集团将为20亿用户提供服务。在这样一个背景下,作为阿里集团内最大的服务团队,在服务好国内消费者的前提下,也需要思考如何服务好国外的消费者,其中就包括使用技术手段解决消费者的服务咨询类问题。然而,现有的技术手段需要大量的标注数据,以帮助深度学习或机器学习系统训练出有效的模型。但一些小语种(如印尼语、泰语、菲律宾语等)不仅缺乏大规模的标注数据,而且相应的算法研发人员也相当匮乏。如何为使用这些语种的国家和地区的消费者提供高质量的服务,将是对算法人员很大的挑战。因此我们设计了这种一个题目,希望将数据资源丰富的语言理解能力迁移到资源匮乏的语言上。

期待你的参与

通过本次比赛,我们不仅希望为学术界抛砖引玉,贡献一个在真实场景中需要面对解决的问题,而且希望有更多的优秀选手参与比赛,共同帮助我们提升聊天机器人的能力。未来,对于消费者,他们可以自由地选择语言,不管是使用官方语言(如英语)还是使用日常用语(如印尼语等小语种),都将得到高质量的服务。

在这项比赛中,为了使参赛人员关注于语言本身的特性及迁移能力上,我们做了一些限制,比如不要过分关注于机器翻译技术等。这些限制,本质上是为了回归问题本身,而不是利用外部的能力。在此之外,参赛人员可以发挥想象力和创造力,提出各种模型和解决方案。

本次大赛将向全社会开放,我们期待来自高等院校、科研单位、互联网企业等算法工程师,在这个舞台大展身手。


原文发布时间为:2018-06-12

本文来自云栖社区合作伙伴“阿里技术 ”,了解相关信息可以关注“阿里技术”。

相关文章
|
3月前
|
算法 JavaScript Java
【状态压缩】【动态规划】【C++算法】1125.最小的必要团队
【状态压缩】【动态规划】【C++算法】1125.最小的必要团队
|
7月前
|
机器学习/深度学习 人工智能 算法
“探秘神经算法:如何用人工智能模拟大脑处理信息“
“探秘神经算法:如何用人工智能模拟大脑处理信息“
38 0
|
9月前
|
达摩院 算法 决策智能
阿里达摩院研发了一款运筹优化算法开发平台
使用数学规划技术时,需要运用运筹学的知识分析问题、数学建模和开发程序来计算。平台式的开发环境,可以集成多款优化求解算法和数据处理软件,易于使用,能提高开发的效率,帮助快速将优化技术应用于业务。
阿里达摩院研发了一款运筹优化算法开发平台
|
2月前
|
存储 算法
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
|
7月前
|
缓存 算法 架构师
阿里P9架构师终于把毕生心血而成的分布式高可用算法笔记开源了
说在前面的话 分布式系统无处不在。 一台计算机内部多个互联的处理器组成了一个分布式系统,它们通过“一致性缓存”算法使每个处理器核心看到相同的数据。近三十年来,随着互联网的发展,越来越多的互联网后台系统采用计算机集群的方式来应对海量请求和数据的需求,这个计算机集群也是分布式系统。 为了简化分布式系统的开发,出现了很多为开发者提供分布式框架的开源项目,例如Apache基金会旗下的ZooKeeper项目就是一个应用广泛的分布式框架。 同时,国内也有很多关于如何使用这些分布式框架来搭建应用的书籍,它们极大地推动了分布式系统在国内的应用。我们不仅要知道如何使用这些现成的分布式框架来搭建应用,而且应
|
4月前
|
算法 搜索推荐 Java
太实用了!阿里内部强推的超全Java算法学习指南,已被彻底征服
算法和数据结构一直以来都是程序员的基本内功。 数据结构可以看作是算法实现的容器,通过一系列特殊结构的数据集合,能够将算法更为高效而可靠地执行起来。
|
4月前
|
算法
电子好书发您分享《阿里技术参考图册——算法篇》
电子好书发您分享《阿里技术参考图册——算法篇》
47 9
|
5月前
|
算法 NoSQL Java
2023年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)
|
10月前
|
负载均衡 监控 算法
【阿里二面面试题】说说你对 Raft 算法的理解?
【阿里二面面试题】说说你对 Raft 算法的理解?
636 0
【阿里二面面试题】说说你对 Raft 算法的理解?
|
5月前
|
存储 人工智能 算法