专访鄢志杰:地铁进入语音购票时代,深度解读下一代人机语音交互技术

简介: 阿里巴巴达摩院携手上海地铁开展了地铁语音售票概念机研制,通过完全自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。

上海作为全球最繁华的都市之一,其城市轨道交通极其发达。然而现有的地铁线路网络复杂,购票步骤繁琐,难以满足乘客智能化、自动化语音购票的强烈需求。基于此诉求,阿里巴巴达摩院携手上海地铁,开展地铁语音售票概念机研制,通过完全自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。

本文邀请到iDST智能语音交互团队负责人鄢志杰,与其深入探讨了下一代语音人机交互方案背后的项目背景、技术解读、功能实现、落地应用等细节问题(鄢志杰将在云栖社区主办的云栖大会北京峰会开发者进阶专场上进行分享,对人工智能、智能语音交互技术感兴趣的读者可以来现场与专家互动)。

d5bc15922a78e883f9165a7242eb29659665f38c

阿里巴巴iDST智能语音交互负责人鄢志杰

项目背景

作为全球最繁华的都市之一,上海的城市轨道交通工作日客流量超过1100万,位居全国之首,世界第二;截至目前,上海地铁已有16条线路、374个站点,线路总长617公里(含磁悬浮),而预计到2020年将达到800公里。如此繁重的客流压力下,自然带来了技术升级的智能化购票需求。

鄢志杰表示,以往乘客需要依次选择线路、站点、购票张数,购票步骤极为繁琐;而且在乘客事先无法得知具体线路和站点的情况下,只知目的地却不知应坐到哪一站、如何换乘。阿里巴巴与上海申通地铁签署的全面合作战略协议,就是要将阿里巴巴全球前沿的人工智能和大数据技术落地上海地铁,推出能让市民以免唤醒的自然人机交互方式实现在地铁售票机上快速、便捷的购票操作,这些操作包括指定站名或票价购票、目的地模糊搜索购票等功能。

事实上,阿里巴巴在智能语音交互技术上的投入已有数年,目前已形成了杭州、北京、西雅图、硅谷、新加坡五地联动的实验室布局;并且随着达摩院的成立,越来越多的人才正加速向阿里巴巴集聚。上海地铁语音售票机正是源于iDST语音团队此前一个略带神秘感的秘密孵化项目——来自麦克风阵列硬件、语音信号处理、计算机视觉、语音识别和对话系统的科学家们在一次头脑风暴中,判断出若将某些技术做重点攻关、辅以多模态融合及全链路端到端的集成优化,有可能突破真实嘈杂环境下远场语音识别的技术瓶颈。一开始,只有很少的“特种部队”投入到关键技术的研发,这其中就包括此前刚刚加入iDST西雅图实验室的冯津伟博士,前Polycom(宝利通)首席工程师;同时,另一位iDST的计算机视觉大牛任小枫所领导的团队,也为该项目提供了多目标人脸检测和跟踪技术。

“这个孵化项目在取得初步研究成果后,正巧遇到了上海地铁集团项目。”鄢志杰谈到,地铁车站内车声、人声、广播声在封闭空间内形成强噪声复杂环境,加上上海地铁的线路复杂性带来的用户购票痛点,是阿里巴巴这项先进技术最好的落地场景和试金石。

技术解读

上海地铁语音售票机使用了达摩院的下一代人机交互方向的最新研究成果,即“多模态智能语音交互解决方案”,它由数个子系统组成,包括大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。

鄢志杰介绍到,整套方案由阿里巴巴iDST自主研发,其中包含了iDST在语音增强、声源定位、人脸和图像识别、远场语音识别、语音合成、自然语言处理、对话管理、多模融合人机交互等方面的最新前沿研究成果。此外,整套系统还深入整合了支付宝的扫码支付,并展示了未来人脸支付在购票场景的应用。同时,充分结合了阿里的高德地图在地理数据方面的优势,实现了围绕地铁的模糊地点购票乘车指引和路径规划——所有的核心技术均为阿里巴巴独家/自有专利技术,并将在后续逐步对外公开。

目前,项目实现的具体功能包括有:

1.公众场所强噪声环境下的高准确率远场语音识别:当前主流的远场语音识别技术在家居、办公室等比较安静的环境下能够很好地工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。此次针对地铁强噪声环境,项目首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。并且,针对地铁售票机的时变空间,同时进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,保障每一次流畅的语音交互。

2.免唤醒主动语音交互:目前市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。上海地铁语音售票机通过“语音+视觉”多模态融合技术,能够自动检测乘客走近售票机的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。

3.支持复杂口语理解并自我进化的对话系统:用户面对机器表达时往往存在语气词、犹豫、停顿、重复等口语化表达,繁琐的多轮询问确认式对话也使得主流的人机交互略显呆板。上海地铁语音售票机能够理解这些口语化表达,并不断从乘客真实对话模式中进行自我进化,变得越来越智能。

“下一代人机交互,是阿里达摩院首批公布的重点研究方向之一。”他表示,其他重点研究方向还包括量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等。

应用前景

历时短短半个月的搭建,目前上海地铁语音售票概念机已在线下展示试用,实施效果也远远超出预期。此次的技术成果,无疑也将为自然人机交互技术打开一片全新的世界。

对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地,而未来阿里巴巴将会将这项技术带入人们的生活,将有望应用于火车站、地铁、机场等公共服务,餐厅、贩卖机、零售店等新零售行业,以及智能前台、交互式导览等企业服务场景中,如餐厅快速点餐机、咖啡售卖机、公司智能前台、商场导览机、机场问询机等等。

作为阿里巴巴技术中台的一股重要力量,iDST在研发新技术的同时,也将新技术在阿里云上进行产品化落地和商业化输出,目前在阿里云的产品集合名称为“ET智能语音交互”,技术成果也已通过阿里云人工智能ET不断对外输出。在语音交互产品方面,阿里iDST研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT设备、互联网汽车、电视、智能音箱等各类终端。此外在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景也有成功应用。

“接下来,阿里会与申通集团一道,将上海地铁语音售票概念机迅速推向实际落地。”最后,鄢志杰如是说。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
Java 语音技术 开发工具
Android 讯飞离线语音听写/离线语音识别SDK
Android 讯飞离线语音听写/离线语音识别SDK
391 0
Android 讯飞离线语音听写/离线语音识别SDK
|
API 语音技术 Python
Python 技术篇-百度语音识别API接口调用演示
Python 技术篇-百度语音识别API接口调用演示
380 0
Python 技术篇-百度语音识别API接口调用演示
|
4月前
|
JSON 自然语言处理 Java
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
122 0
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
3月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
33 1
|
4月前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
161 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
164 0
|
5月前
|
语音技术
同一个语音为什么识别结果还不一致的,有大佬知道原因吗(Paraformer语音识别-中文-通用-16k-离线-large-热词版)
模型speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404,在线体验同一个语音识别结果不一致(https://modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary)
158 0
|
9月前
|
人工智能 编解码 API
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
|
9月前
|
自然语言处理 语音技术
STM32工程---非特定语音识别模块使用---语音播报+语音识别
STM32工程---非特定语音识别模块使用---语音播报+语音识别
114 0