聚能聊

达摩院黑科技首次亮相,语音让生活变的更简单!

33个月前 285回答 22729关注

昨天,据媒体报道上海申通地铁集团与阿里巴巴、蚂蚁金服联合宣布,三方达成战略合作,签约仪式上,阿里巴巴iDST最新研发的多模态智能语音交互技术首度惊艳亮相。

voice_ticket

传统的自然语音交互主要在家居、办公室等比较安静的环境下工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。iDST首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。其次市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。而这次iDST通过“语音+视觉”多模态融合技术,能够自动检测用户走近设备的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。

zaoyin

下一代人机交互,是达摩院首批公布的重点研究方向之一(其他还包括:量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等)。
这套多模态智能语音交互解决方案是由数个子系统组成的:
1、大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;
2、计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;
3、多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;
4、远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。

此次的技术成果,将为自然人机交互技术打开一片全新的世界。对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地。而未来这项技术进入人们的生活中,普惠大众。

那么大家来聊聊

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?

专家已赏出0个礼品,剩余0个可抢

活动规则

点击加载更多