小程序实时语音通话-小程序实时语音通话文档介绍内容-移动阿里云

功能发布记录

新增一句话识别：Go SDK、Node.js SDK、微信小程序 实时语音识别：C#SDK、Go SDK、Node.js SDK、微信小程序语音合成新增SDK 新增四种开发语言的SDK，包含C#SDK、Go SDK、Node.js SDK和微信小程序。新增 C#SDK Go SDK Node.js SDK 微信小...

SDK和API概览

Python SDK 一句话识别、实时语音识别、录音文件识别、录音文件识别闲时版、语音合成、C++ SDK 一句话识别、实时语音识别、语音合成 Go SDK 一句话识别、实时语音识别、语音合成 Node.js SDK 一句话识别、实时语音识别、语音合成 小程序 ...

CXG Voice-概要介绍

CXG Voice是Connected Experiences Gateway（互联网关CXG）提供的产品化、开箱即用的呼叫中心（热线）...功能总览热线用户管理一键外呼接起入呼与结束通话 实时语音转文本转交呼叫回放电话录音与查看语音文本记录 CXG Supervisor工作台

快速开始

通过集成音视频通话插件，可以在支付宝小程序之间，以及支付宝小程序与其他应用之间实现一对一和多对多的实时音视频通话功能。本文提供了将实时音视频通话插件接入支付宝小程序的指引。前置条件订购实时音视频通话插件和关联小程序。在...

扩展功能

小程序设置点击工具箱中的设置 小程序设置可打开小程序的设置页面，系统会根据您的小程序代码中的一些配置，提示配置项中易错的选项。功能导出点击工具箱中的功能导出，选中小程序版本后点击导出即可。此功能是拉取最新版的小程序...

智能化配置

功能介绍功能描述视频效果 实时语音转写支持坐席在热线工作台通话时，对话语音实时转写为文本。会话信息生成通过AI抽取对话中的内容进行自动小结的能力。小结模板可使用系统默认模板或自定义模板。自动填单通过AI抽取对话中的内容...

情感陪伴

当前AI语聊多基于IM场景的离线文字或语音聊天，GPT-4o的发布推动多模态大模型应用至实时语音或视频交互，带来更真实互动的虚拟娱乐体验。阿里云结合第三方大模型与TTS等技术，实现边消费边创作、剧情多变的实时互动情感陪伴，让用户获得...

产品简介

该组件功能丰富，提供纯语音通话和视频通话功能，支持 PC、移动端、IoT 设备等多终端接入。音视频通话可实现一对一通话及多人会议，通话过程中支持屏幕录制、屏幕共享、截图等功能，同时支持即时文字消息和文件传输。此外，支持实时语音...

接口说明

客户端在调用实时语音识别时请保持实时速率发送，发送完成后及时关闭链接。50000000 GRPC_ERROR:Grpc error!受机器负载、网络等因素导致的异常，通常为偶发出现。一般重试调用即可恢复。50000001 GRPC_ERROR:Grpc error!受机器负载、网络等...

概述

实时音视频通话插件通过集成阿里云 mPaaS 音视频通话服务，可以在支付宝小程序之间，以及支付宝小程序与其他应用之间实现一对一和多对多的实时音视频通话功能。案例介绍实时音视频通话插件可以用于互联网医疗问诊、互联网审案、公益诉讼和...

概述

实时音视频通话 WX-SDK 通过集成阿里云 mPaaS 音视频通话服务，可以在微信小程序之间，以及微信小程序与其他移动端或者 Web 端之间实现一对一和多对多的实时音视频通话功能。主要功能 WX-SDK 主要提供微信小程序端和其他移动端以及 Web 端...

Android SDK

本文档提供了Gummy实时语音识别/翻译Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见 实时语音识别-Paraformer/Fun-ASR/Gummy 和 实时语音翻译。在线体验：模型体验快速开始获取API Key：...

Android SDK

本文档提供了Gummy实时语音识别/翻译Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见 实时语音识别-Paraformer/Fun-ASR/Gummy 和 实时语音翻译-Gummy。在线体验：模型体验快速开始获取API ...

口语陪练

通话类型纯语音通话 数字人通话效果示例陪练形式学员：语音 AI陪练：语音学员：语音 AI陪练：视频费用低中终端SDK SDK集成详情，请参见开发指南。SDK 说明 Web SDK 推荐使用桌面端浏览器：如Chrome等；移动端H5：如支付宝的H5、...

iOS SDK

本文档提供了Gummy实时语音识别/翻译iOS SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见 实时语音识别-Paraformer/Fun-ASR/Gummy 和 实时语音翻译。在线体验：模型体验快速开始获取API Key：获取...

iOS SDK

本文档提供了Gummy实时语音识别/翻译iOS SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见 实时语音识别-Paraformer/Fun-ASR/Gummy 和 实时语音翻译-Gummy。在线体验：模型体验快速开始获取API Key：...

Android SDK

本文档提供了Paraformer实时语音识别Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见 实时语音识别。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v...

移动端SDK说明

一句话识别/实时语音识别/录音文件识别极速版配置或参数错误状态码状态消息原因解决方案 240999 DEFAULT_ERROR 内部默认错误。内部未明确错误。240001 NUI_CONFIG_INVALID 配置文件错误。配置文件错误，请确认传入的资源路径内是否有...

iOS SDK

本文档提供了Paraformer实时语音识别iOS SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见 实时语音识别。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

小程序权限控制

说明在左侧的小程序包管理标签页中创建的小程序，会实时同步至此下拉列表中。权限控制开关通过小程序权限控制开关，您可选择是否启用后续配置的服务器域名白名单、API 调用白名单以及内嵌 WebView 域名白名单，以此实现对所选小程序的...

API概览

交互式语音通话 API 标题 API概述 IvrCall 向指定号码发起交互式语音通话 向指定号码发起交互式语音通话。智能语音交互通话 API 标题 API概述 SmartCall 发起智能语音交互通话智能语音交互服务，是一种人机交互技术，它允许用户通过语音与...

HarmonyOS Next SDK

ASR中一句话识别和录音文件极速版支持OPUS数据，实时语音转文字仅支持PCM编码、16 bit采样位数、单声道（mono）。具体详情，请参见接口说明。接口调用超时引起的应用无响应退出问题如何处理？可以参考示例代码中的OneSentenceAsrWorker....

实时语音质检对接方案

本文将实时语音质检请求与相应参数进行了解释说明，并提供了相关示例以及错误码以便于您在调用接口时查阅。接入步骤接入实时语音质检时序图与步骤描述如下调用ApplyWsToken接口。参考文档：ApplyWsToken-实时语音质检申领token ...

服务端API参考

获取旁路转推任务状态事件回调创建订阅房间消息回调查询订阅房间消息列表查询回调记录更新订阅房间消息回调删除订阅房间消息回调质量数据查询实时音视频指标数据 实时语音转文字/翻译创建实时语音转文字或翻译查询实时语音转文字...

通过API使用语音通知/语音验证码

执行语音通话任务-ExecuteCallTask：启动已创建的语音通话任务。步骤三：查询通话详情通用接口仅支持专属模式接口使用API接口：调用 QueryCallDetailByCallId 接口，使用步骤二中发起语音通话时接口返回的 CallId，查询语音通知/验证码...

集成插件

本文介绍如何集成支付宝小程序端的实时音视频通话插件。插件支持 3 种集成模式：全屏：调用时，插件自动跳转视频通话全屏页。Flex：视频通话界面可以嵌入到自己的小程序的指定区域中。Answer：可以将视频通话界面嵌入到自己的小程序指定...

应用配置

语音识别：支持使用阿里云百炼的语音识别模型，包括Gummy实时语音识别、Paraformer实时语音识别、多模态交互轻量版语音识别、Fun-ASR实时语音识别以及通义千问3-ASR-Flash-Realtime。语音合成：支持使用阿里云百炼的语音合成CosyVoice-v2大...

AI面试

面试类型纯语音面试视觉理解面试视频通话面试效果示例面试形式候选者：语音 AI面试官：语音支持自然对话以及对讲机模式候选者：语音、视频 AI面试官：语音支持自然对话以及对讲机模式候选者：语音、视频 AI面试官：语音、视频 ...

2024/07/30 更新日志

并在通话过程中查看实时的语音转文本信息。拨打外呼电话热线客服或者销售代表可以通过Voice Utility Bar组件拨打外呼电话。转交通话在通话过程中，热线客服可以通过Voice Utility Bar组件将通话转给其它客服或技能组，由系统路由来决策...

时间戳功能介绍

实时长文本语音合成服务在输出音频流的同时，可输出每个汉字/英文单词在音频中的时间位置，即时间戳。时间戳功能又叫字级别音素边界接口，该时间信息可用于驱动虚拟人口型、做视频配音字幕等。功能概述实时长文本语音实时合成服务的时间戳...

功能特性

Java/C++/Python/C#Go/Node.js/RestfulAPI/Android/iOS/微信小程序/Harmony 最大2个并发资源包购买 实时语音识别实时识别长时间的语音数据流。会议演讲、视频直播等长时间不间断语音场景。单声道（mono）、16 bit采样位数，包括PCM、PCM...

数据概览

小程序分析功能支持对当前 App 的小程序使用数据进行统计分析。通过数据概览页面，您可以了解单个小程序的历史统计数据（T+1）和实时数据概况。完成以下步骤查看数据概览：登录 mPaaS 控制台，选择目标应用后，从左侧导航栏进入 小程序 小...

实时多模态交互协议（WebSocket）

语音识别支持的模型包括：Gummy实时语音识别（Gummy），Paraformer实时语音识别（Paraformer），FUN-ASR实时语音识别（FunASR），通义千问3-ASR-Flash-Realtime（qwen3-asr-flash-realtime），多模态交互轻量版语音识别（AppSpecificASR-...

数据概览

通过数据概览页面，您可以了解单个小程序的历史统计数据（T+1）和实时数据概况。完成以下步骤查看数据概览：在 小程序开放平台的开发者后台从左侧导航栏进入数据统计数据概览页面。从页面左上方的选择下拉框中，选择目标小程序。默认...

实时语音合成（CosyVoice）

阿里云实时语音合成(CosyVoice)可将文本实时转换为流畅、自然的人声。本文系统阐述了其API接口技术规范，助您快速为应用构建生动、自然的语音交互能力。

服务端Python SDK

parameters upstream type string 是上行类型：AudioOnly：仅语音通话 AudioAndVideo：上传视频 mode string 否客户端使用的模式，可选项：push2talk tap2talk duplex 默认tap2talk audio_format string 否音频格式，支持pcm，opus，...

并发和QPS说明

并发概念适用于智能语音交互产品中的一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成等服务。在智能语音交互产品中，不同服务之间不共享并发额度，同一服务下的不同项目（对应不同AppKey）共享并发额度。例如，以...

语音记录查询

将加载命中当前查询条件的所有语音通话记录的通话时长、呼叫状态等信息。您也可单击通话报告列详情按钮，查看当前通话记录的详细通话报告。单击下载按钮，可将当前查询的所有数据导出到本地。相关阅读接口调用成功后，若呼叫状态为...

什么是云联络中心

打通热线电话、网站、小程序、APP等用户与企业的联系渠道，为企业提供整体的智能化客服方案，帮助企业统一管理服务体验，并利用大模型升级数字员工服务与坐席智能辅助体系，全面提高服务体验与效率。产品开放灵活，帮助企业快速构建个性化...

CXG 功能更新日志

CXG RAG 优势洞察非结构化数据：仅需点击操作即可轻松从知识库中提取关键信息在 Prompt 中应用最新且相关的业务信息：结合 Prompt Builder,您可以实时从知识库中检索关联信息，结合上下文生成 Prompt，从而显著提升大语言模型的响应准确 ...