音频通话服务-音频通话服务文档介绍内容-移动阿里云

音频转写交互协议（WebSocket）

接收服务端返回的事件在指令或音频发送后，服务端会向您发送不同种类的事件，每个事件代表不同的处理阶段，请严格遵循时序图对不同事件做相应处理。事件总共分为五种，分别是speech-listen事件、recognize-result事件、心跳事件、speech-...

音视频通话费用

计费示例用量示例用户进入房间、订阅音频、订阅视频、离开房间时间情况如下图所示：音频通话费用=（未订阅时长+订阅音频时长）×音频通话单价=（10分钟+20分钟）×0.006 元/分钟=0.18元。说明其中未订阅时长包括用户入会的时间和仅推流...

方案介绍

Qos能力提供全面的弱网对抗能力，为音频通话质量保驾护航。功能特性低延迟音频互动依托阿里云GRTN品牌网络，全球覆盖3200+节点，构建的低延迟传输网络，保障主播和主播、主播和观众间的低延迟互动效果。麦位和权限管理提供数据传输通道...

快速部署Frontend/Backend分离式高性能服务

推理服务生成音频重要场景化部署将自定义部署的2个服务聚合，在推理服务页签中只显示一个服务。在使用时请注意：自定义部署：通过Frontend服务进入WebUI页面并进行API调用。场景化部署：暂不支持使用WebUI。请通过聚合服务的调用信息进行...

Java SDK

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别Java SDK的使用。用户...

错误信息

本文介绍使用阿里云百炼服务可能出现的错误信息及解决方案。使用阿里云 AI 助理推荐您通过阿里云 AI 助理排查错误，输入报错信息即可得到解决方案。示例问题：报错信息：'code':'Arrearage','param':None,'message':'Access denied,...

RESTful API

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别RESTful API的使用。...

Python SDK

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别Python SDK的使用。...

C++ SDK

resource目录：SDK源码中，语音服务范例音频，可用于功能测试，如下表所示。文件名描述 test0.wav test1.wav test2.wav test3.wav 测试音频（16k采样频率、16bit采样位数的音频文件）。include：SDK源码中的头文件，如下表所示。文件名 ...

Demo体验

AI音频通话：单击右上角的设置按钮，在设置界面，您可以随时控制打断功能的开启与关闭，并切换到对讲机模式。数字人通话：单击右上角的设置按钮，在设置界面，您可以随时控制打断功能的开启与关闭，并切换到对讲机模式。视觉理解...

发布日志

V1.17.40@2021-02-07 修复音频通话声音异常的问题。V1.17.38@2021-02-03 当前频道通话实时数据新增客户端到服务端的丢包率和客户端到服务端的延时统计。新增通过指定区域设置屏幕分享源接口。支持多显示器屏幕共享。修复未修改推流音量，但...

场景简介

Qos能力提供全面的弱网对抗能力，为音频通话质量保驾护航。运行环境平台兼容要求推荐设备 Android 支持Android 5及以上版本。建议使用Android中高端机型，运行内存3GB及以上。iOS 支持iOS 10及以上版本的iPhone或iPad。iPhone 7及以上 ...

场景简介

Qos能力提供全面的弱网对抗能力，为音频通话质量保驾护航。运行环境平台兼容要求推荐设备 Android 支持Android 5及以上版本。建议使用Android中高端机型，运行内存3GB及以上。iOS 支持iOS 10及以上版本的iPhone或iPad。iPhone 7及以上 ...

应用场景

视频会议提供稳定流畅的点对点和多人实时音视频通话服务，具有抗丢包、超低延时、高并发能力，可承载高清大方会议。支持动态网络优化、多分辨率视频流、屏幕共享、自研音频调优算法以及主流设备的3A适配，全面赋能移动视频会议和会议室...

场景介绍

Qos能力提供全面的弱网对抗能力，为音频通话质量保驾护航。功能列表功能描述 iOS Android 创建/加入房间选择创建房间默认为房主，选择加入房间时默认为麦下观众 ✓ ✓ 连麦互动房主默认在麦上，支持观众平滑上下麦，房间内所有用户都...

场景介绍

Qos能力提供全面的弱网对抗能力，为音频通话质量保驾护航。功能列表功能描述 iOS Android 创建/加入房间选择创建房间默认为房主，选择加入房间时默认为麦下观众 ✓ ✓ 连麦互动房主默认在麦上，支持观众平滑上下麦，房间内所有用户都...

发布日志

V1.17.40@2021-02-07 修复音频通话声音异常的问题。V1.17.38@2021-02-03 当前频道通话实时数据新增客户端到服务端的丢包率和客户端到服务端的延时统计。新增通过指定区域设置屏幕分享源接口。支持多显示器屏幕共享。修复未修改推流音量，但...

功能发布记录（2.0）

当前频道通话实时数据新增客户端到服务端的丢包率和客户端到服务端的延时统计。删除iOS端部分无用订阅错误码。修复多人频繁离会、入会偶现回声问题。修复频繁切后台引起的卡死、黑屏等问题。修复其它已知问题。V1.17.32@2020-12-02 支持推...

Demo体验

效果预览音视频通话场景 Demo 内置了多种基于 AI 能力的通话场景，包括：音频通话 数字人通话视觉理解通话视频通话消息对话场景在消息对话模式下，您可以：发起消息对话。与智能体进行文字的消息对话。按住说话发送语音。可切换到语音...

服务端Python SDK

通知服务端客户端开始播放tts音频"""def local_responding_started(self):8、local_responding_ended 通知服务端，客户端结束播放tts音频。通知服务端客户端播放tts音频结束"""def local_responding_ended(self):9、stop 结束当前...

数据结构

Class ARTCAICallConfig 通话配置对象 ARTCAICallVideoConfig 视频配置参数 ARTCAICallAudioConfig 音频配置参数 ARTCAICallAgentTemplateConfig（弃用）通话可配置的参数项 ARTCAICallChatSyncConfig 同步消息对话智能体聊天记录配置 ...

概述

检测能力远程双录是将音视频通话能力与双录质检服务相结合，当对话的双方身处异地时，可以音视频通话过程进行实时的通讯，同时进行音频视频的录制，并且结合了实时质检的能力。其主要能力单元分为音视频通话、录制服务与本地智能检测能力...

数据结构

Class ARTCAICallConfig 通话配置对象 ARTCAICallVideoConfig 视频配置参数 ARTCAICallAudioConfig 音频配置参数 ARTCAICallAgentTemplateConfig（弃用）通话可配置的参数项 ARTCAICallChatSyncConfig 同步消息对话智能体聊天记录配置 ...

功能概览

远程双录 SDK 能力远程双录是将音视频通话能力与双录质检服务相结合，当对话的双方身处异地时，不但可以在音视频通话过程中进行实时的通讯，还能同时进行音频视频的录制，并且结合了实时质检的能力。其主要能力单元分为音视频通话、录制...

如何通过唤醒词快速启动通话

音频预采集：在创建通话引擎时，提前开启 RTC 音频采集，并启用入会前的采集缓存，缩短首帧上行时间。唤醒与通话互斥：启动通话时需停止唤醒 SDK（尤其是麦克风采集），通话结束后再重新启动唤醒功能。唤醒后的响应处理：若仅需正常启动...

Harmony端实现语聊房

下图展示了实现音频通话及语聊房的基本流程：用户需要先调用 joinChannel 加入频道，才能进行推流、拉流：普通纯音频通话场景：所有用户都是主播角色，可以进行推流和拉流；语聊房场景：需要在频道内推流的用户设置主播角色；如果用户只...

iOS端实现语聊房

下图展示了实现音频通话及语聊房的基本流程：用户需要先调用 joinChannel 加入频道，才能进行推流、拉流：普通纯音频通话场景：所有用户都是主播角色，可以进行推流和拉流；语聊房场景：需要在频道内推流的用户设置主播角色；如果用户只...

混流转推费用

阿里云直播通话服务会在每天凌晨两点左右统计前一日的账单并结算，具体出账单时间请以系统为准。混流转推时长用量从启动混流转推任务开始计算时长用量，到停止混流转推任务停止计量。说明如果频道内仅启动一个混流转推任务，累计持续的...

交互流程

实时语音识别-通义千问服务通过 WebSocket 协议，接收实时音频流并实时转写。支持 VAD 模式和 Manual 模式交互流程。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 URL 编码时，将 model_name 替换为实际的模型...

Messenger

Messenger是一款由Meta开发的即时通讯应用程序，它允许用户通过互联网进行实时的文字聊天、发送图片、视频、音频消息以及进行视频通话。Messenger在214个国家/地区快速增长，全球有超过十亿用户，是美国、印度、菲律宾、越南、泰国、...

语音录制

功能概述语音录制功能用于录制 AI 实时互动中用户与智能体之间的语音通话，并将录音文件以 WAV 格式存储至您的对象存储（OSS）服务中。本功能支持以下两种录制模式：整通录制：将单次语音通话从开始到结束的完整内容，合流录制为一个 WAV ...

异常诊断

异常总览包含的指标有进频道慢人次、音频卡顿用户数、视频卡顿用户数、视频模糊用户数、通话延迟高用户数和接收首屏慢人次，如下所示：指标描述进频道慢人次用户成功加入频道且耗时超过5秒记为一次进频道慢，若相同用户多次进频道慢进行...

异常诊断

异常总览包含的指标有进频道慢人次、音频卡顿用户数、视频卡顿用户数、视频模糊用户数、通话延迟高用户数和接收首屏慢人次，如下所示：指标描述进频道慢人次用户成功加入频道且耗时超过5秒记为一次进频道慢，若相同用户多次进频道慢进行...

什么是音视频通信

阿里云RTC拥有全球实时智能调度系统，并结合实时媒体处理系统和1500+边缘节点服务，运用行业优秀的音频3A（AGC、AEC、ANS）、视频编码、弱网对抗等算法，为您提供低延时、抗丢包的音视频实时通信。产品定价阿里云RTC为您提供按量计费，...

RTC纯通道接入方案

您也可以根据需求对音频做AI服务编排，经过ASR、TTS和LLM处理后，最终将编码前的音频数据发送至Linux SDK。Linux SDK完成编码后，将其发送回ARTC SDK，供应用程序播放或渲染。数字人场景在数字人场景下，阿里云推荐的架构如下：在上述架构...

快速开始

本文介绍的是将音视频通话服务接入微信小程序的操作步骤。WX-SDK 主要提供微信小程序端和其他移动端以及 Web 端进行音视频通话的能力。集成步骤重要建议尽快将 SDK 升级至最新版本 1.1.1。websocket 连接的域名地址需要在微信控制台增加...

口语陪练

方案基础功能个性通话和场景切换阿里云开放了丰富的接口能力，允许您为每一个用户提供一场量身定制的通话服务，将会使得通话的体验大幅提升，我们也建议您这么做。您可以通过设置传入启动通话参数实现这一目标。AI实时互动允许在用户不...

调用官方Agent

服务正确识别到意图后，会下发提示语音和开始发送视频信息的指令，然后进入视频通话模式。客户端收到指令后应当等对话状态切换到Listening之后开始上传摄像头截图数据。{"extra_info":{"commands":"[{\"name\":\"send_video_stream\",\...

通过控制台使用语音通知/语音验证码

语音文件：若需要播放固定内容的音频文件（WAV或MP3格式），在左侧导航栏点击语音文件管理，根据业务需要选择语音通知文件、通话中放音文件或智能语音交互放音文件页签，单击导入语音文件。语音文件审核通过后即可使用。重要在创建...

管理通话应用

配置云端自动录制及录制回调地址云端自动录制指音视频通话服务端对通话内容自动进行录制的功能。您可以根据需要启用或关闭此功能，并设置录制回调地址。云端自动录制：开启该功能时，在音视频通话发起时服务端会自动对通话内容进行录制。...