音频通话服务-音频通话服务文档介绍内容-移动阿里云

实时多模态交互流程

在 VAD 模式下，服务端对传入的音频进行语音活动检测，并在检测到作出响应。此模式适用于客户端到服务器始终发送音频的情况，也是当前的默认模式。服务端在检测到语音开始时发送 input_audio_buffer.speech_started 事件。客户端随时可以...

Messenger产品概述

Messenger是一款由Meta开发的即时通讯应用程序，它允许用户通过互联网进行实时的文字聊天、发送图片、视频、音频消息以及进行视频通话。Messenger在214个国家/地区快速增长，全球有超过十亿用户，是美国、印度、菲律宾、越南、泰国、...

智能联络机器人快速入门

高度自定义：支持用户以话术节点维度分别上传人工录音，当通话流程走到该节点时播放该音频文件从而实现通话更具真实感。准备工作您已经完成注册阿里云账号，并完成企业实名认证。具体操作，请参见阿里云账号注册流程和实名认证。您已...

API概览

语音通话任务 API 标题 API概述 CreateCallTask 创建语音通话任务使用服务实例给多个被叫号码创建文本转语音任务、语音通知任务和语音验证码任务。ListCallTask 获取通话任务状态列表创建语音通话任务后，可以查看通话任务状态，包括：...

使用第三方 RTC 链路接入视频通话（LiveAI）

调用流程在典型的方案中，我们推荐您的客户端（网页或者APP）通过RTC与您的服务端建立连接，传输视频和音频。然后您将服务端采集到的视频帧以 500ms/张的速度发送给多模交互SDK，同时保持实时的音频输入。注意：LiveAI发送图片只支持base...

2022年10月18日产品更新动态

语音信箱权限放开，现在允许配置是否允许坐席查看静音状态icon展示优化：现在可以更明确的展示静音状态丰富了IVR内置的音频，并且新增一个通话保持的默认音频，时长10分钟，音频播放完成后会自动回复通话坐席报表增加每日首次登入与最后...

数据结构

通过阅读本文，您可以...Agent 所在区域 ARTCAICallAudioConfig 通话音频配置属性名类型描述 audioProfile ARTCAICallAudioProfile 音频编码配置，默认是 HighQualityMode audioScenario ARTCAICallAudioScenario 音频场景配置，默认是 ...

LlmSmartCallReport-呼叫记录消息

originate_time String 呼叫发起时间，即通话由语音服务向运营商发起时间。ring_time String 被叫响铃时间，即发起外呼后被叫收到请求开始响铃的时间，若被叫未响铃，则该字段为空。smart_status_code String 智能通话结果状态码，状态码...

数据结构

通过阅读本文，您可以...Agent 所在区域 ARTCAICallAudioConfig 通话音频配置属性名类型描述 audioProfile ARTCAICallAudioProfile 音频编码配置，默认是 HighQualityMode audioScenario ARTCAICallAudioScenario 音频场景配置，默认是 ...

数据大屏（概览）

AI完成服务占比：数字员工完结量/呼入通话量 AI服务时长：（数字员工完结或转人工时间-数字员工进线时间）的总和 AI服务天数：AI服务时长/8h 坐席状态统计统计当前在线坐席的工作模式、坐席状态、上线的技能组、状态持续时长、通话时长、...

实时多模态交互协议（WebSocket）

下发音频服务端将大模型回复发送至TTS生成语音然后下发给客户端：下发音频为16bit单声道，采样率和编码由 Start 消息参数定义。下发速度取决于TTS服务性能，通常快于播放速度。音频下发前发送 RespondingStarted 事件；结束后发送 ...

实时多模态

输入音频与图片客户端通过 input_audio_buffer.append 和 input_image_buffer.append 事件发送 Base64 编码的音频和图片数据到服务端缓冲区。音频输入是必需的；图片输入是可选的。图片可以来自本地文件，或从视频流中实时采集。启用服务...

快速接入视频通话能力

服务端返回视频通话 Agent 欢迎语，即成功进入视频通话。退出视频通话 Agent：发送退出指令或者语音说“退出视频通话”。请求参数说明通过 requestToRespond 方法请求提交参数如下。一级参数二级参数三级参数是否必选说明 parameters ...

功能特性

阿里云RTC为您提供了纯音频通信、视频通话、互动连麦等主要功能，同时具有多分辨率视频、终端适配等关键特性，您可以根据业务需求选择合适的使用场景。主要功能阿里云RTC的主要功能如下所示：功能典型适用场景纯音频通信 1v1和多人语音...

VoiceReport

originate_time String 呼叫发起时间，即通话由语音服务向运营商发起时间。ring_time String 被叫响铃时间，即发起外呼后被叫收到请求开始响铃的时间，若被叫未响铃，则该字段为空。b_ring_time String b路被叫响铃时间。若被叫未响铃，则...

VoiceReport

originate_time String 呼叫发起时间，即通话由语音服务向运营商发起时间。ring_time String 被叫响铃时间，即发起外呼后被叫收到请求开始响铃的时间，若被叫未响铃，则该字段为空。b_ring_time String b路被叫响铃时间。若被叫未响铃，则...

VoiceReport

originate_time String 呼叫发起时间，即通话由语音服务向运营商发起时间。ring_time String 被叫响铃时间，即发起外呼后被叫收到请求开始响铃的时间，若被叫未响铃，则该字段为空。b_ring_time String b路被叫响铃时间。若被叫未响铃，则...

AI实时互动概览

视觉理解通话融合视频与音频的新型交互方式，它能够实时解析摄像头捕捉的画面，结合用户语音指令，通过多模态交互提供精准反馈，让用户在通话过程中获得更加直观、高效且个性化的智能交互体验，打破传统语音或文字交流的局限。视频通话 ...

CreateTask-通过上传离线任务数据进行通义晓蜜CCAI-...

或是通过 serviceChannelKeywords 设置客服通话中的关键字，后台服务通过客服通话中的关键字来识别角色。回调参数说明假设调用方传入的回调地址是：http://aliyun.com/callback，那么回调时的完整 URL 为 ...

AlicomAgentCallReport-呼叫记录消息

您可以通过轻量消息队列（原MNS）模式订阅通信智能体呼叫记录消息（AlicomAgentCallReport），在通话结束后，可以获取到本次通话的主被叫号码、通话开始时间、通话结束时间、通话持续时间、语音实时ASR时长等信息。返回参数参数名称参数...

数据归档

同时，企业也可以将用户与AI智能体通话的音视频数据存储至对象存储服务（OSS）或视频点播（VOD）平台。功能实现阿里云为您提供以下几种数据归档方式：文本内容的聊天记录、音频逐句回调以及ARTC录制的通话内容：文本聊天记录您可以通过...

GetEarlyMediaRecording-获取通话早媒体音频

获取指定实例下的通话早媒体音频。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息当前API暂无授权信息透出。请求参数名称类型必填描述 ...

数字水印计费概述

基础版 300,000 增强版 500,000 视频水印嵌入服务基础版 500,000 增强版 800,000 音频水印嵌入服务基础版 300,000 增强版 500,000 按量付费计费周期为按天计费，总费用由调用费用和实例费用两部分组成，可通过调用OpenAPI集成。...

云端录制计费

示例一：三人同时加入频道进行音视频通话，通话时长2100秒，需要录制三人通话的音频。用量计算：需要启动1路云端录制进程，录制三路音频。录制的是音频，因此录制规格（TaskProfile）为Mixed_Audio（纯音频）。录制时长为2100秒，即35分钟...

VoiceReport

originate_time String 呼叫发起时间，即通话由语音服务向运营商发起时间。ring_time String 被叫响铃时间，即发起外呼后被叫收到请求开始响铃的时间，若被叫未响铃，则该字段为空。a_originate_time String a路电话呼叫发起时间。a_ring_...

移动端Android SDK

管控台上配置自定义对话变量的方法参考应用配置-对话变量客户端使用的三种模式对比：对比项 push2talk tap2talk duplex 类型客户端控制模式点击模式双工模式音频上传方式按需持续持续 VAD检测方客户端服务端服务端打断方式 ...

WebSocket协议说明

重要由于流式文本语音合成服务端会分句合成音频，因此服务端存在未满足分句条件的缓存文本，需要在文本流发送结束后立刻发送此指令，否则有可能丢失文本。Payload为空。示例代码如下：{"header":{"message_id":"05450bf69c53413f8d88aed1...

混流转码计费

示例一：10人加入频道通话，其中3位主播在麦上推纯音频流，7位观众在麦下拉流，频道通话时长2100秒，混流3位主播通话的音频。用量计算：需要启动1路混流转码任务，将3路音频进行混流转码。混流转码的是音频，因此混流转码规格为Mixed_Audio...

产品简介

音视频通话组件（Mobile Real-Time Communication，简称 MRTC）是 mPaaS 提供的音频、视频通话组件。该组件功能丰富，提供纯语音通话和视频通话功能，支持 PC、移动端、IoT 设备等多终端接入。音视频通话可实现一对一通话及多人会议，通话...

功能发布记录

服务端 2025-06-30 2025年5月功能分类功能名称功能描述支持端发布时间相关文档服务端智能体回调支持智能体音频逐句回调。服务端 2025-05-16 智能体回调打断优化智能体单字打断优化。服务端 2025-05-16 语音识别热词支持智能体...

LlmSmartCall-呼叫记录消息

originate_time String 呼叫发起时间，即通话由语音服务向运营商发起时间。ring_time String 被叫响铃时间，即发起外呼后被叫收到请求开始响铃的时间，若被叫未响铃，则该字段为空。smart_status_code String 智能通话结果状态码，状态码...

客户端事件

input_audio_buffer.append 向输入音频缓冲区追加音频字节。服务端使用此缓冲区检测并决定语音提交时机。type string(必选)事件类型，固定为 input_audio_buffer.append。{"event_id":"event_xxx","type":"input_audio_buffer.append",...

数据类型

通过阅读本文，您可以了解iOS SDK和Mac SDK涉及的数据类型。目录数据类型描述支持的最低版本 DingRtmAgentSpeakerType ...DingRtcDeviceVolumeTypeVOIP 设置为通话音量，适合通话场景，音量无法调节到零。DingRtcVideoSource：视频裸数据...

VoiceReport

originate_time String 呼叫发起时间，即通话由语音服务向运营商发起时间。ring_time String 被叫响铃时间，即发起外呼后被叫收到请求开始响铃的时间，若被叫未响铃，则该字段为空。b_ring_time String b路被叫响铃时间。若被叫未响铃，则...

功能概览

同时，用户还可以管理在IVR流程中用到的现有音频。批量外呼通过AI预测，全自动控制外呼节奏，在满足呼损要求的前提下，最大限度地提升坐席通话效率。使用前需要提交工单联系运营人员进行预先配置。设置对坐席工作台、事件推送、短信...

AlicomAgentCallReport-呼叫记录消息

originateTime String 2025-06-01 09:59:45 主叫方呼叫发起时间，即通话由语音服务向运营商发起的时间，格式为yyyy-MM-dd HH:mm:ss。ringTime String 2025-06-01 09:59:50 主叫方接收的被叫响铃时间，即发起后被叫收到请求开始响铃的时间，...

用量统计

使用步骤登录 mPaaS 控制台，在左侧导航栏中选择多媒体服务音视频通话用量统计，默认进入通话时长页面。选择通话时长、在线时长、房间数或用户数标签，然后进入相应标签页按通话应用和时间来查询相关数据。通话应用：单击通话...

WebSocket API

heartbeat boolean 否当需要与服务端保持长连接时，可通过该开关进行控制：true：在持续发送静音音频的情况下，可保持与服务端的连接不中断。false（默认）：即使持续发送静音音频，连接也将在60秒后因超时而断开。静音音频指的是在音频...

服务端事件

conversation.item.input_audio_transcription.failed 启用输入音频转录后，若用户音频转录失败，服务端会返回此事件。此事件独立于 error 事件，便于客户端识别。event_id string 本次事件唯一标识符。{"type":"conversation.item.input_...

AI实时互动FAQ

大模型部署在阿里云百炼平台上，怎么跟AI智能体进行联动集成相关启动通话时报错开始消息对话时客户端报错“AgentNotFound”开始消息对话时，客户端报错“UnsupportedWorkflowType”如何调整客户端音频采集采样率如何调整智能体播报采样...