音频通话服务-音频通话服务文档介绍内容-移动阿里云

Android端实现语聊房

下图展示了实现音频通话及语聊房的基本流程：用户需要先调用 joinChannel 加入频道，才能进行推流、拉流：普通纯音频通话场景：所有用户都是主播角色，可以进行推流和拉流；语聊房场景：需要在频道内推流的用户设置主播角色；如果用户只...

音视频通话

callContext.mediaType 类型：AUDIO 或者为空，音频通话。VIDEO，视频通话。视频通话期间，不能进行监听、转接、会议等操作。产品示例与Demo 客户端示例坐席端示例配置注意项在端侧对接接口时，SIP中增加video标识。单独创建一个技能...

用量统计

纯音频通话时长所有用户的纯音频通话时长，单位：分钟。说明曲线图中纵轴为通话时长（单位：分钟），横轴为时间。通话时长默认使用曲线图展示，您可根据实际情况单击右上角，切换成饼图或列表形式显示。饼图或列表中可以查看视频通话和纯...

用量统计

纯音频通话时长所有用户的纯音频通话时长，单位：分钟。说明曲线图中纵轴为通话时长（单位：分钟），横轴为时间。通话时长默认使用曲线图展示，您可根据实际情况单击右上角，切换成饼图或列表形式显示。饼图或列表中可以查看视频通话和纯...

Android 进阶功能

设置音视频通话或纯音频通话 设置纯音频通话，在初始化 engine 时，按如下方法配置 publishConfig：publishConfig=new PublishConfig();纯音频通话 publishConfig.videoSource=VIDEO_SOURCE_NULL;publishConfig.audioSource=AUDIO_SOURCE_...

回调函数

音频通话场景不存在摄像头开启操作，在 publish 时会触发一次回调。回调示例：typedef NS_ENUM(int,ARTVCFeedType){ ARTVCFeedTypeRemoteFeed=0,/use builtin camera and microphone ARTVCFeedTypeLocalFeedDefault=1,...

纯音频模式

如果您的业务场景为纯音频通话，如语聊房等，您可以在加入频道前开启音频模式。使用说明加入频道后，开启纯音频模式将会报错。另外，开启后将无法调用视频相关的接口，如开关摄像头接口enableLocalVideo等。实现方式/前提：需要先创建引擎...

纯音频模式

如果您的业务场景为纯音频通话，如语聊房等，您可以在加入频道前开启音频模式。使用说明加入频道后，开启纯音频模式将会报错。另外，开启后将无法调用视频相关的接口，如开关摄像头接口enableLocalVideo等。实现方式/前提：需要先创建引擎...

使用 iOS SDK

设置音视频通话/纯音频通话 音视频通话 ARTVCPublishConfig*config=[[ARTVCPublishConfig alloc]init];config.videoEnable=YES;默认是 YES config.audioEnable=YES;默认是 YES config.videoProfile=_artvcEgnine.videoProfileType;...

概述

实时音视频通话插件通过集成阿里云 mPaaS 音视频通话服务，可以在支付宝小程序之间，以及支付宝小程序与其他应用之间实现一对一和多对多的实时音视频通话功能。案例介绍实时音视频通话插件可以用于互联网医疗问诊、互联网审案、公益诉讼和...

概述

实时音视频通话 WX-SDK 通过集成阿里云 mPaaS 音视频通话服务，可以在微信小程序之间，以及微信小程序与其他移动端或者 Web 端之间实现一对一和多对多的实时音视频通话功能。主要功能 WX-SDK 主要提供微信小程序端和其他移动端以及 Web 端...

组件功能

RoomType/房间类型（1:音视频通话,2:音频通话），默认为 1 params?Record string,unknown|null } join 接口描述：加入视频通话。入参如下表所示。参数名称参数类型是否必填默认值说明 roomId String 是无无参数名称参数类型是否...

DescribeUsageOsSdkVersionDistributionStatData

AudioCallDuration Long 0 音频通话时长，单位：分钟。VideoCallDuration Long 1720 视频通话时长，单位：分钟。TotalCallDuration Long 1720 总通话时长，单位：分钟。CallDurationRatio String 0.0768 通话时长占比，用四位小数表示，...

计费变更

自2021年10月22日起音视频通话服务将按照新版的定价计费，新旧价格详情如下所示：规格旧版定价（单位：元/分钟）新版定价（单位：元/分钟）语音 0.008 0.006 360P及以下 0.016 0.012（规格：480P及以下）720P及以下 0.032 0.024 1080P及...

DescribeUsageDistributionStatData

AudioCallDuration Long 408 音频通话时长，单位：分钟。VideoCallDuration Long 45556 视频通话时长，单位：分钟。TotalCallDuration Long 45964 总通话时长，单位：分钟。CallDurationRatio String 0.9782 通话时长占比，用四位小数表示...

快速开始

{"plugins":{"thePlugin":{"version":"*",/目前只支持设置*拉取当前上架的最新版本"provider":"2021002126663572"} } } 操作步骤开通音视频通话服务 音视频通话通过阿里云 mPaaS 提供服务，请使用阿里云账号登录 mPaaS 控制台开通音视频...

什么是智能双录质检

集成蚂蚁实时音视频通话能力智能双录质检中的实时音视频通话能力源自蚂蚁集团 mPaaS 团队研发的音视频通话服务，该服务基于支付宝产品，并经多年技术沉淀而来。该服务具有高安全性、弱网环境下视频质量自适应、以及高可靠、低时延的优势。...

音视频通话简介

应用场景双人音视频通话支持720P、1080P的高清画质及48 kHz高音质，提供高质量视频通话服务。双人音视频通话延时低于400ms，弱网环境下，仍然能够保证高质量的音视频通信。音视频通话场景解决方案提供双人音视频通话的UI组件，可直接复用...

音视频通话简介

应用场景双人音视频通话支持720P、1080P的高清画质及48 kHz高音质，提供高质量视频通话服务。双人音视频通话延时低于400ms，弱网环境下，仍然能够保证高质量的音视频通信。音视频通话场景解决方案提供双人音视频通话的UI组件，可直接复用...

什么是号码隐私保护

号码隐私保护（Phone Number Protection）是一款基于基础运营商通信网络能力的互联网产品，企业客户可以通过集成号码隐私保护能力，为其平台用户提供隐私通话服务，同时可以通过录音来对其服务质量进行分析，提升产品安全性及平台价值。...

集成插件

RoomType/房间类型(1:音视频通话,2:音频通话），默认为 1 params?Record string,unknown|null } Answer（通过组件调用）引入组件 {"usingComponents":{"answer":"plugin:/rtc/answer"} } 使用组件 answer screenname="{{screenname}}"/覆盖...

语音服务使用FAQ

如果您希望关闭语音服务，可以删除创建的语音模板并注销语音号码，语音号码注销后不发起通话将不会产生语音服务费，但会产生当月语音号码月租费。语音服务配置放音或者转接功能计入平台通话时长吗？配置放音是客户呼入平台自动放音，普通...

产品定价

实时语音质检的时长计算方式为客服通话时长与顾客通话时长之和案例：对于一通15分钟的服务通话，过程中客服通话并检测15分钟，顾客通话并检测15分钟，总共质检30分钟，费用为0.5（小时）*3.5=1.75元。文本质检的字符数计算方式为中文...

实时语音合成-通义千问

实时语音合成-通义千问提供低延迟、流式文本输入与流式音频输出能力，提供多种拟人音色，支持多语种/方言合成，可在同一音色下输出多语种，并能自适应调节语气，流畅处理复杂文本。核心功能实时生成高保真语音，支持中英等多语种自然发声 ...

什么是音视频终端SDK

在基础直播场景上，提供稳定流畅的点对点和多人实时音视频通话服务，支持多人音视频或纯音频互动。适用于端到端的短视频创作，搭配强大的视频播放功能提供流畅高清的播放体验，满足主流音视频场景的玩法。适用于各类直播场景，如生活直播、...

Windows

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

Android

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

iOS和Mac

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

AI实时互动

（不满一分钟按照一分钟计算）计费示例用户A在中国内地地域与AI智能体进行了10次纯音频通话，每次通话时长为2分钟。则各个模块的费用如下：AI智能体服务费：计费时长为20分钟=10次*2分钟，费用为1.96 元=20分钟*0.098元/分钟 ARTC：由于是...

已知问题及解决方案

音频问题通话过程中，无法切换扬声器和听筒 HarmonyOS NEXT系统暂时没有提供用户可以手动切换扬声器和听筒的 API 接口。待后续功能支持后优化。反复进出通话过程，可能出现无法播放器声音的情况由于HarmonyOS NEXT系统问题，偶尔出现音频...

已知问题及解决方案

音频问题通话过程中，无法切换扬声器和听筒 HarmonyOS NEXT系统暂时没有提供用户可以手动切换扬声器和听筒的 API 接口。待后续功能支持后优化。反复进出通话过程，可能出现无法播放器声音的情况由于HarmonyOS NEXT系统问题，偶尔出现音频...

通话前进行设备检测

功能介绍 ARTC SDK提供了通话前设备检测功能，旨在对本地关键音频与视频设备进行全面检测，包括麦克风、扬声器和摄像头。在正式开启通话之前，用户能够提前识别潜在的设备异常状况，从而避免在实际通话过程中因设备突发故障而陷入难以迅速...

真实号管理

服务实例是在语音服务中创建的一套具体的功能配置集合。在目标号码的操作列，单击绑定实例。在弹出的对话框中，从下拉列表中选择需要绑定的服务实例。单击确定完成绑定。注销号码警告永久释放号码所有权，此操作不可逆。注销后，...

语音识别FAQ

如果发现服务端的判断音频时长比实际音频时长短，说明静音时服务端没有收到用户发的静音数据。在开启语义断句情况下，有可能是后处理模型的效果问题。解决方案：在用户停顿时持续地向服务端发送静音数据。语音识别能自动断开多句话吗？实时...

快速部署WebUI服务

本文为您介绍如何在PAI-EAS平台部署CosyVoice2.0服务，并通过推理服务生成音频。背景信息 CosyVoice2.0旨在打造自然亲切、富有情感的AI声音。基于大规模语音语料训练与精细的韵律建模，CosyVoice2.0实现了媲美真人主播的声音表现力。无论是...

Demo体验

AI音频通话：单击右上角的设置按钮，在设置界面，通过单击智能打断按钮可以开启/关闭智能打断功能，您也可以在该界面选择合适的音色。数字人通话：单击右上角的设置按钮，在设置界面，通过单击智能打断按钮可以开启/关闭智能打断...

WebSocket API

客户端接收服务端持续返回的音频流和 result-generated 事件客户端收到服务端返回的 task-finished 事件，标志着任务结束。关闭连接：客户端关闭WebSocket连接。WebSocket客户端编程与消息处理一、建立WebSocket连接调用WebSocket库函数...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音...即将多模态对话输出的多个文本片段流式发送给语音合成服务，语音合成服务流式返回合成音频。这种调用方式可以显著的提升系统的交互速度。参考接口：百炼CosyVoice 语音合成 Java SDK。

实时音视频翻译-通义千问

qwen3-livetranslate-flash-realtime 是视觉增强型实时翻译模型，支持 18 种语言（中、英、俄、法等）互译，可同时处理音频与图像输入，适用于实时视频流或本地视频文件，利用视觉上下文信息提升翻译准确性，并实时输出高质量的翻译文本与...

工业生产指令转写交互协议（WebSocket）

接收服务端返回的事件在指令或音频发送后，服务端会向您发送不同种类的事件，每个事件代表不同的处理阶段，请严格遵循时序图对不同事件做相应处理。事件总共分为四种，分别是speech-listen事件、recognize-result事件、ai-result事件及...