语音直播系统开发-语音直播系统开发文档介绍内容-移动阿里云

集成iOS端美颜特效SDK

美颜特效SDK 是由阿里视频云团队提供的美颜特效功能，支持画面美化、人像美颜、抠像制作、贴纸美妆、动作识别、美体、美发、AR隔空写字等各种个性化定制服务，适用于视频直播、视频会议、短视频制作等场景。本文为您介绍iOS端美颜特效SDK ...

集成概览

通过编程的方式在业务系统中集成语音服务的能力，做到根据业务的实际需要自动化发起语音呼叫，简化运营、管理成本。本文为您介绍语音服务开放的OpenAPI及支持的集成方式。OpenAPI介绍为了能够让开发者快速高效的学习和使用云产品OpenAPI，...

消息对话快速入门

系统预置模板：选择预置模板时，您需要配置语音音色，各类型智能语音效果示例请参见智能语音效果示例。自研模板：您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见 TTS标准接口。三方插件：当前仅支持选择 MiniMax语音...

集成Android端美颜特效SDK

美颜特效SDK 是由阿里视频云团队提供的美颜特效功能，支持画面美化、人像美颜、抠像制作、贴纸美妆、动作识别、美体、美发、AR隔空写字等各种个性化定制服务，适用于视频直播、视频会议、短视频制作等场景。本文为您介绍Android端美颜特效...

音视频通话快速入门

系统预置模板：选择预置模板时，您需要配置语音音色，各类型智能语音效果示例请参见智能语音效果示例。自研模板：您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见 TTS标准接口。三方插件：当前仅支持选择 MiniMax语音...

什么是AUI Kits

应用场景互动直播互动直播场景包含直播、录制回放、互动消息、音视频连麦等丰富功能，适用于常见的直播业务。该套件包含“竖屏样式”和“横屏样式”两套AUI组件。详情参见互动直播场景简介。竖屏模式横屏样式互动课堂公开课：教师...

电话呼出&呼入快速入门

系统预置模板：选择预置模板时，您需要配置语音音色，各类型智能语音效果示例请参见智能语音效果示例。自研模板：您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见 TTS标准接口。三方插件：当前仅支持选择 MiniMax语音...

API和控制台的差异

例如：如果公司要做一场多地联合的会议直播，您可以选择控制台导播功能，不需要任何开发就可以轻松使用导播服务。如果要搭建一个SAAS平台提供给其他客户或用户使用，您可以选择更加灵活的云导播API来搭建。导播控制台和API的主要差异如下：...

实时字幕（公测）

视频直播提供实时字幕功能，可以通过实时语音识别将直播流的语音转换成字幕，且支持翻译。当前视频直播实时字幕支持中文、英文、西班牙文和俄文的互译。通过阅读本文，您可以快速了解实时字幕的使用流程、触发方式等功能。注意事项具体...

云导播概览

实时字幕结合语音识别技术，绑定直播视频源，实时输出双语字幕。云端自动录制输出直播流同时自动完成录制多种格式视频文件。多清晰度可选从流畅到高清，提供多种视频清晰度，满足多终端大小屏需求。播单型导播台用于快速聚合多个视频...

高频率智能审核解决方案

操作步骤说明前提条件：开通直播服务并完成默认的OSS授权，详细操作请参见开通与购买视频直播，开通成功后，系统会将问题图片保存到您的OSS中。准备一个HTTP Server作为接收回调的服务。登录视频直播控制台。在左侧导航栏选择功能管理...

从这里开始

智能语音交互产品基于语音识别、语音合成、自然语言理解等技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。本文为您介绍如何使用智能语音交互，帮助您快速了解其使用...

产品更新动态

语音算法服务拆分为语音合成与语音识别描述：将大模型场景与小模型场景中【语音&VUI】的语音算法能力拆分成语音合成和语音识别服务配置，方便客户对ASR和TTS的自定义选择。大模型场景支持第三方语音ASR识别服务描述：大模型场景支持第三...

HarmonyOS Next SDK

类别兼容范围系统支持 HarmonyOS Next 5.0 版本，API LEVEL 12,DevEco Studio版本号 5.0.3.403 架构 arm64-v8a 此SDK还包含如下功能：功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成...

实时音视频简介

传统直播以单向内容传播为主，观众参与度和商业转化率较低。阿里云实时音视频（ApsaraVideo Real-time Communication）通过语音聊天、视频连麦、游戏互动等功能，让观众从观看者变为参与者，增强用户连接。本文将为您介绍实时音视频的产品...

不含UI集成方案

通过集成AICallKit SDK，绝大部分与智能体相关的功能无需开发者单独实现，从而显著减少开发时间，提高应用程序的质量，并为用户提供更为丰富和流畅的语音交互体验。各个端的集成，请参见以下内容：Android使用指南 iOS使用指南 Web使用指南...

语音审核增强版对接阿里云互动直播RTC

本文介绍如何使用语音审核增强版对接阿里云互动直播RTC产品，并识别语音是否存在违规或者影响平台秩序的内容。对接互动直播RTC 前提条件已开通内容安全语音审核增强版服务。具体操作，请参见开通语音审核增强版服务。已开通互动直播服务...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音合成，并通过文本调用多模态交互开发套件的交互能力实现完整交互链路。百炼多模态交互开发套件集成了大模型语音识别和语音合成，并提供 VAD、AEC 等音频算法提升交互效果。如果我们提供...

回调设置

视频直播提供直播推流状态、直播录制、直播截图和智能审核的事件回调，本文介绍如何通过控制台配置对应的回调事件。前提条件视频直播服务目前支持HTTP回调（兼容HTTPS）方式获取事件通知。您需要部署一个HTTP服务来接收回调消息，并在控制...

场景简介

AUI Kits 低代码应用方案提供互动直播场景的音视频应用UI组件，您可以根据业务需求复用AUI Kits低代码应用方案中的功能模块，快速搭建互动直播场景，有效降低研发成本和周期，提升业务效果。场景概述互动直播场景包含直播、录制回放、互动...

开发参考

本文为您介绍了三种不同的超低延时直播RTS推/播流方式、您可通过阅读本文选择最适合您的推/播流方式。推流与播放超低延时直播RTS（Real-time Streaming）是一种减少推流端到播放端延迟的技术，我们为您提供了三种不同的推/播流方式，包括...

混流转推费用

阿里云直播通话服务会在每天凌晨两点左右统计前一日的账单并结算，具体出账单时间请以系统为准。混流转推时长用量从启动混流转推任务开始计算时长用量，到停止混流转推任务停止计量。说明如果频道内仅启动一个混流转推任务，累计持续的...

通过SDK获取Token

SDK内封装了获取和刷新Token的过程，使用户无需手动处理复杂的认证逻辑和Token有效期管理，简化了开发流程，提升了开发效率，更加安全有效。本文介绍如何通过SDK方式获取Token。背景信息通过SDK获取Token方式说明通过智能语音交互SDK...

关于域名下线（OFFLINE）规则调整的公告

当您主动下线直播域名，或因为业务违规封禁、欠费、掉备案而被系统执行下线直播域名时，您可以通过本文详细了解域名下线后的解析规则和业务恢复方法。违规封禁问题现象：您的账号由于违反阿里云使用限制而被封禁，从而立即暂停服务，...

新功能发布记录

本文介绍低代码开发平台魔笔每次发布涉及的功能变更，帮助您了解魔笔的发布动态。2025 年 2025 年 12 月功能名称功能概述发布时间相关文档组件库上新新增 Spark Design 组件库，涵盖 40+基础组件和 AI 对话类组件 2025-12-04 系统...

接口说明

长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。说明语音合成产品详情页仅提供大部分音色试听，若详情页没有您想要的音色试听，请通过接口文档进行调用试听。接口文档请参见 Java SDK、C++ SDK。计费...

分账明细

live 视频直播域名视频直播的费用分摊到各个域名。vod 视频点播域名视频点播的费用分摊到各个域名。dysms_system 系统短信短信模版｜短信签名系统短信的费用分摊到短信签名和签名模板。dysms_operation 推广短信短信模版｜短信签名 ...

实时音视频简介

传统直播以单向内容传播为主，观众参与度和商业转化率较低。阿里云实时音视频（ApsaraVideo Real-time Communication）通过语音聊天、视频连麦、游戏互动等功能，让观众从观看者变为参与者，增强用户连接。本文将为您介绍实时音视频的产品...

概述

阿里云ARTC Web SDK是一个实时音视频通话的JavaScript库，它基于阿里云GRTN网络，具有超低延时、海量并发、全平台支持等特点，助力实现一对一音视频通话、多人线上会议、大方会直播等业务场景。接口说明阿里云ARTC Web SDK接口使用详情，...

质量指标监控

系统：全部系统、Android系统、iOS系统。时间范围：支持查询近1小时至近3日内的自定义时段数据，默认展示近1小时的数据。全局概览提供了实时音视频应用的主要质量数据，各项指标的说明如下：指标定义 5秒加入频道成功率 5秒内成功加入频道...

DataWorks官方镜像

DataWorks官方镜像为数据开发中的不同节点提供常用的运行环境，以满足不同任务的执行环境需求，您可在数据开发中直接使用官方镜像，也可以基于官方镜像创建自定义镜像后使用，本文将介绍官方镜像。镜像介绍进行数据开发时，若未给节点配置...

C++ SDK

本文介绍如何使用阿里云智能语音服务提供的C++ SDK，包括SDK的安装方法及SDK代码示例。SDK下载说明当前最新版本：3.2.1b，支持Linux平台。发布日期：2024年12月25日。使用SDK前，请先阅读接口说明，详情请参见接口说明。该版本C++ SDK ...

C++ SDK

本文介绍如何使用阿里云智能语音交互提供的C++ SDK，包括SDK的安装方法、SDK代码示例以及常见问题等。SDK下载说明当前最新版本：3.2.1b，支持Linux平台。发布日期：2024年12月25日。使用SDK前，请先阅读接口说明，详情请参见接口说明。...

分账明细升级公告

本次不涉及变更，已经支持 dysms_system 系统短信短信签名|短信模板系统短信的费用分摊到短信签名和签名模板。本次不涉及变更，已经支持 dysms_operation 推广短信短信签名|短信模板推广短信的费用分摊到短信签名和签名模板。本次不...

直播连麦快速入门

直播连麦是实时音视频的经典场景，本文为您演示基于阿里云实时音视频ARTC SDK+旁路转推直播搭建一个直播连麦场景的需要开通和配置的服务。开通服务点击进入视频直播控制台，完成登录，进入开通页面。单击开通服务，进入视频直播购买页...

接口说明

语音合成为您提供将输入文本合成为语音二进制数据的功能。本文档介绍了当前目录下各SDK文档的通用信息。返回语音合成产品详情页计费和并发限制语音合成提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版...

通过配置项目实现语音播报

千里传音语音播报服务通过项目管理播报设备和播报的语音文件，本文面向智能播报设备开发者，介绍如何快速将播报设备接入千里传音语音播报服务，获取来自服务的播报命令实现语音播报。前提条件已开通千里传音语音播报服务。具体操作，请...

接口说明

一句话识别功能支持对一分钟内的短语音进行识别，适用于对话聊天、控制口令、语音输入法、语音搜索等较短的语音识别场景。计费和并发限制一句话识别提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版升级为...

通用型导播台指南

实时字幕是通过对直播流中的音频进行实时的语音识别，把识别后的文字以字幕的方式同步显示在直播流上。识别的字幕可进行实时翻译，支持显示直播流音频源的源语言字幕、翻译后的目标语言字幕，或者双语字幕。翻译语言支持中、英、西、俄语互...

接口说明

流式文本语音合成功能可以将您输入的文本合成为语音二进制数据，相比于非流式语音合成，流式合成的优势在于实时性更强，用户在输入文本的同时就可以听到接近同步的语音输出，极大地提升了交互体验，减少了用户等待时间。适用于大规模语言...