人工智能音视频行业-人工智能音视频行业文档介绍内容-移动阿里云

EchoMind概述

结构化媒资通义听悟依托通义千问语言模型及音视频人工智能模型的强大能力，可进行实时语音识别，实现对话的实时记录、多语言翻译、发言总结、内容规整等。构建完美的结构化媒体资料库，旨在为用户提供高效、准确的音视频转写与分析服务。...

结构化媒资

AIGC依托通义千问语言模型及音视频人工智能模型的强大能力，可进行实时语音识别，实现对话的实时记录、多语言翻译、发言总结、内容规整等。构建完美的结构化媒体资料库，旨在为用户提供高效、准确的音视频转写与分析服务。功能特性音频转...

音视频通话快速入门

本文将为您介绍如何快速创建音视频智能体。服务开通为了使用阿里云AI实时互动服务，您需要满足以下条件：请先确保已开通 AI 实时互动功能。若尚未开通，请前往开通服务，已开通用户可直接使用。说明若出现“您当前购买数量超过还可购买...

Android使用指南

通过阅读本文，您可以了解如何在Android端接入AI实时互动音视频智能体。源码说明源码下载下载地址请参见 GitHub开源项目。源码结构├─Android/Android平台工程结构跟目录│├─AUIBaseKits/AUI基础组件│├─AUIAICall/UI组件│├─...

Android使用指南

通过阅读本文，您可以了解如何在Android端接入AI实时互动音视频智能体。源码说明源码下载下载地址请参见 GitHub开源项目。源码结构├─Android/Android平台工程结构跟目录│├─AUIBaseKits/AUI基础组件│├─AUIAICall/UI组件│├─...

iOS使用指南

通过阅读本文，您可以了解如何在iOS端接入AI实时互动音视频智能体。源码说明源码下载下载地址请参见 GitHub开源项目。源码结构├─iOS/iOS平台的根目录│├─AUIAICall.podspec/pod描述文件│├─Source/源代码文件│├─Resources/资源...

集成概览

本文将介绍如何通过AICallKit SDK集成音视频智能体到您的Android应用中。环境要求 Android Studio 插件版本4.1.3 Gradle 7.0.2 Android Studio自带JDK11 业务流程您的App通过AppServer（你的业务服务器）获取RTC Token，便可调用call...

集成概览

本文将介绍如何通过AICallKit SDK集成音视频智能体到您的iOS应用中。环境要求 Xcode 16.0 及以上版本，推荐使用最新正式版本 CocoaPods 1.9.3 及以上版本准备 iOS 11.0 及以上版本的真机业务流程您的App通过AppServer（你的业务服务器）...

音视频智能生产

音视频智能生产服务基于阿里云智能媒体AI技术，提供多种形式媒体内容处理及内容生成能力，支持智能封面、智能横转竖、绿幕抠图、人像抠图、智能图标模糊、智能去字幕、字幕提取、副歌检测、音乐节奏检测等多种媒体处理生成功能，提升媒体...

音视频通话智能体集成

本文将为您介绍如何基于AICallKit SDK集成音视频通话智能体。集成概述 音视频通话智能体集成采用低代码方式，旨在实现智能体与实时音视频能力的深度融合，从而支持企业迅速构建智能化交互场景。该方案通过集成AICallKit SDK，助力您快速...

功能发布记录

服务端 2025-06-30 音视频通话智能体播报支持智能体播报同步执行对应指令。服务端 2025-06-17 电话呼出体验电话呼出支持每日20通电话体验。服务端 2025-06-30 2025年5月功能分类功能名称功能描述支持端发布时间相关文档服务端 ...

AI实时互动概览

AI智能体将响应结果的音视频流推送到ARTC网络，用户可以订阅该音视频流进行播放，从而完成用户与AI智能体的对话。功能说明功能说明实时工作流您可以使用白屏化的方式，灵活地编排智能体AI的工作流。语音转文字：预置阿里云通义产品能力...

功能特性

智能媒体服务功能集功能功能描述参考文档媒资管理 音视频资产管理将音视频资产数字化、结构化存储，提供全面的管理服务。媒资上传内容信息编目提供标题、分类、封面、字幕、点位信息等编目能力。分类管理检索查询支持基于音视频...

什么是智能语音交互

智能语音交互（Intelligent Speech Interaction）是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲...

不含UI集成方案

如果您的业务场景还需要用到直播与点播能力，可以使用音视频终端组合SDK，例如 AliVCSDK_Standard 或 AliVCSDK_InteractiveLive，具体组合方式，请参考 SDK选择与下载。方案优势只需集成AICallKit SDK，即可实现对智能体的一系列操作。...

消息对话联动音视频通话聊天记录

当您在消息对话中，启动音视频对话时，如需将消息对话智能体和音视频通话智能体产生的聊天记录进行整合，需在启动音视频通话智能体时传入 ChatSyncConfig 字段，设置消息对话智能体ID及 SessionID。代码实现您需要通过端侧AICallKit SDK ...

音视频审核

智能媒体服务提供了音/视频审核功能，包括智能审核和人工审核，可以对音频、视频等媒体文件内容进行多维度审核，帮助您检测媒体文件中的风险或违规内容，确保媒资的合规性。通过阅读本文，您可以了解音视频审核功能的使用方法。前提条件 ...

人工智能平台 PAI

人工智能平台 PAI（Platform of Artificial Intelligence）面向企业客户及开发者，提供轻量化、高性价比的云原生人工智能，涵盖DSW交互式建模、Designer拖拽式可视化建模、DLC分布式训练到EAS模型在线部署的全流程。

智能审核

说明审核标准将遵循中国的法律法规，包括且不限于《中华人民共和国刑法》、《网络安全法》、《互联网信息服务管理办法》、《计算机信息网络国际联网安全保护管理办法》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理...

人工审核

注意事项 音视频的最终审核结果由人工审核和智能审核结果共同决定，但人工审核的结果始终高于智能审核结果，即当人工审核和智能审核结果不一致时，按人工审核结果生效。经过媒体审核的音视频，仅状态为正常（Normal）时才能正常播放，...

集成概览

AICallKit依赖于实时音视频能力，因此在内部已实现 AliVCSDK_ARTC SDK 的相关功能。集成SDK npm install aliyun-auikit-aicall-save SDK开发指南步骤一：创建&初始化引擎创建&初始化ARTCAICallEngine引擎，示例代码如下：/指定智能体的...

语音合成FAQ

语音合成（TTS）是概率模型，目前业界能做到的读音正确率在96%~98%之间，阿里云智能语音交互产品在通用场景下测试准确率在97%左右。这意味着不是所有读音错误都能被修复掉，建议您可以通过换字或使用SSML功能。语音合成的发音读错怎么办？...

人工智能平台PAI服务等级协议

人工智能平台PAI灵骏智算服务（Serverless）服务等级协议，详情请参见 PAI灵骏智算服务（Serverless）服务等级协议。人工智能平台PAI通用服务等级协议SLA，详情请参见 人工智能平台PAI通用服务等级协议。阿里云产品服务协议，详情请参见 ...

人工智能平台PAI通用服务等级协议SLA

人工智能平台PAI通用服务等级协议SLA的详情，请参见 人工智能平台PAI通用服务等级协议。

概述

其主要能力单元分为音视频通话、录制服务与本地智能检测能力。音视频通话远程双录 SDK 中的音视频通话能力由蚂蚁集团移动开发平台（mPaaS）团队提供，可实现一对一通话及多人会议。通话过程中支持屏幕录制、屏幕共享、截图等功能，同时...

智能语音交互服务协议

智能语音交互服务协议的详情，请参见智能语音交互服务协议。

AI实时互动场景

AI智能体将响应结果的音视频流推送到ARTC网络，用户可以订阅该音视频流进行播放，从而完成用户与AI智能体的对话。功能说明功能说明实时通话（ARTC）阿里云实时音视频 方案，依托该方案用户可以与AI智能体进行全球范围的高可靠、低延时...

智能语音交互产品隐私政策

智能语音交互产品隐私政策，请参见智能语音交互产品隐私政策。

智能语音交互

智能语音交互（Intelligent Speech Interaction），是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭...

阿里云Mediabox音视频SDK率先适配HarmonyOS NEXT鸿蒙...

框架适配：Mediabox音视频SDK全面适配HarmonyOS NEXT系统的框架，支持ArkTS语言等特性，便于开发者充分发挥多设备统一特性，快速实现在智能手机等各种鸿蒙设备上的音视频应用开发。HarmonyOS NEXT版本的阿里云播放器SDK常见功能如下：分类 ...

智能语音交互服务等级协议

本服务等级协议（Service Level Agreement，简称“SLA”）规定了阿里云向客户提供的智能语音交互的服务可用性等级指标及赔偿方案。请参见智能语音交互服务等级协议（SLA）。

DLC常见问题

本文权威解答人工智能平台PAI的DLC模块常见问题，深入解析错误码137、多机多卡设置、模型下载、资源限制等核心疑问，助您快速定位并扫清训练障碍，提升开发效率。

计费常见问题

本文权威汇总了人工智能平台PAI的计费常见问题，详细说明了各项服务的计费规则、停止计费的具体操作，并解释了账单延迟与异常扣费的原因，助您精准控制成本，避免不必要的开销。

工作流 API

PAI-Flow工作流API是阿里云人工智能平台PAI提供的官方编程接口。本文深度解析了工作流的创建、运行、管理与监控等全生命周期操作的API，助您构建高效、稳健的自动化AI建模与部署流水线。

含UI集成方案

本文将介绍包含UI组件的AI实时互动解决方案。方案介绍本方案基于AICallKit SDK，提供了相应的音视频应用UI组件。您可以根据业务需求，...同时，企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务（OSS）或视频点播（VOD）平台。

CLI集成示例

本文以调用 人工智能平台PAI-AI工作空间 ListWorkspaces 接口，获取工作空间列表为例，为您介绍使用阿里云CLI调用 人工智能平台 PAI（Platform for AI）OpenAPI的操作步骤。前置概念阿里云CLI（Alibaba Cloud Command Line Interface）是...

含UI集成方案

本文将介绍包含UI组件的AI实时互动解决方案。方案介绍本方案基于AICallKit SDK，提供了相应的音视频应用UI组件。您可以根据业务需求，...同时，企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务（OSS）或视频点播（VOD）平台。

授权信息

本文为您介绍 人工智能平台 PAI（PaiStudio）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。人工智能平台 PAI（PaiStudio）的RAM代码（RamCode）为 pai、paidesigner、paiartlab，支持的授权粒度为操作级。...

授权信息

人工智能平台 PAI（pai-dlc）的RAM代码（RamCode）为 paiplugin、eas、pai、datasetacc、featurestore、paidlc、paiitag、paidesigner、paitraining、paiartlab、paicomponentmanagement，支持的授权粒度为操作级。权限策略通用结构权限...

人工智能 音视频行业

人工智能音视频行业