合成配音-合成配音文档介绍内容-移动阿里云

计费概述

✅ ✅ ✅ 模板成片（基础、高级、官方模板）-✅ ✅ ✅ 视频模板智能字幕生成-✅ ✅ ✅ 智能生成字幕智能配音合成-✅ ✅ ✅ 智能配音合成 绿幕抠图-✅ ✅ ✅ 绿幕抠图实景抠图-✅ ✅ ✅ 实景抠图智能生产（10+能力）-❌ ✅ ✅ 智能生产 ...

话术配音

为话术内容配音是话术配置的最后一步，目前有在线录音、单个录音文件上传、从录音文件列表中选择录音文件以及语音合成4种配音方式。文本为您介绍不同的话术配音方式。上传录音登录智能联络中心控制台。在左侧导航栏，选择小模型通信 ...

模型列表

通义千问实时语音合成、通义千问语音合成、CosyVoice语音合成和 Sambert语音合成可实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。语音识别/翻译通义千问实时语音识别、通义千问录音文件识别、Fun-ASR语音...

常见普通模板Config示例

[{"Sys_Type":"ArrayItems","Sys_ArrayObject":"$VideoArray","Sys_Template":{"MediaId":"$MediaId","Effects":[{"Type":"Volume","Gain":"0"}]} }]}]} 视频静音＋完整音频混音视频静音＋完整音频混音指将原视频静音后重新配音，合成新的...

音频处理

{"AudioTracks":[{"AudioTrackClips":[{"MediaId":"b3f37e05512043f49f697f7425b9*"}]}]} 视频静音＋完整音频混音视频静音＋完整音频混音指将原视频静音后重新配音，合成新的视频，是一个典型的配音场景。示例如下：所有与音频处理相关的...

音频处理

https://ice-document-materials.oss-cn-shanghai.aliyuncs.com/test_media/music/m1.wav","Effects":[{"Type":"Volume","Gain":2 }]}]}]} 视频整体静音＋音频混音视频整体静音+音频混音指的是将原视频静音后重新配音，合成新的视频，是...

WebSocket API

本文介绍如何通过WebSocket连接访问Sambert语音合成服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发Sambert语音合成应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见语音...

音色列表

特质：烟火从容阿姨语言：中文（普通话）、英文 SSML：支持 Instruct：不支持时间戳：不支持短视频配音名称：龙机器 voice参数：longjiqi_v3 年龄：20~30岁特质：呆萌机器人语言：中文（普通话）、英文 SSML：支持 Instruct：不支持 ...

媒体生产（云剪辑）

高级剪辑功能名称描述多轨音视频叠加或混音音、视频轨道多于1个时的叠加情况，如多轨音频混音、多轨视频叠加合成、音频轨和视频轨叠加合成等，如配音、画中画等情况。特效提供了丰富多样的特效效果，详情请参见特效效果示例。转场 ...

短视频SDK简介

✓ ✓ 本地配音支持本地音频合成到视频中，支持快速、慢速等时间特效调节。✓ ✓ 视频编辑（特效编辑）时间特效支持对视频进行快速、慢速、倒放、反复操作。✓ ✓ 专业版免费赠送。画面调节在编辑界面，调整画面的亮度、白平衡、锐度、...

扩展功能

动态获取视频剪辑Web SDK的版本号自定义字幕默认文字自定义按钮文案修改默认预览画布比例主动获取Timeline数据自定义返回按钮自定义Logo 自定义媒资导入界面自定义合成导出界面智能生成字幕媒资标记拆条及导出智能生成配音 ...

语音合成FAQ

长文本语音合成服务和语音合成服务的差异在于：语音合成服务只能支持300字符以下的文本，而长文本语音合成是为了满足更多用户对千字或者万字文本合成需求，最多支持10万字的一次性快速合成调用。具体请参见接口说明。性能类为什么TTS语音...

智能生产制作快速入门

智能任务通过智能任务接口进行智能字幕、智能配音等功能，也可以在剪辑合成接口中配置 Timeline 中的 Effect 字段，对指定媒资进行智能预处理。数字人通过配置虚拟人物视频合成接口中的 InputConfig 参数（JSON格式，表示文本或音频的URL...

接口说明

长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。返回语音合成产品详情页计费和并发限制异步长文本语音合成仅提供商用版，不支持试用，详情请参见试用版和商用版。要使用该功能，请开通商用版，详情...

接口说明

语音合成为您提供将输入文本合成为语音二进制数据的功能。本文档介绍了当前目录下各SDK文档的通用信息。返回语音合成产品详情页计费和并发限制语音合成提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版...

功能发布记录

字幕来源新增类型：ALL(字幕来源以ASR识别结果及其时间轴为依据，并通过OCR识别对ASR识别结果进行修正，例如纠正错别字)控制台 2025-07-28 控制台-视频翻译云剪辑智能配音的音色新增“推荐”，包含cosyvoice系列的官方音色。控制台 2025-...

智能语音交互

智能语音交互（Intelligent Speech Interaction），是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭...

时间戳功能介绍

时间戳功能又叫字级别音素边界接口，该时间信息可用于驱动虚拟人口型、做视频配音字幕等。功能概述实时长文本语音实时合成服务的时间戳是将大段的文本切分为多个句子，以每句话为单位，与音频一起流式的输出该句子的时间戳和该句话中每个...

智能语音效果示例

智能生产制作支持智能配音功能，并且内置了许多类型的智能语音效果，在进行云剪辑时您可以根据实际需求选择使用。通过阅读本文，您可以预览各类型智能语音的效果。多情感（荐）多情感声音支持的情感如下表所示，每个音色支持的情感分类不...

智能任务

智能配音不区分 0.0035元/次计费规则：语音合成的计费调用次数按照每次请求传入的字符数（UTF-8编码，一个汉字、英文字母、全半角标点符号均算一个有效字符）作为统计依据；100个字符内（含100个）记为1次计费调用；每超过100个字符增加1...

导出视频

导出视频包含视频配置导出、视频合成及上传。本文为您介绍导出视频的流程以及方法。版本支持版本是否支持专业版支持标准版支持基础版不支持相关类功能类名功能 AliyunVideoParam 视频输出参数，设置合成导出视频的参数。...

人声克隆概述

智能媒体服务支持通过对真人语音的学习训练，实现人声克隆定制的功能。通过阅读本文，您可以了解如何定制及使用克隆的人声。人声克隆定制智能媒体服务提供...驱动方式为“文字驱动”的数字人视频合成，详情请参见创建数字人视频合成任务。

SDK和API概览

移动端鸿蒙Next SDK 一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成离线移动端iOS SDK 离线语音合成离线移动端Android SDK 离线语音合成服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件...

剪辑合成完成

本文为您介绍剪辑合成完成事件、事件通知的内容和回调示例。事件类型 ProduceMediaComplete 事件说明当剪辑合成完成时，会产生此事件。说明剪辑合成可以在点播控制台的视频剪辑页面发起，也可以通过调用视频合成接口发起。剪辑合成的...

AI生成合成内容鉴别和标识最佳实践

根据《人工智能生成合成内容标识办法》规定，网络信息内容传播服务的服务提供者应当对AI生成合成的内容进行检测和标识，提醒公众该内容可能为生成合成内容。本文基于阿里云入选“网络安全国家标准应用实践案例库”的人工智能生成合成内容...

直播转点播常见问题

如果开启了自动合成，则在本次直播结束后，点播会自动将2个录制的视频进行合成，同时会将合成后的视频ID进行回调。即用户最后一共可以得到2+1=3个视频。自动合成有什么用？通常为了快速回看，用户可能会将录制周期设置较短。如：设置成10...

实时语音合成交互流程

本文介绍实时语音合成服务端和客户端的交互流程。用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问 qwen-tts 的交互流程采用 WebSocket 持久连接+事件驱动响应机制，支持客户端实时输入文本并持续接收语音流。交互模型支持两...

产品简介

产品介绍语音合成CosyVoice大模型服务是依托大规模预训练语言模型，深度融合文本理解和语音生成的一项新型语音合成技术，能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音。产品优势高度拟人化：采用阿里通义语音实验室...

iOS SDK

stopStreamInputTts:停止语音合成/*结束合成任务，通知服务端流入文本数据发送完毕，阻塞等待服务端处理完成，并返回所有合成音频。阻塞超时可以通过start接口中的complete_waiting_ms设置*@return：参见错误码:...

创建数字人视频合成任务

本文为您介绍四种创建数字人视频合成任务的方法，并为您提供了相应的API参考和效果示例。方法一：通过控制台创建数字人视频合成任务登录智能媒体服务控制台。在顶部左上角根据实际情况选择地域。在左侧导航栏选择智能生产制作云剪辑。...

产品优势

效果逼真在本地端实现了基于Knowledge-Aware Neural TTS(KAN-TTS)语音合成技术，基于深度神经网络和机器学习，将文本转换成真实饱满、抑扬顿挫、富有表现力的语音，使得离线语音合成效果趋近于在线合成效果。同样的语音合成声音定制的...

直播转点播最佳实践

合成+手动发起转码可在新建直播录制配置时，将自动合成开关打开，并且配置进行合成时所使用的合成转码模板组（本情况配置成仅合成，后续由用户触发转码）。适用场景：一场直播完成后，需要对所有录制周期内的分段进行自动合并，合并后文件...

ProduceEditingProjectVideo-视频合成

将一个或多个视频合成为成品。可以通过时间线参数直接提交源视频，也可以先创建云剪辑工程，再提交合成。接口说明请确保在使用该接口前，已充分了解视频点播产品的收费方式和价格。云剪辑为付费功能，计费详情，请参见剪辑合成计费。该...

如何选择搭配直播转点播

合成+手动发起转码可在新建直播录制配置时，将自动合成开关打开，并且配置进行合成时所使用的合成转码模板组（本情况配置成仅合成，后续由用户触发转码）。适用场景：一场直播完成后，需要对所有录制周期内的分段进行自动合并，合并后文件...

数字人视频合成开发指南

数字人视频合成服务（包括3D数字人视频合成和2D数字人视频合成）提供根据指定文本让数字人进行文本播报，平台会基于数字人播报的文本智能同步驱动数字人做出相应的嘴型、表情和动作，同时将渲染的数字人画面合成指定格式的视频文件。...

}/3.4 合成结束-(void)OnSynthesizerCompleted:(NlsDelegateEvent)event result:(NSString*)result statusCode:(NSString*)statusCode errorMessage:(NSString*)eMsg { }/3.5 合成开始-(void)OnSynthesizerStarted:(NlsDelegateEvent)event...

动态与公告

2023年6月30日 2D数字人算法模型已经完成效果优化，数字人视频合成商业化发布，功能包含3D数字人视频合成以及2D数字人视频合成 2023年5月10日尊敬的用户，近期我们将对2D数字人算法模型进行迭代以进一步优化效果，因此2D数字人自定义功能...

iOS SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，将ZIP包中的nuisdk.framework添加到您的工程中...

智能生产制作FAQ

在调用接口 SubmitMediaProducingJob 提交剪辑合成作业后会返回 JobId，可以通过调用接口 GetMediaProducingJob 并传入 JobId 查询剪辑合成作业，根据返回的 Status 判断合成任务状态。一个合成任务需要花费多长时间？通常情况下，合成时间...

模板渲染速率提升详解

VE引擎的主要功能是将AE中制作的合成、合成中的图层以及图层上的动画数据和特效数据进行重建，然后对每个元素进行渲染和合成并形成最终的视频画面。因此AE模板中的每一个元素会对最终渲染的性能产生影响。模板制作对渲染速率影响详解帧...