哪个语音合成软件又好用-哪个语音合成软件又好用文档介绍内容-移动阿里云

模型列表

通义千问实时语音合成、通义千问语音合成、CosyVoice语音合成和 Sambert语音合成可实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。语音识别/翻译通义千问实时语音识别、通义千问录音文件识别、Fun-ASR语音...

CosyVoice声音复刻API

此步骤必须指定 target_model/targetModel，声明创建的音色将由哪个语音合成模型驱动。若已有创建好的音色（调用查询音色列表接口查看），可跳过这一步直接进行下一步。使用音色进行语音合成调用语音合成接口，传入上一步获得的音色。此...

声音复刻

此步骤必须指定 target_model，声明创建的音色将由哪个语音合成模型驱动。若已有创建好的音色（调用查询音色列表接口查看），可跳过这一步直接进行下一步。使用音色进行语音合成调用语音合成接口，传入上一步获得的音色。此步骤指定的...

声音设计

此步骤必须指定 target_model，声明创建的音色将由哪个语音合成模型驱动试听获取预览音频来判断是否符合预期；若符合要求，继续下一步，否则，重新设计。若已有创建好的音色（调用查询音色列表接口查看），可跳过这一步直接进行下一步。...

Java SDK

本文介绍如何使用智能语音交互流式文本语音合成的Java SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK之前，请先阅读接口说明。下载安装从Maven服务器下载最新版本的SDK nls-sdk-java-demo+flowingtts+3.zip。dependency ...

SDK和API概览

移动端鸿蒙Next SDK 一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成 离线移动端iOS SDK 离线语音合成 离线移动端Android SDK 离线语音合成 服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件...

C++ SDK

识别接口 SpeechSynthesizerRequest：语音合成请求对象，用于语音合成及长文本语音合成。接口说明以speechSynthesizerRequest.h内容为准。接口名启用版本功能描述 setOnSynthesisCompleted 2.x 设置语音合成结束回调函数。...

C++ SDK

识别接口 SpeechSynthesizerRequest：语音合成请求对象，用于语音合成及长文本语音合成。接口说明以speechSynthesizerRequest.h内容为准。接口名启用版本功能描述 setOnSynthesisCompleted 2.x 设置语音合成结束回调函数。...

模型上架与更新

实时语音合成-通义千问 语音合成 2025-09-22 qwen3-tts-flash、qwen3-tts-flash-2025-09-18 通义最新的离线语音合成大模型，不仅拥有17种高表现力的拟人音色，且能低延迟高稳定地合成音频；同时支持多种语言、方言。语音合成-通义千问实时...

实时语音合成-CosyVoice/Sambert

语音合成，又称文本转语音（Text-to-Speech，TTS），是将文本转换为自然语音的技术。该技术基于机器学习算法，通过学习大量语音样本，掌握语言的韵律、语调和发音规则，从而在接收到文本输入时生成真人般自然的语音内容。核心功能实时生成...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成/长文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo ...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

管理项目

语音合成 当项目类型为仅语音合成 或语音识别+语音合成+语音分析时，项目配置操作如下。在 语音合成TTS 模块下，选择语音合成模型并配置基础参数（语速、语调、音量）。发布上线后，将与项目Appkey绑定。如果您的应用程序中没有设置...

功能发布记录

优化 语音合成时间戳功能介绍新增多情感音色 语音合成、实时长文本语音合成、异步长文本语音合成服务中，新增支持音色：知妙_多情感知燕_多情感知贝_多情感知甜_多情感知米_多情感新增接口说明新增多语种音色 语音合成、实时长文本...

产品简介

产品介绍 语音合成CosyVoice大模型服务是依托大规模预训练语言模型，深度融合文本理解和语音生成的一项新型语音合成技术，能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音。产品优势高度拟人化：采用阿里通义语音实验室...

开通授权

本文介绍如何开通离线语音合成标准版/精品版，购买、配置并激活对应的SDK授权。背景信息离线语音合成提供了商业版SDK，包含标准版/精品版两种声音品质，您可以根据使用场景及设备性能状况选择合适的版本。精品版音质更好；但如果设备性能...

智能语音交互

智能语音交互（Intelligent Speech Interaction），是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音合成，并通过文本调用多模态交互开发套件的交互能力实现完整交互链路。百炼多模态交互开发套件集成了大模型语音识别和语音合成，并提供 VAD、AEC 等音频算法提升交互效果。如果我们提供...

什么是智能语音交互

智能语音交互（Intelligent Speech Interaction）是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲...

C++ SDK

speechSynthesizerRequest.h 语音合成、长文本语音合成。speechTranscriberRequest.h 实时音频流识别。FileTrans.h 录音文件识别。lib：SDK库文件。readme.md：SDK说明。release.log：版本说明。version：版本号。编译运行安装工具的最低...

C++ SDK

speechSynthesizerRequest.h 语音合成、长文本语音合成。speechTranscriberRequest.h 实时音频流识别。FileTrans.h 录音文件识别。lib：SDK库文件。readme.md：SDK说明。release.log：版本说明。version：版本号。编译运行安装工具的最低...

实时语音合成-通义千问

实时语音合成-通义千问提供低延迟、流式文本输入与流式音频输出能力，提供多种拟人音色，支持多语种/方言合成，可在同一音色下输出多语种，并能自适应调节语气，流畅处理复杂文本。核心功能实时生成高保真语音，支持中英等多语种自然发声 ...

计费项

支持服务语音识别：录音文件识别、实时语音识别、一句话识别 语音合成：语音合成 语音分析：说话人识别、声音事件检测、性别识别、语种识别语音识别：录音文件识别、实时语音识别、一句话识别、录音文件识别（极速版）、录音文件识别（闲...

iOS SDK（旧版）

语音合成 语音合成即将文本转化为语音。我们支持多个说话人声音，支持PCM/WAV/MP3格式输出，示例实现了基于PCM的语音合成和播放。调用步骤说明请使用Embedded Binaries方式导入SDK到工程中。导入NlsSdk中的AliyunNlsClientAdaptor.h、...

产品优势

效果逼真在本地端实现了基于Knowledge-Aware Neural TTS(KAN-TTS)语音合成技术，基于深度神经网络和机器学习，将文本转换成真实饱满、抑扬顿挫、富有表现力的语音，使得离线语音合成效果趋近于在线合成效果。同样的语音合成 声音定制的...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别是 语音合成 是实时长文本语音合成 是流式文本语音合成 是离线语音合成 否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/...

iOS SDK

与服务端完成建链，并开始单向流式语音合成(长文本语音合成)任务，同步接口*@param ticket：json string形式的鉴权参数，参见下方说明或接口说明。param parameters：json string形式的初始化配置参数，参见下方说明或接口说明。param text...

Android SDK（旧版）

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechSynthesizer：代表一次语音合成请求。SpeechSynthesizerCallback：语音...

iOS SDK

功能是否支持一句话识别是实时语音识别是 语音合成 是实时长文本语音合成 是流式文本语音合成 是离线语音合成 否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，将ZIP包中的nuisdk.framework添加到您的工程中...

并发和QPS说明

录音文件识别极速版不支持试用 10路并发流式文本语音合成（CosyVoice大模型）不支持试用 10路并发 语音合成 2路并发 200路并发实时长文本语音合成 不支持试用 100路并发异步长文本语音合成 不支持试用 100路并发说话人识别 2路并发 ...

Android SDK

1：长文本语音合成（超过300字符）0：短文本语音合成（300字符以内）custom_params String 否若需要设置交互协议支持但是接口说明中未说明的参数，可通过此万能设置接口进行配置。其中custom_params为key，value为JSON字符串。具体设置...

产品计费

根据播放句数进行计算费用=0.05(轻量版语音识别)+0.8(意图识别)+1.7(语音合成)*n(播放句数)+0.02(新闻电台)费用构成：语音识别+意图识别+单次启动+语音合成，其中每个播放的句子会调用语音合成功能，该部分按句计费。节省计划节省计划是...

语音合成-通义千问

语音合成-通义千问提供多种拟人音色，支持多语言及方言，并可在同一音色下输出多语言内容。系统可自适应语气，流畅处理复杂文本。支持的模型推荐使用通义千问3-TTS-Flash。通义千问3-TTS-Flash拥有 49种音色，支持多种语言及方言。通义千...

Android SDK

stopStreamInputTts:停止语音合成/*停止语音合成，等待接收完所有合成数据直到STREAM_INPUT_TTS_EVENT_SYNTHESIS_COMPLETE。return：参见错误码:https://help.aliyun.com/document_detail/459864.html。public synchronized int ...

实时语音合成交互流程

本文介绍实时语音合成服务端和客户端的交互流程。用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问 qwen-tts 的交互流程采用 WebSocket 持久连接+事件驱动响应机制，支持客户端实时输入文本并持续接收语音流。交互模型支持两...

Java SDK

示例：SpeechSynthesizerListener listener=new SpeechSynthesizerListener(){/接收语音合成的语音二进制数据@Override public void onMessage(ByteBuffer message){/在这里实现细节 }/语音合成结束@Override public void onComplete...

话术配音

为话术内容配音是话术配置的最后一步，目前有在线录音、单个录音文件上传、从录音文件列表中选择录音文件以及语音合成4种配音方式。文本为您介绍不同的话术配音方式。上传录音登录智能联络中心控制台。在左侧导航栏，选择小模型通信 ...

Android SDK

功能是否支持一句话识别是实时语音识别是 语音合成 是实时长文本语音合成 是流式文本语音合成 是离线语音合成 否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，在 app/libs 目录下获取AAR格式的SDK包，将AAR...

Android SDK

本文介绍了如何使用阿里云离线语音合成服务提供的Android NUI SDK，包括下载安装SDK和语音包、SDK关键接口及代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取AccessKey ID和 ...