文本转语音-文本转语音文档介绍内容-移动阿里云

HarmonyOS Next SDK

ASR中一句话识别和录音文件极速版支持OPUS数据，实时语音转文字仅支持PCM编码、16 bit采样位数、单声道（mono）。具体详情，请参见接口说明。调用鸿蒙NEXT SDK时，手机报错提示“audio recoder not init”如何解决？您可以通过以下方式...

热线SDK接入（旧版）

enableVoiceToText Array 'callin'|'callout'[]启用语音转文本，该能力需要BU配置支持。enableServiceSummary boolean false 启用服务摘要。disableUI boolean false 是否隐藏UI，默认为false，不隐藏。cdnPath string/g.alicdn.com 内置...

预训练模型（平台预置模型）

10/直播ASR乱码识别适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。10 600个字符裁判文书抽取支持10个案由的文书，解析得到38个字段。10/关键词抽取和文本摘要（抽取式）适用于针对文档抽取关键...

QueryRtcAsrTasks-查询实时语音转文字或翻译

查询当前已创建的实时语音转文字或翻译任务的状态信息。接口说明 QPS 限制本接口的单用户 QPS 限制为 20 次/秒。超过限制，API 调用会被限流，这可能会影响您的业务，请合理调用。更多信息，请参见 QPS 限制。调试您可以在OpenAPI ...

查询实时语音转文字或翻译

查询当前已创建的实时语音转文字或翻译任务的状态信息。QPS限制本接口的单用户QPS限制为20次/秒。超过限制，API调用会被限流，这可能会影响您的业务，请合理调用。更多信息，请参见 QPS限制。调试您可以在OpenAPI Explorer中直接运行该...

产品简介

10/直播ASR乱码识别适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。10 600个字符裁判文书抽取支持10个案由的文书，解析得到38个字段。10/关键词抽取和文本摘要（抽取式）适用于针对文档抽取关键...

产品简介

直播ASR乱码识别适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。600个字符裁判文书抽取支持10个案由的文书，解析得到38个字段。关键词抽取和文本摘要（抽取式）适用于针对文档抽取关键词或者摘要...

控制台操作指南

在语音审核结果页签，为您展示语音转文字结果和标签命中信息。说明仅当您在视频审核设置中开启视频语音审核开关时才展示语音审核的结果。统计近期视频检测量级通过统计和查看近期视频检测量级，对具体视频内容制定进一步的审核或治理...

Effect配置说明

字幕特效效果示例 AaiMotionOut Float 否当字幕类型为横幅文字时，表示横幅文字出场特效时长，单位秒，精确到小数点后4位，如果AaiMotionOut不填，默认0.5s，如果文本时长小于0.5，则为总文本时长。AaiMotionLoopEffect String 否当字幕...

功能发布记录

预训练模型针对电话销售场景，识别用户回复客服内容的意图，详见右侧文档 2020-09-18 电销场景用户意图识别服务使用教程直播ASR乱码识别服务预训练模型适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的...

智能语音交互呼入业务流程

说明接收地址用于接收语音实时转文本结果并返回下一步执行动作。具体操作指引，请参见配置回调接口。步骤三：发起呼叫用户对指定号码发起呼叫，系统自动调用智能语音交互呼入回调HTTP接口，接收过程中用户语音实时转写的文本消息。业务...

基本概念

语音原始文本开启ITN的识别结果百分之二十 20%一千六百八十元 1680元五月十一号 5月11号请拨幺幺零请拨110 项目标识（Appkey）在智能语音交互管理控制台中创建的每个项目都有一个唯一标识，即Appkey。当您调用智能语音服务时必须...

聊天/群聊时如何发语音？

概述本文介绍在聊天/群聊时发送语音聊天，同时如何将他人的语音转换成文字。详细信息若在聊天的时候，想发送语音，可点击聊天框左下角的麦克风按钮，然后按住说话发送语音，最长可以录60秒。若开启了全屏语音功能，则长按聊天框的空白处...

智能语音交互呼入回调HTTP接口

说明接收地址用于接收语音实时转文本结果并返回下一步执行动作。单击保存。您也可以单击右侧测试按钮，对配置信息进行测试。回调接口规范规范说明接口协议 HTTP 方式 POST 字符编码格式 UTF-8 示例与参数智能语音交互呼入回调HTTP...

SDK和API概览

移动端鸿蒙Next SDK 一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成离线移动端iOS SDK 离线语音合成离线移动端Android SDK 离线语音合成服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件...

智能语音交互呼出回调HTTP接口

说明接收地址用于接收语音实时转文本结果并返回下一步执行动作。单击保存。您也可以单击右侧测试按钮，对配置信息进行测试。回调接口规范规范说明接口协议 HTTP 方式 POST 字符编码格式 UTF-8 请求样例 ...

智能语音交互呼入回调HTTP接口

说明接收地址用于接收语音实时转文本结果并返回下一步执行动作。单击保存。您也可以单击右侧测试按钮，对配置信息进行测试。回调接口规范规范说明接口协议 HTTP 方式 POST 字符编码格式 UTF-8 示例与参数智能语音交互呼入回调HTTP...

语音异步检测

hintWords JSONArray"[{"context":"敏感词"}]"语音中包含的文本命中的风险关键词信息，用于提示您违规的原因，可能返回多个命中的关键词。具体结构描述，请参见 hintWords。keyword String 恶心如果命中了用户自定义关键词，返回命中的...

功能发布记录

优化语音合成时间戳功能介绍新增多情感音色语音合成、实时长文本语音合成、异步长文本语音合成服务中，新增支持音色：知妙_多情感知燕_多情感知贝_多情感知甜_多情感知米_多情感新增接口说明新增多语种音色语音合成、实时长文本...

语音审核增强版多语言服务

返回所有语音切片内容和转写文本，提供语音切片临时地址用于人工复审。国际化标签语音审核增强版多语言服务采用国际化标签体系。如果内容存在多类风险，能够同时返回多个标签。标签分类包括但不限于如下所示：标签类型分类一级标签...

并发与监控FAQ

录音文件识别极速版不支持试用 10路并发流式文本语音合成（CosyVoice大模型）不支持试用 10路并发语音合成 2路并发 200路并发实时长文本语音合成不支持试用 100路并发异步长文本语音合成不支持试用 100路并发说话人识别 2路并发 ...

语音审核增强版API

Text String 恶心的语音转换成文本内容。Url String https://aliyundoc.com 如果检测的内容是语音流，表示该段文本对应的语音流的临时访问地址。该地址有效时间为30分钟，需要及时转存。Labels String political_content,xxxx 标签，多个...

内容安全

语音审核默认回调格式说明只会对于有问题的音频内容进行回调通知，通知内容包含问题语音的文本信息以及最近一分钟内的上下文信息。{"domain":"example.com ","app":"liveApp*","stream":"5d9747eba39b44769852d276f9ff*","timestamp":...

短语音同步检测

短语音同步检测提供基于HTTP和HTTPS协议的同步音频检测接口，该接口可以实时将语音的内容转换为文字，并返回给您内容审核的结果以及风险标签，帮助您提高审核效率。本文介绍了调用短语音同步检测接口（/green/voice/syncscan）进行语音内容...

异步检测

视频审核帮助您检测视频中的风险或违规内容，具体包括以下场景：视频智能鉴黄、视频暴恐涉政、视频图文违规、视频不良场景、视频logo、视频语音违规。本文介绍了使用API接口异步检测视频的方法。（视频异步检测）使用说明业务接口：/green...

视频文件审核增强版API

SliceDetails JSONArray 语音对应的文本详情（每一句文本对应一个元素），包含一个或者多个元素，具体结构描述，请参见表10 SliceDetails。表9 AudioSummarys 名称类型示例值描述 Label String profanity 视频语音标签。LabelSum ...

视频直播流审核增强版API

SliceDetails JSONArray 语音对应的文本详情（每一句文本对应一个元素），包含一个或者多个元素，具体结构描述，请参见表10 SliceDetails。表9 AudioSummarys 名称类型示例值描述 Label String profanity 视频语音标签。LabelSum ...

回调管理

智能审核回调视频直播支持视频审核和语音审核的结果回调，您可以在控制台或通过API配置回调地址。视频审核回调设置方式控制台进入视频直播控制台页面，选择左侧导航栏功能管理事件回调进入事件回调页面，选择需要开启的域名，在 ...

计费概述

长文本语音合成按照合成字数计费语音分析声音事件检测按照录音时长计费说话人识别按照调用次数计费性别识别按照调用次数计费语种识别按照调用次数计费附加产品费用服务说明超额并发线路一句话识别、实时语音识别默认提供200...

Java SDK

本文介绍如何使用智能语音交互流式文本语音合成的Java SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK之前，请先阅读接口说明。下载安装从Maven服务器下载最新版本的SDK nls-sdk-java-demo+flowingtts+3.zip。dependency ...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压ZIP包，其中nuisdk-...

文件存储

使用示例文件转文本 文本转文件插入文件删除文件文件转文本/*文件转文本*@param file 文件*@return 文本*/public String file2String(File file){ InputStreamReader reader=null;StringWriter writer=new StringWriter();try {/使用...

运行示例

通过Curl命令调用异步长文本合成RESTful接口异步长文本语音合成无免费试用版，如果您希望体验长文本语音合成服务，请前往控制台将该服务升级为商用版。在命令行执行如下命令，提交语音合成任务。请在智能语音交互控制台获取Appkey。请...

iOS SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，将ZIP包中的nuisdk.framework添加到您的工程中...

Android SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，在 app/libs 目录下获取AAR格式的SDK包，将AAR...

时间戳功能介绍

长文本语音异步合成服务在输出音频流的同时，可输出每次传入文本中各单句（在句号、问号、叹号等位置切分）在音频中的时间位置，即句级别时间戳。该时间信息可用于视频配音字幕或有声书播报文字高亮等场景。本文为您介绍时间戳功能。使用...

API详情

流式文本语音合成流式文本语音合成可以将流式文本合成为语音二进制数据，并实时地、流式地返回结果。终端用户可以听到接近同步的语音输出，从而极大地提升交互体验，减少了等待时间。一个典型适用的场景是，将大规模语言模型（LLM）返回的...

Android SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，在 app/libs 目录下获取AAR格式的SDK包，将AAR...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压ZIP包，其中nuisdk-...

获取文本库列表

ResourceType String TEXT 文本库类型，取值：TEXT：文字文本库 IMAGE：图片文本库 VOICE：语音文本库 LibType String textKeyword 各应用场景中的文本库类型，取值：文本反垃圾场景 textKeyword：关键词文本库 similarText：相似文本库 ...