模型设计与制作专业-模型设计与制作专业文档介绍内容-移动阿里云

通义万相-数字人

数字人wan2.2-s2v模型支持基于单张图片和音频，生成动作自然的说话、唱歌或表演视频，不限制形象画幅，支持肖像、全身或半身的人物图像。重要本文档仅适用于“中国大陆（北京）”地域，需使用“中国大陆（北京）”地域的 API Key。模型...

研发过程代码与平台模型的双向联动

平台：生成代码扫描代码与合并模型插件：代码生成代码扫描模型上报双向联动研发流程不区分角色权限的简单双向联动研发流程简单流程考虑研发人员同时拥有模型和代码的操作权限，研发人员对自己实现业务所对应的代码与模型同时负责。...

语言模型

我们为您提供了通用模型，是语言基础模型，如果您在自己的领域积累了丰富的历史数据，可以使用这些历史数据作为语料来对自定义的语言模型进行训练，自定义的语言模型在训练时，是在通用模型的基础上进行训练的，通过对您的训练语料做模型...

上传文件获取临时URL

使用限制文件与模型绑定：文件上传时必须指定模型名称，且该模型须与后续调用的模型一致，不同模型无法共享文件。此外，不同模型对文件大小有不同限制，超出限制将导致上传失败。文件与主账号绑定：文件上传与模型调用所使用的 API Key ...

训练集与评测集

数据集是模型训练与评测的基础，阿里云百炼模型数据功能可以帮助您高效地创建和管理数据集。重要本文档仅适用于中国大陆版（北京地域）。支持的数据集模型数据实现了对您业务空间下所有大模型相关数据集的统一管理。这些数据集可分为 ...

文生图FLUX

flux-dev 面向非商业应用的开源权重、精炼模型，保持了与FLUX专业版相近的图像质量和指令遵循能力的同时，具备更高的运行效率。flux-merged 结合了"Dev"在开发阶段探索的深度特性和"Schnell"所代表的高速执行优势，不仅提升了模型的性能...

节省计划与资源包

大语言模型推理资源包订购地址大语言模型推理资源包qwen-plus 大语言模型推理资源包qwen-max 大语言模型推理资源包qwen-turbo 适用模型 qwen-plus及qwen-plus-latest 的实时推理服务（非思考模式）qwen-max及qwen-max-latest 的实时推理...

错误信息

请勿混用开源社区的模型名与百炼模型ID，如应该使用 qwen3-235b-a22b-instruct-2507，而非 Qwen/Qwen3-235B-A22B-Instruct-2507。The result_format parameter must be \"message\"when enable_thinking is tru e 原因：调用思考模式模型，...

扫描上报和合并代码模型

如果您需将本地的模型上报到平台上，可通过QuickFix快速修复的方式上报或修改某个 field/method，也可上报整个模型，或进行多个模型的上报。但您需注意需要上报的模型是否依赖于别的模型，别的模型是否也需要上报。本文介绍如何在Tool ...

wan2.2-s2v 视频生成

数字人wan2.2-s2v模型能基于单张图片和音频，生成动作自然的说话、唱歌或表演视频。音频驱动:通过输入的人声音频，驱动静态图片中的人物实现口型、表情和动作与音频同步。场景丰富:支持"说话"、"唱歌"、“表演”三种对口型场景人物形象...

创建与删除模型

关于模型与模型版本的详细介绍请参考模型类型。注意事项 MaxCompute公共模型，归属于MaxCompute系统账号下的公共项目，不需要用户主动执行创建操作，可直接推理使用，具体公共模型列表和使用方法请参考 MaxCompute模型。MaxCompute内部...

Python SDK

模型与价格模型名模型简介单价 gummy-chat-v1 Gummy一句话识别、翻译模型，在识别、翻译出一句话后会结束任务。默认进行标点符号预测和逆文本正则化（INT，Inverse Text Normalization）。支持定制热词。0.00015元/秒重要语音识别与...

Python SDK

模型与价格模型名模型简介单价 gummy-chat-v1 Gummy一句话识别、翻译模型，在识别、翻译出一句话后会结束任务。默认进行标点符号预测和逆文本正则化（INT，Inverse Text Normalization）。支持定制热词。0.00015元/秒重要语音识别与...

Python SDK

模型与价格模型名模型简介单价 gummy-realtime-v1 Gummy实时语音识别、翻译模型。默认进行标点符号预测和逆文本正则化（INT，Inverse Text Normalization）。支持定制热词。模型使用VAD（Voice Activity Detection）断句。0.00015元/秒...

模型调优简介

模型调优介绍模型调优作为重要的模型效果优化方式，可以：提升模型在特定行业/业务表现降低模型输出延迟抑制模型幻觉对齐人类的价值观或偏好使用调优后的轻量级模型替代规模更大的模型模型在调优过程中，会学习训练数据中的知识、...

Python SDK

模型与价格模型名模型简介单价 gummy-realtime-v1 Gummy实时语音识别、翻译模型。默认进行标点符号预测和逆文本正则化（INT，Inverse Text Normalization）。支持定制热词。模型使用VAD（Voice Activity Detection）断句。0.00015元/秒...

快速入门

步骤四：调用模型服务服务部署成功后，您可以通过以下两种方式与模型交互。方式一：在线调用此方式用于在控制台快速验证已部署服务的输入输出是否正常。在服务详情页，单击在线调试页签；系统会自动填充请求参数的示例。您可以根据需要...

快速入门

步骤四：调用模型服务服务部署成功后，您可以通过以下两种方式与模型交互。方式一：在线调用此方式用于在控制台快速验证已部署服务的输入输出是否正常。在服务详情页，单击在线调试页签；系统会自动填充请求参数的示例。您可以根据需要...

通义千问

模型介绍、选型建议和使用方法请参考文本生成模型概述。可通过 OpenAI 兼容或 DashScope 协议调用通义千问 API。OpenAI 兼容北京地域 SDK 调用配置的 base_url：https://dashscope.aliyuncs.com/compatible-mode/v1 HTTP 请求地址：POST ...

iOS SDK

模型与价格在资源与预算允许的情况下，优先选择 cosyvoice-v3-plus 获取最佳合成效果，对成本敏感时可选 cosyvoice-v3 平衡质量与价格，其余版本仅建议在兼容或低要求场景使用。模型名称单价免费额度（注）cosyvoice-v3-plus 2元/万字符...

Android SDK

模型与价格在资源与预算允许的情况下，优先选择 cosyvoice-v3-plus 获取最佳合成效果，对成本敏感时可选 cosyvoice-v3 平衡质量与价格，其余版本仅建议在兼容或低要求场景使用。模型名称单价免费额度（注）cosyvoice-v3-plus 2元/万字符...

图像画面扩展

当需调整图片尺寸以适配特定布局，或在不裁剪主体的前提下拓宽视野时，可使用图像画面扩展模型。该模型支持多种扩图方式：指定宽高比扩图指定横向或纵向扩展比例自定义上下左右各方向扩展像素数同时支持先旋转再扩图重要本文档仅适用...

Qwen-OCR 文字提取模型

本文介绍通过 OpenAI 兼容接口或 DashScope API 调用通义千问OCR 模型的输入与输出参数。相关文档：文字提取（Qwen-OCR）OpenAI 兼容北京地域 SDK 调用配置的 base_url 为：https://dashscope.aliyuncs.com/compatible-mode/v1 HTTP 调用...

通义千问-图像翻译

模型概览效果示例源语种：中文英文日文韩语西班牙语法语 模型与价格图像翻译功能支持中/英文与其他语种之间的互译，但不支持在非中/英语种之间直接翻译（例如，从日语翻译为韩语）。详情请参见支持的语种。详情请参见支持的语种。...

OpenAI兼容-Chat

阿里云百炼的通义千问模型支持 OpenAI 兼容接口，您只需调整 API Key、BASE_URL 和模型名称，即可将原有 OpenAI 代码迁移至阿里云百炼服务使用。兼容OpenAI需要信息 BASE_URL BASE_URL表示模型服务的网络访问点或地址。通过该地址，您可以...

Java SDK

模型与价格模型名称单价免费额度（注）cosyvoice-v3-plus 2元/万字符 2025年11月15日0点前开通阿里云百炼：2000字符 2025年11月15日0点后开通阿里云百炼：1万字符有效期：阿里云百炼开通后90天内 cosyvoice-v3-flash 1元/万字符 ...

通义万相-图生视频-视频特效

请务必参考特效列表-首帧生视频和特效列表-首尾帧生视频，确保所使用的 template 值与模型匹配。图生视频-基于首帧输入首帧输入提示词输入template 输出视频无需传入 flying 使用“魔法悬浮”特效图生视频-基于首尾帧输入首帧 ...

GUI-Plus 界面交互专用模型

本文介绍通过 OpenAI 兼容接口或 DashScope API 调用GUI-Plus模型的输入与输出参数。相关文档：界面交互专用模型（GUI-Plus）OpenAI 兼容 SDK 调用配置的 base_url 为：https://dashscope.aliyuncs.com/compatible-mode/v1 HTTP 调用配置...

Python SDK

模型与价格模型名称单价免费额度（注）cosyvoice-v3-plus 2元/万字符 2025年11月15日0点前开通阿里云百炼：2000字符 2025年11月15日0点后开通阿里云百炼：1万字符有效期：阿里云百炼开通后90天内 cosyvoice-v3-flash 1元/万字符 ...

估算大模型所需显存

大语言模型中通常采用2字节的精度存储梯度，因此7B的模型根据不同的微调训练方法，所需的显存为：微调训练方法训练机制适用场景 7B模型微调训练梯度所需显存（以1%参数计算、2字节存储）全参数微调需要训练的参数与模型本身参数相同算...

开始模型训练

预处理组件多方安全建模控制台支持将预处理组件与模型一起打包提交并参与部署。在模型提交页面，填写模型相关信息，单击提交。使用场景相同的模型，建议使用同一个服务名称，并通过版本号和服务描述区分不同的模型。

功能发布记录

2020-07-09 裁判文书解析服务使用教程 2020年6月项目类型功能名称功能描述发布时间相关文档实体抽取/简历抽取支持增量训练实体抽取与简历抽取模型支持增量训练，模型迭代更高效快捷 2020-06-18/所有文档解析与模型发布时间预估 ...

录音文件识别-Fun-ASR/Paraformer/SenseVoice

字幕生成：帮助媒体制作与后期编辑人员识别音视频材料并生成对应的字幕，加速后期制作的流程。市场研究与数据分析：将市场调研中收集到的消费者访谈、焦点小组讨论等录音数据，通过识别模型进行分析，提取消费者意见、偏好等信息，为企业...

在控制台进行模型调优

CPT（可选）→SFT→DPO（可选）CPT(持续预训练）-补知识（通用模型知识的“广度”和“浅度”，无法满足专业领域的“深度”和“精度”要求）金融模型：学金融术语医疗模型：记药品病理法律模型：懂法条判例 SFT(监督微调）-学做事客服...

产品简介

阿里云百炼是一站式大模型开发与应用平台，集成了通义千问及主流第三方模型。它为开发者提供了兼容OpenAI的API及全链路模型服务；同时，也提供可视化应用构建能力，让业务人员能快速创建智能体、知识库问答等AI应用。借助阿里云百炼，您...

通义万相-视频换人

效果示例通义万相-视频换人模型wan2.2-animate-mix提供标准模式 wan-std 和专业模式 wan-pro 两种服务模式，不同模式在效果和计费上存在差异，详情参见计费与限流。人物图片参考视频输出视频（标准模式 wan-std）输出视频（专业模式 ...

模型调用计费

影响计费的因素：若模型支持 Batch调用，其输入和输出Token单价均按实时推理价格的50%计费；若模型支持上下文缓存，仅输入Token享有折扣。两者不能同时生效。中国大陆（北京）模型名称模式单次请求的输入Token数输入单价（每千Token）...

大模型技术服务内容说明

基于公共云的大模型技术实施服务，包含数据准备、模型效果优化(含提示词工程优化实施、SFT实施)、大模型工程实施(含RAG工程设计与实施、Agent设计与实施)、集成指导、培训等，帮助客户快速启动大模型应用和在业务中应用大模型的产品技术...

鞋靴模特

特色优势效果业界领先：鞋靴模特生成图像语义一致性更精准，AI局部创作布局自然、细节丰富、画面细腻、结果逼真，又保持视觉效果的和谐与专业性，无需担心人工合成的痕迹。稳定、易用平台服务：提供在高并发、大流量下的稳定鞋靴模特生成...

产品简介

默认最优解与开放可调节默认最优模型链路集：专业领域优化的汽车ASR模型，结合qwen-plus，与增强语义理解和指令遵循的ccai-pro模型级联，实现全链路多模型调用的最优解。模型开放可选：ASR和分析模型有多种选择，满足各类业务偏好。计费...