白居业拓客训练营-白居业拓客训练营文档介绍内容-移动阿里云

概念解释

自定义模型自定义模型是基于您训练过的模型进行再次训练，从而调优模型效果，请注意，由于大模型的训练原理，多次训练模型时，后序训练易丢失前序训练已习得的能力，建议后序训练数据需要采样或保持前序训练数据。循环次数循环次数代表...

基于Kubernetes弹性训练

使用Horovod进行弹性训练 Horovod是一个用于分布式训练的开源工具，支持在Kubernetes上实现弹性训练。文档介绍了如何利用Horovod的分布式训练功能，结合Kubernetes的弹性扩缩容能力，优化模型训练的效率。您可以通过配置Horovod的分布式...

视频分类训练

针对原始视频数据，您可以使用视频分类训练算法组件对其进行模型训练，从而获得用于推理的视频分类模型。本文介绍视频分类训练算法组件的配置方法及使用示例。前提条件已开通OSS并完成授权，详情请参见开通OSS服务和云产品依赖与授权：...

模型列表

模型训练列表可查看最近的训练模型单工作空间仅允许一个货品推荐模型为运行态运行态包括：未开始、待训练、训练中、训练成功训练成功的模型下线之后不可修复训练失败您可对模型进行以下操作：点击模型详情，进入模型验证页，查看模型...

准备工作

为了方便您快速提交训练任务，您需要在创建训练任务前准备好所需的资源，并配置好可能需要使用的镜像、数据集和代码集。PAI支持添加文件系统NAS、CPFS或对象存储OSS类型的数据集以及Git代码集。本文介绍提交训练任务前所需的准备工作。前提...

图像分类训练（torch）

如果您的业务场景涉及图像分类，则可以通过图像分类训练（torch）组件构建图像分类模型，从而进行模型推理。本文为您介绍图像分类训练（torch）组件的配置方法及使用示例。前提条件已开通OSS并完成授权，详情请参见开通OSS服务和云产品...

基于抢占式实例的弹性训练

为降低使用AI模型训练成本，云原生AI套件推出基于抢占式实例的弹性训练解决方案，该方案可以将AI模型训练这种有状态类型的工作负载运行在抢占式实例上，几乎可以做到在不影响训练作业成功率的情况下降低训练成本。优势与限制基于抢占式...

在控制台进行模型调优

chosen":{"role":"assistant","content":"赞同的模型期望输出3","loss_weight":1.0},CPT 训练集 CPT 纯文本格式训练数据，一行训练数据展开后结构如下：{"text":"文本内容"} 训练数据集样例：CPT-文本生成训练集示例.jsonl 两种训练方式的...

功能特性

人工智能平台 PAI 功能集功能功能描述参考文档 AI计算资源管理灵骏智算资源灵骏智算资源是阿里云PAI提供的大规模高密度计算资源服务，为您提供高性能AI训练、高性能计算所需的异构计算算力服务，可用于PAI的训练任务。灵骏智算资源...

开始模型训练

完成隐私求交配置后，您可以基于准备好的数据训练模型，模型训练好且评审通过后可开始部署模型。前提条件已完成隐私求交配置，且已有运行成功的虚拟宽表。步骤一：新建模型工程进行模型训练之前，您需要先新建模型工程。登录多方安全建模...

图像度量学习训练（raw）

如果您的业务场景涉及度量学习，则可以通过图像度量学习训练（raw）组件构建度量学习模型，从而进行模型推理。本文为您介绍图像度量学习训练（raw）组件的配置方法和使用示例。前提条件已开通OSS并完成授权，详情请参见开通OSS服务和云...

图像检测训练（easycv）

图像检测训练（easycv）组件提供了主流的YOLOX和FCOS检测模型，用于目标检测的训练。若需在图像中标识并框选高风险实体，您可使用该组件构建目标检测模型，并进行推理分析。本文介绍图像检测训练（easycv）组件的配置方法和使用示例。前提...

PAI ArtLab LoRA模型训练实践

一般：Kohya中总训练次数=训练图片数量x重复次数x训练轮数/训练批量大小 WebUI中总训练次数=训练图片数量x重复次数使用类别图像时，在Kohya或在WebUI中总训练次数都会乘2；在Kohya中模型存储次数会减半。Save every N epochs 每N个训练...

API概览

GetTrainingJobLatestMetrics 获取训练任务最新指标 ListTrainingJobEvents 获取训练任务事件获取指定训练任务的事件，以帮助您详细了解训练过程中的信息。ListTrainingJobInstanceEvents 获取训练任务实例事件获取训练任务实例对应的...

智能圈选人群

PAI为您提供智能圈选人群功能，您可以通过策略训练任务选择使用内置的智能算法，对人群数据（训练数据）进行训练，生成圈选策略，再基于圈选策略通过人群圈选任务对人群数据（预测数据）进行智能筛选过滤，产出目标人群数据。...

快速开始：大模型继续预训练解决方案

单击训练，PAI-QuickStart自动跳转到模型训练页面，并开始进行训练，您可以查看训练任务状态和训练日志。（可选）将模型Checkpoint转换为HuggingFace格式 Qwen2-72B模型预训练格式为Megatron Dense Checkpoint。如果需要将此格式的...

模型部署及训练

Model Gallery 提供了多种预训练模型，帮助您快速上手并利用PAI进行模型的训练和部署。本文将详细介绍如何在 Model Gallery 中查找符合您业务需求的模型，以及如何进行模型的部署、调试和微调训练。前提条件进行微调或增量训练前，需创建...

AI加速使用案例汇总

分布式训练加速使用案例案例名称描述 NLP：TorchAcc提速BERT Base分布式训练在BERT-Base分布式训练中接入TorchAcc，实现训练加速。目标分类：TorchAcc提速ResNet-50分布式训练在ResNet-50分布式训练中接入TorchAcc，实现训练加速。目标...

模型配置

训练失败：模型训练达到24小时无结果时，自动停止训练，以及发生手动结束训练等情况时，为训练失败。鼠标移动到图标上将显示失败原因。已下线您可以对模型进行编辑、查看训练详情、手动更新、结束训练、下线等操作。编辑模型对于未开始...

MLP回归算法（训练）

配置组件在Designer工作流页面添加 MLP回归算法（训练）组件，并在界面右侧配置相关参数：参数类型参数是否必选默认值描述字段设置训练数据OSS路径否无若无上游OSS数据传入，需手动选择训练数据文件，示例：train_data.csv（格式...

管理训练任务

创建训练任务后，您可以对任务进行停止、克隆、分享、生成脚本和删除等管理操作。停止训练任务当任务配置错误、耗时过长或与其他任务产生资源冲突时，您可以在任务列表中，单击目标任务操作列下的停止，停止正在运行的任务。克隆训练...

实验管理

实验管理提供了通过TensorBoard可视化对比任务指标的功能，本文为您介绍如何在Model Gallery的微调训练任务中使用实验管理。前提条件如您需要使用TensorBoard进行指标可视化，则需要创建OSS Bucket存储空间，具体操作请参见控制台创建...

文本摘要训练

通过文本摘要训练组件，您可以训练出专业的模型，来自动执行诸如文本摘要和新闻标题生成等文本生成任务。本文为您介绍文本摘要训练组件的配置方法。使用限制仅支持DLC计算资源。模型结构文本（新闻标题）摘要训练组件的模型结构采用标准...

大语言模型微调指引

预训练的大语言模型（LLM）可能无法完全满足特定用户需求，因此需要通过微调来提升其在特定任务中的表现。通过微调，模型能够更精准地适应用户的具体应用场景。本文为您介绍微调LLM时的策略选择（SFT/DPO）、微调技术（全参/LoRA/QLoRA）...

一键微调DeepSeek-R1蒸馏模型

常见问题训练任务失败排查训练时请设置合适的 max_length（训练配置中的超参），训练算法中会对超过 max_length 的数据直接进行删除，并在任务日志中打印如下内容：有可能会出现删除数据过多导致训练/验证数据集为空，导致训练任务失败的...

模型调优简介

计费说明计费方式按训练的数据量计费计费公式模型训练费用=（训练数据 Token 总数+混合训练数据 Token 总数）×循环次数×训练单价（最小计费单位：1 token）您可以查看模型训练控制台底部的预估训练费用，并单击计算详情，查看训练...

AI任务管理

基于Kubernetes使用TensorFlow进行单机训练基于Kubernetes使用TensorFlow进行分布式训练使用Arena提交PyTorch单机训练作业使用Arena提交PyTorch分布式训练作业基于Kubernetes使用Horovod进行弹性训练 DeepSpeed分布式训练模型管理您...

召回定制分析器

训练历史：包含模型版本、配置信息、版本状态、训练开始时间、训练结束时间、引用索引，其中可对模型进行效果测试：效果对比支持典型case对比内容下载：功能限制该功能仅支持行业算法版-独享集群中应用；单个实例最多创建5个定制模型；...

什么是Deepytorch Training（训练加速）

Deepytorch Training是阿里云自研的AI训练加速器，为传统AI和生成式AI场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性等。Deepytorch Training介绍 Deepytorch Training面向传统AI和生成式AI场景，...

智能基线

说明智能基线训练算法每日凌晨执行后会更新智能基线的训练状态，如果基线状态为训练异常，您可在第二天查看智能基线状态是否为训练成功。训练成功：创建智能基线已达到14天，且最近14天的指标数据量与平均值达到训练标准，当日训练成功。...

排序配置

true则表示增量训练，我们后一天的训练会在前一天训练好的模型上继续训练。是否异步训练：在分布式训练中是否异步训练。样本权重：如果配置，则会对不同样本根据表达式获得权重，进而影响模型训练精度，一般不用。场景数据筛选：是否用某...

召回定制同义词

同义词模型即可创建完成：创建完成后，新创建的模型状态为模型不可用，最新版本状态为待训练，在定制召回模型列表页操作一栏中点击训练模型：说明模型训练根据数据量的大小不同、耗时也不同，一般数小时即可训练完成；模型可重复...

语言模型定制

阿里云智能语音交互对某些场景（包括通用、教育、司法、医疗等）进行了大量语音识别训练，提供了高准确率场景模型。当您的语音识别需求超出预设模型范畴，或是希望对现有的标准模型进行个性化定制时，可以通过自学习平台的语言模型定制功能...

类目预测功能介绍

带行为数据的模型训练，适用于已经上传行为数据，在开始训练前会自动做入口条件检查，确保数据量、数据质量、数据完整度都能达到要求，模型训练有如下步骤：说明使用历史query和类目信息，抽样生成样本数据，使用行为数据进行样本数据打...

LLM on DLC-Megatron on DLC最佳实践

预训练大语言模型面对来自模型规模和数据规模的多重挑战，为了解决这些问题，PAI提供了在 DLC 上使用Megatron-LM进行大语言模型预训练的最佳实践。该实践通过准备镜像环境与训练数据、调整训练策略、提交与管理任务等流程，帮助您在 DLC 上...

快速开始：Llama2系列模型部署及微调

如果您希望以零代码的方式在PAI上完成Llama2系列大语言模型的训练和推理，您可以使用快速开始的一键部署，快速启动Llama2系列模型的在线推理服务，并通过WebUI和API两种方式调用，或者使用自己的数据集对预训练模型进行微调训练，实现定制...

Model Gallery

Model Gallery是PAI产品组件，集成了众多AI开源社区中优质的预训练模型，并且基于开源模型支持零代码实现模型训练（微调）、模型压缩、模型评测、模型部署的全部过程，给您带来更快、更高效、更便捷的AI应用体验。功能介绍 PAI-Model ...

针对有异常标签的数据创建智能巡检任务

日志服务智能异常分析App提供模型训练和实时巡检功能，支持对日志、指标等数据进行自动化、智能化、自适应地模型训练和异常巡检。本文介绍如何为异常标签的数据，创建模型训练任务和实时巡检任务。数据样例本文基于如下数据样例，创建模型...

图片分类

在Model Gallery中，您可以选择直接部署开源的预训练图片分类模型，或针对定制化场景，使用自己的数据集对预训练模型进行微调训练，并使用微调训练模型将图片分类成定制化的类别。本文为您介绍如何使用Model Gallery执行图片分类任务。前提...

针对无标签数据创建智能巡检任务

日志服务智能异常分析App提供模型训练和实时巡检功能，支持对日志、指标等数据进行自动化、智能化、自适应地模型训练和异常巡检。本文介绍如何为无标签的数据，创建模型训练任务和实时巡检任务。数据样例本文基于如下数据样例，创建模型...