综合认知训练-综合认知训练文档介绍内容-移动阿里云

模型列表

模型训练列表可查看最近的训练模型单工作空间仅允许一个货品推荐模型为运行态运行态包括：未开始、待训练、训练中、训练成功训练成功的模型下线之后不可修复训练失败您可对模型进行以下操作：点击模型详情，进入模型验证页，查看模型...

准备工作

为了方便您快速提交训练任务，您需要在创建训练任务前准备好所需的资源，并配置好可能需要使用的镜像、数据集和代码集。PAI支持添加文件系统NAS、CPFS或对象存储OSS类型的数据集以及Git代码集。本文介绍提交训练任务前所需的准备工作。前提...

图像分类训练（torch）

如果您的业务场景涉及图像分类，则可以通过图像分类训练（torch）组件构建图像分类模型，从而进行模型推理。本文为您介绍图像分类训练（torch）组件的配置方法及使用示例。前提条件已开通OSS并完成授权，详情请参见开通OSS服务和云产品...

基于抢占式实例的弹性训练

为降低使用AI模型训练成本，云原生AI套件推出基于抢占式实例的弹性训练解决方案，该方案可以将AI模型训练这种有状态类型的工作负载运行在抢占式实例上，几乎可以做到在不影响训练作业成功率的情况下降低训练成本。优势与限制基于抢占式...

在控制台进行模型调优

chosen":{"role":"assistant","content":"赞同的模型期望输出3","loss_weight":1.0},CPT 训练集 CPT 纯文本格式训练数据，一行训练数据展开后结构如下：{"text":"文本内容"} 训练数据集样例：CPT-文本生成训练集示例.jsonl 两种训练方式的...

开始模型训练

完成隐私求交配置后，您可以基于准备好的数据训练模型，模型训练好且评审通过后可开始部署模型。前提条件已完成隐私求交配置，且已有运行成功的虚拟宽表。步骤一：新建模型工程进行模型训练之前，您需要先新建模型工程。登录多方安全建模...

图像度量学习训练（raw）

如果您的业务场景涉及度量学习，则可以通过图像度量学习训练（raw）组件构建度量学习模型，从而进行模型推理。本文为您介绍图像度量学习训练（raw）组件的配置方法和使用示例。前提条件已开通OSS并完成授权，详情请参见开通OSS服务和云...

图像检测训练（easycv）

图像检测训练（easycv）组件提供了主流的YOLOX和FCOS检测模型，用于目标检测的训练。若需在图像中标识并框选高风险实体，您可使用该组件构建目标检测模型，并进行推理分析。本文介绍图像检测训练（easycv）组件的配置方法和使用示例。前提...

PAI ArtLab LoRA模型训练实践

一般：Kohya中总训练次数=训练图片数量x重复次数x训练轮数/训练批量大小 WebUI中总训练次数=训练图片数量x重复次数使用类别图像时，在Kohya或在WebUI中总训练次数都会乘2；在Kohya中模型存储次数会减半。Save every N epochs 每N个训练...

API概览

GetTrainingJobLatestMetrics 获取训练任务最新指标 ListTrainingJobEvents 获取训练任务事件获取指定训练任务的事件，以帮助您详细了解训练过程中的信息。ListTrainingJobInstanceEvents 获取训练任务实例事件获取训练任务实例对应的...

智能圈选人群

PAI为您提供智能圈选人群功能，您可以通过策略训练任务选择使用内置的智能算法，对人群数据（训练数据）进行训练，生成圈选策略，再基于圈选策略通过人群圈选任务对人群数据（预测数据）进行智能筛选过滤，产出目标人群数据。...

快速开始：大模型继续预训练解决方案

单击训练，PAI-QuickStart自动跳转到模型训练页面，并开始进行训练，您可以查看训练任务状态和训练日志。（可选）将模型Checkpoint转换为HuggingFace格式 Qwen2-72B模型预训练格式为Megatron Dense Checkpoint。如果需要将此格式的...

模型部署及训练

Model Gallery 提供了多种预训练模型，帮助您快速上手并利用PAI进行模型的训练和部署。本文将详细介绍如何在 Model Gallery 中查找符合您业务需求的模型，以及如何进行模型的部署、调试和微调训练。前提条件进行微调或增量训练前，需创建...

AI加速使用案例汇总

分布式训练加速使用案例案例名称描述 NLP：TorchAcc提速BERT Base分布式训练在BERT-Base分布式训练中接入TorchAcc，实现训练加速。目标分类：TorchAcc提速ResNet-50分布式训练在ResNet-50分布式训练中接入TorchAcc，实现训练加速。目标...

模型配置

训练失败：模型训练达到24小时无结果时，自动停止训练，以及发生手动结束训练等情况时，为训练失败。鼠标移动到图标上将显示失败原因。已下线您可以对模型进行编辑、查看训练详情、手动更新、结束训练、下线等操作。编辑模型对于未开始...

MLP回归算法（训练）

配置组件在Designer工作流页面添加 MLP回归算法（训练）组件，并在界面右侧配置相关参数：参数类型参数是否必选默认值描述字段设置训练数据OSS路径否无若无上游OSS数据传入，需手动选择训练数据文件，示例：train_data.csv（格式...

管理训练任务

创建训练任务后，您可以对任务进行停止、克隆、分享、生成脚本和删除等管理操作。停止训练任务当任务配置错误、耗时过长或与其他任务产生资源冲突时，您可以在任务列表中，单击目标任务操作列下的停止，停止正在运行的任务。克隆训练...

实验管理

实验管理提供了通过TensorBoard可视化对比任务指标的功能，本文为您介绍如何在Model Gallery的微调训练任务中使用实验管理。前提条件如您需要使用TensorBoard进行指标可视化，则需要创建OSS Bucket存储空间，具体操作请参见控制台创建...

文本摘要训练

通过文本摘要训练组件，您可以训练出专业的模型，来自动执行诸如文本摘要和新闻标题生成等文本生成任务。本文为您介绍文本摘要训练组件的配置方法。使用限制仅支持DLC计算资源。模型结构文本（新闻标题）摘要训练组件的模型结构采用标准...

大语言模型微调指引

预训练的大语言模型（LLM）可能无法完全满足特定用户需求，因此需要通过微调来提升其在特定任务中的表现。通过微调，模型能够更精准地适应用户的具体应用场景。本文为您介绍微调LLM时的策略选择（SFT/DPO）、微调技术（全参/LoRA/QLoRA）...

参数配置指导

适用范围常规训练设置：数据参数常规训练设置：模型参数常规训练设置：训练参数加速开关设置：MoE稀疏训练加速开关设置：混合精度训练加速开关设置：模型状态切分（ZeRO，OSS，SDP，FSDP）加速开关设置：3D混合并行（Data，Tensor，...

AI任务管理

基于Kubernetes使用TensorFlow进行单机训练基于Kubernetes使用TensorFlow进行分布式训练使用Arena提交PyTorch单机训练作业使用Arena提交PyTorch分布式训练作业基于Kubernetes使用Horovod进行弹性训练 DeepSpeed分布式训练模型管理您...

召回定制分析器

训练历史：包含模型版本、配置信息、版本状态、训练开始时间、训练结束时间、引用索引，其中可对模型进行效果测试：效果对比支持典型case对比内容下载：功能限制该功能仅支持行业算法版-独享集群中应用；单个实例最多创建5个定制模型；...

什么是Deepytorch Training（训练加速）

Deepytorch Training是阿里云自研的AI训练加速器，为传统AI和生成式AI场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性等。Deepytorch Training介绍 Deepytorch Training面向传统AI和生成式AI场景，...

智能基线

说明智能基线训练算法每日凌晨执行后会更新智能基线的训练状态，如果基线状态为训练异常，您可在第二天查看智能基线状态是否为训练成功。训练成功：创建智能基线已达到14天，且最近14天的指标数据量与平均值达到训练标准，当日训练成功。...

排序配置

true则表示增量训练，我们后一天的训练会在前一天训练好的模型上继续训练。是否异步训练：在分布式训练中是否异步训练。样本权重：如果配置，则会对不同样本根据表达式获得权重，进而影响模型训练精度，一般不用。场景数据筛选：是否用某...

召回定制同义词

同义词模型即可创建完成：创建完成后，新创建的模型状态为模型不可用，最新版本状态为待训练，在定制召回模型列表页操作一栏中点击训练模型：说明模型训练根据数据量的大小不同、耗时也不同，一般数小时即可训练完成；模型可重复...

语言模型定制

阿里云智能语音交互对某些场景（包括通用、教育、司法、医疗等）进行了大量语音识别训练，提供了高准确率场景模型。当您的语音识别需求超出预设模型范畴，或是希望对现有的标准模型进行个性化定制时，可以通过自学习平台的语言模型定制功能...

LLM on DLC-Megatron on DLC最佳实践

预训练大语言模型面对来自模型规模和数据规模的多重挑战，为了解决这些问题，PAI提供了在 DLC 上使用Megatron-LM进行大语言模型预训练的最佳实践。该实践通过准备镜像环境与训练数据、调整训练策略、提交与管理任务等流程，帮助您在 DLC 上...

快速开始：Llama2系列模型部署及微调

如果您希望以零代码的方式在PAI上完成Llama2系列大语言模型的训练和推理，您可以使用快速开始的一键部署，快速启动Llama2系列模型的在线推理服务，并通过WebUI和API两种方式调用，或者使用自己的数据集对预训练模型进行微调训练，实现定制...

Model Gallery

Model Gallery是PAI产品组件，集成了众多AI开源社区中优质的预训练模型，并且基于开源模型支持零代码实现模型训练（微调）、模型压缩、模型评测、模型部署的全部过程，给您带来更快、更高效、更便捷的AI应用体验。功能介绍 PAI-Model ...

功能发布记录

2022-07-08 司法裁判文书（事实认定）2022年06月项目类型功能名称功能描述发布时间相关文档商品评价解析-增量训练自学习模型支持用户在平台商品评价解析预训练模型（电商领域、汽车领域、本地生活领域）的基础上，自定义需要增加的...

针对有异常标签的数据创建智能巡检任务

日志服务智能异常分析App提供模型训练和实时巡检功能，支持对日志、指标等数据进行自动化、智能化、自适应地模型训练和异常巡检。本文介绍如何为异常标签的数据，创建模型训练任务和实时巡检任务。数据样例本文基于如下数据样例，创建模型...

图片分类

在Model Gallery中，您可以选择直接部署开源的预训练图片分类模型，或针对定制化场景，使用自己的数据集对预训练模型进行微调训练，并使用微调训练模型将图片分类成定制化的类别。本文为您介绍如何使用Model Gallery执行图片分类任务。前提...

针对无标签数据创建智能巡检任务

日志服务智能异常分析App提供模型训练和实时巡检功能，支持对日志、指标等数据进行自动化、智能化、自适应地模型训练和异常巡检。本文介绍如何为无标签的数据，创建模型训练任务和实时巡检任务。数据样例本文基于如下数据样例，创建模型...

机器阅读理解训练

您可以使用该组件训练机器阅读理解模型，针对给定的文档及问题，进行快速理解与问答，实现基于文档的智能问答。本文为您介绍该组件的参数配置与使用示例。使用限制支持运行的计算资源为DLC。可视化配置组件参数输入桩输入桩（从左到右）...

分布式训练框架StarServer

分布式训练框架用于加速模型训练、处理海量数据并提高系统稳定性和资源利用率。它通过将模型分布在多个计算节点上实现并行计算，从而缩短训练时间，适应大数据集和大模型的训练需求。本文介绍如何使用分布式训练框架StarServer进行分布式...

参考：性能基准评测

方案吞吐（samples/s）Peak Memory（MB）无加速技术 OOM OOM 混合精度训练 9.57+-0.26 25061 混合精度训练+oss模型状态切分 6.02+-0.06 22077 混合精度训练+oss/sdp模型状态切分 7.01+-0.07 17113 混合精度训练+fsdp模型状态切分 NA NA ...

增量训练

商品评价解析-增量训练，支持用户在平台商品评价解析预训练模型（电商领域、汽车领域、本地生活领域）的基础上，自定义需要增加的标签，用户只需要训练增加的标签，即可得到一个完整的解析模型；如当前支持的领域、行业不满足您的需求，请...

安装和使用Deepytorch Training

Deepytorch Training是阿里云自研的AI加速器，面向传统AI和生成式AI场景，在模型训练过程中，可提供显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。说明关于Deepytorch Training的更多信息，请参见什么是...