学习人工智能大数据-学习人工智能大数据文档介绍内容-移动阿里云

超级X（智能应用）

Dataphin提供数据开发、治理、运营一体化全链路的超级X智能解决方案，当前支持X-数据工程、X-分析、X-运维助手及X-编码助手（Copilot）等核心能力，提供全链路数据服务。X-数据工程根据自然语言，自动生成多种任务（集成任务、数据模型和...

超级X（智能应用）

Dataphin提供数据开发、治理、运营一体化全链路的超级X智能解决方案，当前支持X-数据工程、X-分析、X-运维助手及X-编码助手（Copilot）等核心能力，提供全链路数据服务。X-数据工程根据自然语言，自动生成多种任务（集成任务、数据模型和...

标注模板

iTAG模板类型介绍 iTAG智能数据标注平台提供了以下三种类型的模板：官方模板（推荐）官方模板是由阿里云PAI官方提供的预置标准标注模板。这些模板通常覆盖了常见的标注场景，如图文解释、对话排序、视觉问答、视频OCR等。您可以直接选用...

智能联络机器人

智能联络机器人是基于自动语音识别（Automatic Speech Recognition，ASR）、文字转语音（Text To Speech，TTS）以及自然语言理解（Natural Language Understanding，NLU）等技术，面向企业客户提供的一款智能客服机器人产品。智能联络机器...

AI开源项目

阿里云的AI及大数据开源项目包括用于全自动分布式深度学习系统的TePDist和NLP开发与应用工具包EasyNLP，您可以根据需要选择合适的项目。PAI相关的开源项目信息请前往阿里云大数据&AI开源项目。

iTAG常见问题

解决方法如下：仅支持iTAG数据标注格式的数据集，请参考iTAG数据集创建方法，来创建数据集，详情请参见创建数据集：用于数据标注。请检查已创建的数据集格式是否正确，详情请参见标注文件格式说明。Q：创建iTAG数据集时，为什么OSS ...

图像度量学习训练（raw）

使用读OSS数据-4 和读OSS数据-5 组件分别训练数据标注结果文件和验证数据标注结果文件，即配置读OSS数据组件的 OSS数据路径参数为存放训练数据标注结果文件和验证数据标注结果文件的OSS路径。将以上2个读OSS数据组件接入图像度量...

图生文

图生文模板支持SAM（Segment Anything Model）及自研分割算法快速分割图形，结合大语言模型的语义理解与文本生成能力，帮助用户构建智能化标注工作流程，显著提升多模态内容生产效率。数据格式示例说明 CSV 及 XLSX 格式中每一列数据；...

异常指标监控

如果能实时高效地监控平台指标，并对各种异常指标进行预防和实时预警，将大幅度提升平台的智能化安全防卫能力。解决方案 PAI提供了一套基于指标监控的分类算法，将异常指标监控抽象为二分类场景，并将监控模型部署至在线系统，从而实现近线...

多模态RLHF标注

多模态RLHF（Reinforcement Learning from ...构建奖励模型（Reward Model）ChatGPT目前主要采用的是排序（Ranking）方法评估并筛选SFT模型的输出结果，采用监督式学习优化技术（Supervised Learning with Ordered or Rankings...

Dataphin亮点功能早知道

研发功能演示描述数据传输的加解密安全亮点功能-数据传输的加解密加解密是通过数据学算法将数据在明文和密文之间进行转换，可保障数据在传输和存储过程中避免泄露和篡改的风险，Dataphin数据集成加解密功能，通过自动化加密解密流程...

基于外卖评论实现舆情风控

商家的评论反馈平台每天都会产生大量留言，传统的方式是通过人工统计进行舆论情绪收集。该方式不仅效率低，而且很难针对大规模舆论进行精确统计，因此需要自动化方式收集并判断留言的舆论导向。PAI平台提供了一套基于文本向量化及分类的...

应用场景

智算服务 PAI-灵骏是面向大规模深度学习及融合智算的PaaS产品，基于软硬件一体优化技术，构建高性能异构算力底座，提供AI工程化全流程能力，具备高性能、高效率、高利用率等核心优势，满足高性能计算等领域需求，在大模型训练、自动驾驶、...

计算源

人工智能平台PAI：Dataphin对接了 人工智能平台 PAI，为您提供了人工智能平台PAI基础的算法调度能力。在人工智能平台中，创建可视化建模的工作空间时，资源请选择基于MaxCompute的计算资源组，详情请参见 AI计算资源概述。Hologres加速计算...

智能推荐标准定义

标准定义基于圈选的数据表通过大模型结合语义分析，识别核心字段，针对核心字段进行数据探查，从而智能抽取标准定义，您可对标准执行编辑、应用、弃用等操作。本文为您介绍如何配置智能抽取标准定义。前提条件需购买数据标准功能和X-数据...

智能抽取码表定义

码表定义基于圈选的数据表通过大模型结合语义分析，识别核心字段，针对核心字段进行数据探查，从而智能抽取码表定义，您可对码表执行编辑、应用、弃用等操作。本文为您介绍如何配置智能抽取码表定义。前提条件需购买数据标准功能和X-数据...

查看资产全景

人工智能平台PAI模型训练绑定的MaxCompute项目的数据量、外部项目计算源的数据量不纳入计算。仅统计生产项目（包括Prod和Basic项目），T+1更新。总数据表数：生产环境所有物理表和逻辑表总数，实时更新。总项目数：生产项目数（包括Prod和...

可视化分析

可视化分析能够将数据转化为图形和图表，以直观、易懂的方式展示复杂的数据和分析结果，帮助您快速获取关键信息，识别趋势和模式，从而更高效地进行分析和决策。本文为您介绍Designer的两种可视化分析工具：可视化大屏和TensorBoard。简介 ...

查看指标大盘

iTAG通过指标大盘展示数据标注、检查、验收的数据指标。在指标大盘页面，您可以从总体数据、业务维度、任务维度和人员维度查看数据指标。本文为您介绍如何查看指标大盘。操作步骤进入智能标注（iTAG）。登录 PAI控制台。在左侧导航栏单击 ...

功能特性

高性能数据主动加载加速软件KSpeed 灵骏基于高性能网络RDMA和高性能通信ACCL，研发高性能数据主动加载加速软件KSpeed，进行智能数据IO优化。计算存储分离架构广泛存在于AI、HPC、大数据业务场景中，但大量训练数据的加载容易形成效率瓶颈。...

NIM模型使用指引

阿里云人工智能平台PAI是NVIDIA授权的中国NIM合作伙伴。NIM是英伟达推出的一套易于使用的预构建容器工具，目的是帮助企业客户在云、数据中心和工作站上安全、可靠的部署高性能的Al模型推理。NIM模型是通过NIM优化工具加工的性能优化后模型...

Designer推荐算法定制方案

在推荐场景中，深度学习具有很多优点，包括可以处理大规模的数据和复杂的模型，能够捕捉更高层次的特征信息，同时能够自动化特征工程和模型选择等过程，从而提高推荐效果和用户满意度。PAI在Designer中将EasyRec的核心功能封装成了可拖拽...

购买指引-全托管

以适配不同场景、不同数据体量客户的诉求：智能研发版：支持离线研发和实时研发场景，可创建生产开发隔离的双环境项目，提供智能建模、逻辑运维等特色功能，适用于数据量丰富、权限管控严格、具备专业大数据开发团队的企业用户。...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

个性化触达时间配置说明

目录要求与常规智能圈选输入数据的要求相同，目录结构如下：行为维表（behavior）数据为个性化触达时间建模的主要数据来源，运营记录维表（operation）数据为个性化触达时间建模的辅助数据来源。行为维表和运营记录维表的内容要求行为...

升级

请您仔细核对购买信息并阅读 智能数据建设与治理服务协议，确认无误后选中 智能数据建设与治理服务协议。单击去支付，支付成功后即可开始升级开通增值功能包。正在通过升级开通增值功能包的Dataphin实例，在Dataphin管理控制台页面，显示 ...

API概览

本产品（人工智能平台 PAI-工作流/2021-02-02）的OpenAPI采用 ROA 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足...

DLC概述

大规模分布式训练支持使用多种开源深度学习框架进行离线大规模分布式深度训练。DLC支持上千个节点同时训练，显著缩短训练时间。离线推理通过DLC可以离线对模型进行离线推理，有效增加闲时GPU机器使用率，大大降低资源浪费。相关文档创建...

数据安全

数据存储安全 PAI提供数据集管理模块，支持导入公共数据集、阿里云云产品中的数据等创建为数据集，也支持扫描OSS文件夹生成索引数据集，为智能标注、模型训练做准备。读取和存储数据至OSS及NAS，实现数据集、模型等数据文件的存储安全。...

Terraform

人工智能平台PAI支持接入Terraform，您可以基于Terraform平台使用和管理PAI资源。背景信息基本功能 Terraform是一种基础设施即代码（Infrastructure as Code）工具，可以通过编写简洁的代码来定义和配置云端基础设施，而不必手动操作和...

智能标注预标注数据

iTAG可以开启智能标注，使用离线标注的结果预标注数据，然后在正式标注时，仅需要对预标注结果进行校验和修正，从而提升标注效率。步骤一：创建具有离线预标注结果的数据集准备离线预标注文件。方式一：从标注任务中获取标注结果进入智能...

导出标注结果数据

处理完成标注任务后，您可以将标注结果导出至指定的OSS目录，也可以将标注结果同时创建为一个数据集，从而便于后续直接用于模型训练。本文介绍如何导出标注结果，以及如何查看导出的进度与结果。前提条件已完成任务标注，详情请参见处理...

处理标注任务

创建标注任务后，您需要按照任务流程为任务包进行打标、检查或验收，从而获得标注好的数据，为模型训练做准备。本文为您介绍如何处理标注任务，其他类型的标注任务操作类似。前提条件管理员已分配标注任务，详情请参见创建标注任务。使用...

分布式训练加速（TorchAcc）

产品架构深度学习框架按照执行模式可分为两个大的类别：graph mode：以TensorFlow 1.*为代表的框架采用graph mode的方式运行。其优点是系统优化友好、面向生产、训推一体，而缺点是面向用户不够友好、代码撰写不够灵活、开发和Debug困难。...

创建数据集

在创建标注任务时，需要选择数据集。本文为您介绍如何创建用于数据标注的数据集，以及数据集的具体格式要求。前提条件使用主账号开通PAI并创建工作空间。登录 PAI控制台，左上角选择开通区域，然后一键授权和开通产品。标注数据必须最终...

人员角色分配

iTAG 定义了三种核心人员角色：管理员、标注组长和标注员，用来管理数据标注过程中的用户权限，以确保数据和标注流程的安全与高效。您可以为RAM用户或阿里云账号添加相关角色，使其拥有对应的操作权限。角色权限说明管理员、标注组长及...

API概览

本产品（人工智能平台 PAI-用户增长/2022-01-12）的OpenAPI采用 ROA 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能...

资产清单概述

整体概述 Dataphin的数据资产功能，基于数据资产管理的规范及方法论，帮助您对数据资产进行盘点评估：支持自动化提取分析元数据，可视化构建数据资产大图，便于管理者发现与了解数据资产价值。支持对数据生产中的计算、存储、安全、应用等...

资产清单概述

整体概述 Dataphin的数据资产功能，基于数据资产管理的规范及方法论，帮助您对数据资产进行盘点评估：支持自动化提取分析元数据，可视化构建数据资产大图，便于管理者发现与了解数据资产价值。支持对数据生产中的计算、存储、安全、应用等...

API概览

本产品（人工智能平台 PAI-分布式训练（DLC）/2020-12-03）的OpenAPI采用 ROA 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有...

学习人工智能 大数据

学习人工智能大数据