大数据与人工智能实训平台开源工具-大数据与人工智能实训平台开源工具文档介绍内容-移动阿里云

考试中心

管理员可以通过考试中心培训及考核新标注人员，验证学习成效，确保标注人员掌握必备知识与技能，以提升标注的准确性与一致性，筛选合格人员。同时，考试中心也能服务于持续教育与技能强化。本文介绍如何创建、关联和处理考试等相关操作。...

人工智能平台 PAI

人工智能平台 PAI（Platform of Artificial Intelligence）面向企业客户及开发者，提供轻量化、高性价比的云原生人工智能，涵盖DSW交互式建模、Designer拖拽式可视化建模、DLC分布式训练到EAS模型在线部署的全流程。

CLI集成示例

本文以调用 人工智能平台PAI-AI工作空间 ListWorkspaces 接口，获取工作空间列表为例，为您介绍使用阿里云CLI调用 人工智能平台 PAI（Platform for AI）OpenAPI的操作步骤。前置概念阿里云CLI（Alibaba Cloud Command Line Interface）是...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

智能标注（iTAG）计费说明

iTAG是一款智能化数据标注平台，支持传统机器学习数据标注（图像、文本、视频、音频）和多模态大模型数据标注（文本问答、VQA对话、图文描述等），也支持纯人工标注和智能标注服务辅助的自动化标注。iTAG计费详情如下：如果使用iTAG进行纯...

授权信息

操作 API 访问级别资源类型条件关键字关联操作暂无数据资源（Resource）下表是 人工智能平台 PAI（PAI）定义的资源，这些资源可以在RAM权限策略语句的 Resource 元素中使用，用来授予对该资源执行具体操作的权限。其中，资源ARN是资源...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为 开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

授权信息

本文为您介绍 开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 starrocks,sr，支持的授权粒度为操作级。权限策略通用结构 ...

数据安全

数据存储介质可用性说明对象存储 OSS 安全与合规文件存储 NAS 功能特性云盘云盘概述云原生大数据计算服务 MaxCompute 数据存储说明数据备份与恢复 PAI支持镜像方式进行用户环境、数据集等的备份与恢复。您可以对创建的实例保存镜像...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

API概览

本产品（人工智能平台 PAI-数据集加速器/2022-08-01）的OpenAPI采用 ROA 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

工作流 API

PAI-Flow工作流API是阿里云人工智能平台PAI提供的官方编程接口。本文深度解析了工作流的创建、运行、管理与监控等全生命周期操作的API，助您构建高效、稳健的自动化AI建模与部署流水线。

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

Model Gallery

Model Gallery是PAI产品组件，集成了众多AI开源社区中优质的预训练模型，并且基于开源模型支持零代码实现模型训练（微调）、模型压缩、模型评测、模型部署的全部过程，给您带来更快、更高效、更便捷的AI应用体验。功能介绍 PAI-Model ...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

计费常见问题

本文权威汇总了人工智能平台PAI的计费常见问题，详细说明了各项服务的计费规则、停止计费的具体操作，并解释了账单延迟与异常扣费的原因，助您精准控制成本，避免不必要的开销。

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

DLC常见问题

本文权威解答人工智能平台PAI的DLC模块常见问题，深入解析错误码137、多机多卡设置、模型下载、资源限制等核心疑问，助您快速定位并扫清训练障碍，提升开发效率。

数据传输方案

准备好智能圈选数据后，您可以使用阿里云对象存储OSS或DataWorks两种传输方案上传数据。使用阿里云对象存储OSS（推荐）重要使用OSS前，请在网页端授权OSS访问权限，并为需要访问的OSS Bucket添加 pai=plugin 标签，具体操作，请参见管理...

计算源

人工智能平台PAI：Dataphin对接了 人工智能平台 PAI，为您提供了人工智能平台PAI基础的算法调度能力。在人工智能平台中，创建可视化建模的工作空间时，资源请选择基于MaxCompute的计算资源组，详情请参见 AI计算资源概述。Hologres加速计算...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择 开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

选择业务场景

若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别，帮助您快速选型。业务场景选型业务场景（集群类型）支持的组件核心能力适用场景数据湖...

Superset（仅对存量用户开放）

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库，包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库，以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

授权信息

本文为您介绍 人工智能平台 PAI（PaiStudio）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。人工智能平台 PAI（PaiStudio）的RAM代码（RamCode）为 pai、paidesigner、paiartlab，支持的授权粒度为操作级。...

个性化触达时间配置说明

目录要求与常规智能圈选输入数据的要求相同，目录结构如下：行为维表（behavior）数据为个性化触达时间建模的主要数据来源，运营记录维表（operation）数据为个性化触达时间建模的辅助数据来源。行为维表和运营记录维表的内容要求行为...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

Druid（仅对存量用户开放）

Apache Druid是一个分布式内存实时分析系统，用于解决如何在大规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点：支持亚秒级的交互式查询。例如，多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

数据开发工作台（已停止新购）

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

数据类型

本文为您介绍特征平台（PAI-FeatureStore）支持的数据类型，以及与各个数据源之间的数据类型映射关系。基础数据类型特征平台已支持的基础数据类型列表如下。数据类型说明 INT32 32位有符号整型。INT64 64位有符号整型。FLOAT 32位二进制...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

API概览

本产品（人工智能平台 PAI-特征平台/2023-06-21）的OpenAPI采用 ROA 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能...

EMR旧版数据开发迁移公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态。如果您还在使用旧版控制台的数据开发功能，请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...