大数据与人工智能实训平台开源工具-大数据与人工智能实训平台开源工具文档介绍内容-移动阿里云

SmartData 3.6.x版本简介

SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文为您介绍SmartData（3.6.x）版本的更新内容。JindoFS 此版本中JindoFS的新特性如下表所示。特性描述 JindoFS支持多云和S3协议及缓存加速 JindoFS实现对S3协议的支持，具备访问...

安全责任共担

EMR on ECS的安全责任由阿里云、客户双方共同承担，本文介绍阿里云与客户在安全性方面各自应该承担的责任。阿里云安全责任阿里云负责保障平台自身安全。责任包括：针对阿里云安全中心发现的EMR大数据服务组件安全漏洞，发布相关公告，并...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...

图像生成训练

支持的计算资源 DLC 输入/输出输入桩通过读OSS数据组件，读取训练数据所在的OSS路径。配置此算法参数训练图片所在OSS目录，选择图像数据所在的OSS目录。输出桩训练生成的模型，保存地址对应算法参数模型输出路径。关于参数详细说明...

导出标注结果数据

处理完成标注任务后，您可以将标注结果导出至指定的OSS目录，也可以将标注结果同时创建为一个数据集，从而便于后续直接用于模型训练。本文介绍如何导出标注结果，以及如何查看导出的进度与结果。前提条件已完成任务标注，详情请参见处理...

命令列表

您可以通过客户端工具管理 DLC 中的任务和数据。本文介绍客户端工具提供的常用命令。客户端工具提供了用户认证等命令，命令列表如下。类别命令准备工作自动补全（completion）用户认证（config）提交命令提交TensorFlow训练任务...

查看集群信息

在创建集群以后，您可以查看数据概览和操作日志。查看数据概览登录灵骏控制台。在左侧导航栏，选择数据大盘数据概览。您可以在数据概览页面，查看集群数、分组数等信息。查看操作日志登录灵骏控制台。在左侧导航栏，选择数据大盘 ...

缺失值填充训练

可视化配置参数【输入桩配置】输入桩（从左到右）限制数据类型建议上游组件是否必选数据存储在MaxCompute或OSS的结构化数据读数据表读OSS数据是【右侧参数表单】页签参数描述字段设置选择的列名选择需要填充缺失值的列名，仅...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

数据大盘

在左侧导航栏，单击数据大盘数据概览。您可以在数据概览页面查看集群数、分组数等基本信息，以及使用率汇总、集群磁盘信息、集群网络带宽使用等趋势图。查看操作日志在左侧导航栏，单击数据大盘操作日志。您可以在事件查询页签，...

标准化批预测

标准化批预测是一种用于数据预处理的机器学习算法，旨在对批量数据进行标准化处理，以降低不同列数据量级和范围的影响。该算法假设数据符合正态分布，通过均值和方差对数据进行标准化，将不同列的数据映射到相同的范围内，从而提高模型训练...

Flume

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非结构化数据的高效存储与访问。涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写...

EMR on ACK计费说明

通过阅读本文，您可以快速了解EMR on ACK的计费资源和相关产品计费等信息。计费资源 2024年04月01日起阿里云E-MapReduce（简称EMR）on...容器服务Kubernetes 基于ACK的资源安装部署大数据服务组件，并在容器内运行。收费详情请参见产品计费。

InstanceType

Big data：大数据型。Local SSDs：本地 SSD 型。High Clock Speed：高主频型。Enhanced：增强型。Shared：共享型。Compute-optimized with GPU：GPU 计算型。Visual Compute-optimized：视觉计算型。Heterogeneous Service：异构服务型。...

创建数据集

在创建标注任务时，需要选择数据集。本文为您介绍如何创建用于数据标注的数据集，以及数据集的具体格式要求。前提条件使用主账号开通PAI并创建工作空间。登录 PAI控制台，左上角选择开通区域，然后一键授权和开通产品。标注数据必须最终...

过滤与映射

过滤与映射组件是一种数据预处理工具，通过用户定义的过滤表达式筛选出符合条件的记录，并允许修改输出字段的名称。这一功能在数据清洗和特征工程阶段非常有用，能够有效地清理数据并准备适合后续分析和建模的数据集。配置组件方式一：...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

RAG

文档描述大模型RAG对话系统为您介绍如何搭建大模型RAG对话系统。RAG（Retrieval-Augmented Generation）技术架构的核心为检索和生成：在检索方面，EAS支持多种向量检索库，包括开源的Faiss 和阿里云的Milvus、Elasticsearch、Hologres、...

探索（模板市场）

AI应用模板模板实践文档文档内容洞察助手基于LangStudio&搜索MCP服务搭建文档智能问答Agent应用音频总结助手基于LangStudio&语音识别服务搭建音频内容智能总结助手 智能数据Agent 基于LangStudio&Hologres构建ChatBI数据分析Agent...

标准化训练

在数据预处理中，为了降低不同列的数据量级和范围大小带来的影响，需要将各列数据进行标准化操作。标准化之后，不同列的数据都会被限定到同一个数据范围内。标准化组件假设数据符合正态分布。使用限制支持的计算引擎为MaxCompute和Flink。...

管理日志

使用限制本文操作仅适用于数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）和数据湖（Hadoop）场景的集群。支持日志投递的服务有hdfs、yarn、yarn_application、hive、spark、jindodata、tez、...

内置函数

Serverless Spark 内置了多种函数，能够满足大部分数据处理需求。本文将为您介绍 Serverless Spark 内置提供的函数及其使用说明。支持的版本仅Serverless Spark以下引擎版本支持本文Serverless Spark特有的内置函数：esr-4.x：esr-4.4.0及...

EMR元数据迁移公告

本文为您介绍迁移E-MapReduce（简称EMR）元数据至数据湖元数据DLF（Data Lake Formation）中的原因及迁移流程。迁移原因 2020年阿里云EMR推出全新的数据湖构建和统一元数据服务，为EMR用户提供了更好的统一元数据服务方案。阿里云EMR团队...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

岭回归训练

可视化配置组件参数输入桩输入桩（从左到右）数据类型建议上游组件是否必选数据无读数据表特征工程数据预处理是模型无读数据表否组件参数页签参数描述字段设置标签列名输入表中的标签列名。特征列名数组如果您已经...

2025-01-20版本

概述 2025年1月20日，我们正式对外发布 Serverless Spark 新版本，包括平台管理、性能优化以及引擎能力。平台侧功能分类功能更新说明售卖新增按量付费下的计算资源抵扣包，价格更优惠。稳定性任务资源申请效率和运行稳定性提升。全面...

YARN

基本概念名称描述 ResourceManager 负责集群的资源管理与调度，为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的Master节点上，HA集群部署在EMR的多个Master节点上，保证了高可用性。NodeManager 负责节点的资源管理、监控和...

Kafka Manager

Kafka Manager是专为Kafka设计的集群管理工具，提供了WebUI界面，允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI，并将集群添加至Kafka Manager的WebUI界面。前提条件已创建选择了Kafka服务的...

Connection

OpenLLMConnection：开源模型连接。MilvusConnection：Milvus 连接。OpenSearchConnection：OpenSearch 连接。LindormConnection：Lindorm 连接。ElasticsearchConnection：Elasticsearch 连接。HologresConnection：Hologres 连接。...

任务中心

FeatureStore 为您提供任务中心功能，记录了数据离在线同步、训练样本导出等任务的日志详细信息，您可以在特征项目中的任务中心中查看当前项目的所有任务及任务状态。前提条件已创建特征项目。操作详情请参见新建项目。操作步骤进入特征...

查看指标大盘

iTAG通过指标大盘展示数据标注、检查、验收的数据指标。在指标大盘页面，您可以从总体数据、业务维度、任务维度和人员维度查看数据指标。本文为您介绍如何查看指标大盘。操作步骤进入智能标注（iTAG）。登录 PAI控制台。在左侧导航栏单击 ...

特征生产

主要介绍特征平台中的特征生产功能。特征平台与特征生产特征生产最佳实践

Kudu

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...