SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文为您介绍SmartData(3.6.x)版本的更新内容。JindoFS 此版本中JindoFS的新特性如下表所示。特性 描述 JindoFS支持多云和S3协议及缓存加速 JindoFS实现对S3协议的支持,具备访问...
EMR on ECS的安全责任由阿里云、客户双方共同承担,本文介绍阿里云与客户在安全性方面各自应该承担的责任。阿里云安全责任 阿里云负责保障平台自身安全。责任包括:针对阿里云安全中心发现的EMR大数据服务组件安全漏洞,发布相关公告,并...
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据湖仓,并为生产任务的稳定运行提供保障。产品优势 ...
EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...
使用场景 交互式分析:利用Kyuubi可以构建企业级分析平台,用于对大数据进行交互式可视化分析,支持常见的计算框架。Kyuubi支持JDBC和ODBC接口,您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...
您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...
该方案优势如下:全托管免运维 弹性扩展能力 开放数据湖架构 一站式的数据开发平台 数据查询与分析场景 在传统数据平台下,数据仓库工程师和数据分析师通常面临两个不同的环境,甚至使用不同的引擎和语法,导致数据指标和算子行为存在差异...
本章节介绍如何通过多种工具和框架提交和调度大数据任务,支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务 通过Serverless Spark提交PySpark流任务 通过spark-submit提交任务 通过Apache Airflow提交...
支持的 计算资源 DLC 输入/输出 输入桩 通过 读OSS数据 组件,读取训练数据所在的OSS路径。配置此算法参数 训练图片所在OSS目录,选择图像数据所在的OSS目录。输出桩 训练生成的模型,保存地址对应算法参数 模型输出路径。关于参数详细说明...
处理完成标注任务后,您可以将标注结果导出至指定的OSS目录,也可以将标注结果同时创建为一个数据集,从而便于后续直接用于模型训练。本文介绍如何导出标注结果,以及如何查看导出的进度与结果。前提条件 已完成任务标注,详情请参见 处理...
TensorFlow 相关下载 说明 下载地址 MNIST案例 提供使用TensorFlow对MNIST数据集进行训练的相关代码、训练数据及测试数据下载地址。执行代码下载 训练数据下载 测试数据下载 说明 需要将下载的三个文件上传至OSS同一目录。TensorBoard 提供...
您可以通过客户端工具管理 DLC 中的任务和数据。本文介绍客户端工具提供的常用命令。客户端工具提供了用户认证等命令,命令列表如下。类别 命令 准备工作 自动补全(completion)用户认证(config)提交命令 提交TensorFlow训练任务...
在创建集群以后,您可以查看数据概览和操作日志。查看数据概览 登录 灵骏控制台。在左侧导航栏,选择 数据大盘 数据概览。您可以在 数据概览 页面,查看集群数、分组数等信息。查看操作日志 登录 灵骏控制台。在左侧导航栏,选择 数据大盘 ...
可视化配置参数【输入桩配置】输入桩(从左到右)限制数据类型 建议上游组件 是否必选 数据 存储在MaxCompute或OSS的结构化数据 读数据表 读OSS数据 是【右侧参数表单】页签 参数 描述 字段设置 选择的列名 选择需要填充缺失值的列名,仅...
背景介绍 TPC-DS是一套决策支持系统的基准测试,它对决策支持系统的几个通用方面进行建模,包括查询和数据维护,用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道(实体店、互联网、目录)的销售和退货业务,除了建立相关...
在左侧导航栏,单击 数据大盘 数据概览。您可以在 数据概览 页面查看集群数、分组数等基本信息,以及使用率汇总、集群磁盘信息、集群网络带宽使用等趋势图。查看操作日志 在左侧导航栏,单击 数据大盘 操作日志。您可以在 事件查询 页签,...
标准化批预测是一种用于数据预处理的机器学习算法,旨在对批量数据进行标准化处理,以降低不同列数据量级和范围的影响。该算法假设数据符合正态分布,通过均值和方差对数据进行标准化,将不同列的数据映射到相同的范围内,从而提高模型训练...
Flume最终会将数据落地到实时计算平台(例如Flink、Spark Streaming和Storm)、离线计算平台上(例如MR、Hive和Presto),也可仅落地到数据存储系统中(例如HDFS、OSS、Kafka和Elasticsearch),为后续分析数据和清洗数据做准备。...
本章节介绍如何通过多种方式读写不同的数据存储系统,支持结构化、半结构化和非结构化数据的高效存储与访问。涵盖主流大数据存储引擎的集成,满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写...
通过阅读本文,您可以快速了解EMR on ACK的计费资源和相关产品计费等信息。计费资源 2024年04月01日起阿里云E-MapReduce(简称EMR)on...容器服务Kubernetes 基于ACK的资源安装部署大数据服务组件,并在容器内运行。收费详情请参见 产品计费。
Big data:大数据型。Local SSDs:本地 SSD 型。High Clock Speed:高主频型。Enhanced:增强型。Shared:共享型。Compute-optimized with GPU:GPU 计算型。Visual Compute-optimized:视觉计算型。Heterogeneous Service:异构服务型。...
在创建标注任务时,需要选择数据集。本文为您介绍如何创建用于数据标注的数据集,以及数据集的具体格式要求。前提条件 使用主账号开通PAI并创建工作空间。登录 PAI控制台,左上角选择开通区域,然后一键授权和开通产品。标注数据必须最终...
过滤与映射组件是一种数据预处理工具,通过用户定义的过滤表达式筛选出符合条件的记录,并允许修改输出字段的名称。这一功能在数据清洗和特征工程阶段非常有用,能够有效地清理数据并准备适合后续分析和建模的数据集。配置组件 方式一:...
Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...
文档 描述 大模型RAG对话系统 为您介绍如何搭建大模型RAG对话系统。RAG(Retrieval-Augmented Generation)技术架构的核心为检索和生成:在检索方面,EAS支持多种向量检索库,包括开源的Faiss 和阿里云的Milvus、Elasticsearch、Hologres、...
AI应用模板 模板 实践文档 文档内容洞察助手 基于LangStudio&搜索MCP服务搭建文档智能问答Agent应用 音频总结助手 基于LangStudio&语音识别服务搭建音频内容智能总结助手 智能数据Agent 基于LangStudio&Hologres构建ChatBI数据分析Agent...
在数据预处理中,为了降低不同列的数据量级和范围大小带来的影响,需要将各列数据进行标准化操作。标准化之后,不同列的数据都会被限定到同一个数据范围内。标准化组件假设数据符合正态分布。使用限制 支持的计算引擎为MaxCompute和Flink。...
使用限制 本文操作仅适用于数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)和数据湖(Hadoop)场景的集群。支持日志投递的服务有hdfs、yarn、yarn_application、hive、spark、jindodata、tez、...
Serverless Spark 内置了多种函数,能够满足大部分数据处理需求。本文将为您介绍 Serverless Spark 内置提供的函数及其使用说明。支持的版本 仅Serverless Spark以下引擎版本支持本文Serverless Spark特有的内置函数:esr-4.x:esr-4.4.0及...
本文为您介绍迁移E-MapReduce(简称EMR)元数据至数据湖元数据DLF(Data Lake Formation)中的原因及迁移流程。迁移原因 2020年阿里云EMR推出全新的数据湖构建和统一元数据服务,为EMR用户提供了更好的统一元数据服务方案。阿里云EMR团队...
EMR Studio上的Zeppelin与开源版本一致吗?如何设置Zeppelin Note的权限?Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗?EMR Studio上的Zeppelin是增强版的Zeppelin,与开源版本不一致。E-MapReduce的...
可视化配置组件参数 输入桩 输入桩(从左到右)数据类型 建议上游组件 是否必选 数据 无 读数据表 特征工程 数据预处理 是 模型 无 读数据表 否 组件参数 页签 参数 描述 字段设置 标签列名 输入表中的标签列名。特征列名数组 如果您已经...
概述 2025年1月20日,我们正式对外发布 Serverless Spark 新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 售卖 新增按量付费下的计算资源抵扣包,价格更优惠。稳定性 任务资源申请效率和运行稳定性提升。全面...
基本概念 名称 描述 ResourceManager 负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的Master节点上,HA集群部署在EMR的多个Master节点上,保证了高可用性。NodeManager 负责节点的资源管理、监控和...
Kafka Manager是专为Kafka设计的集群管理工具,提供了WebUI界面,允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI,并将集群添加至Kafka Manager的WebUI界面。前提条件 已创建选择了Kafka服务的...
OpenLLMConnection:开源模型连接。MilvusConnection:Milvus 连接。OpenSearchConnection:OpenSearch 连接。LindormConnection:Lindorm 连接。ElasticsearchConnection:Elasticsearch 连接。HologresConnection:Hologres 连接。...
FeatureStore 为您提供任务中心功能,记录了数据离在线同步、训练样本导出等任务的日志详细信息,您可以在特征项目中的任务中心中查看当前项目的所有任务及任务状态。前提条件 已创建特征项目。操作详情请参见 新建项目。操作步骤 进入特征...
iTAG通过指标大盘展示数据标注、检查、验收的数据指标。在指标大盘页面,您可以从总体数据、业务维度、任务维度和人员维度查看数据指标。本文为您介绍如何查看指标大盘。操作步骤 进入智能标注(iTAG)。登录 PAI控制台。在左侧导航栏单击 ...
主要介绍特征平台中的特征生产功能。特征平台与特征生产 特征生产最佳实践
使用场景 典型的应用场景如下:近实时计算场景 时间序列数据的场景 预测建模 与存量数据共存 通常生产环境中会有大量的存量数据,数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据,可以使用Impala访问和查询,而...