大数据平台部署建议-大数据平台部署建议文档介绍内容-移动阿里云

模型训练最佳实践

一般建议的批次大小为16/32，表示模型每看16或32条数据即更新一次参数 Learning Rate Multiplier Learning Rate Multiplier-学习率代表每次更新数据的增量参数权重，学习率数值越大参数变化越大，对模型影响越大，一般范围为：2-5e至2-8e ...

基本概念

DTS 数据传输服务（Data Transmission Service，简称DTS）支持关系型数据库（RDBMS）、非关系型数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，帮助您构建安全、可扩展、高可用的...

服务部署：控制台

场景化模型部署：EAS提供了多种针对特定场景的部署解决方案，包括AI绘画-SDWebUI部署、LLM大语言模型、大模型RAG对话系统、AI视频生成-ComfyUI部署、ModelScope模型部署、HuggingFace模型部署、Triton部署和TFServing部署。对于这些不同的...

自建MySQL迁移至RDS MySQL

数据传输服务DTS（Data Transmission Service）支持在不影响业务正常运行的情况下，将部署在本地、ECS或其他云上的MySQL数据库迁移至 RDS MySQL 实例。DTS支持库表结构迁移、全量迁移以及增量迁移，同时使用这三种迁移类型可以实现在自建...

从自建MySQL迁移至RDS MySQL实例

数据传输服务DTS（Data Transmission Service）支持在不影响业务正常运行的情况下，将部署在本地、ECS或其他云上的MySQL数据库迁移至 RDS MySQL 实例。DTS支持库表结构迁移、全量迁移以及增量迁移，同时使用这三种迁移类型可以实现在自建...

DAS Auto Scaling弹性能力

数据库自治服务DAS的Auto Scaling是以数据库实例的实时性能数据作为输入，由DAS完成流量异常发现、合理数据库规格建议和合理磁盘容量建议，使数据库服务具备自动扩展存储和计算资源的能力。背景信息为业务应用选择一个合适的数据库计算...

DataWorks数据安全治理路线

DataWorks基于数据安全治理的常见思路，针对资产梳理、技术体系建设和运营体系建设，提供了一系列数据安全产品能力，您可通过“基础防护建设、数据安全防护措施及策略增强建设、数据安全持续运营”三个阶段在DataWorks上落地数据安全治理...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

经济版（ARM架构）性能&价格力观测

本文介绍如何在瑶池数据库控制台一键快速搭建资源完全对等的环境，对经济版（ARM架构）RDS MySQL与部署在ECS实例（X86架构）的自建MySQL基于Sysbench进行性能压测，实时动态查看性能、价格和性价比结果。背景阿里云提供了两种体验方式：...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

Delta Lake和Hudi是数据湖方案中常用的存储机制，为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS或Flink、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据，即时洞察业务数据...

EAS模型服务概述

模型在线服务EAS（Elastic Algorithm Service）是PAI产品为实现一站式模型开发部署应用，针对在线推理场景提供的模型在线服务，支持将模型服务部署在公共资源组或专属资源组，实现基于异构硬件（CPU和GPU）的模型加载和数据请求的实时响应...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

新功能发布记录

OceanBase 数据库之间的数据迁移支持 TiDB 数据库至 OceanBase 数据库 MySQL 租户的结构迁移、全量迁移、增量同步、全量校验和反向增量迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL 租户支持 PolarDB-X 1.0 数据库至 OceanBase ...

悦数图数据库服务实例部署文档

悦数图数据库是一套集成了悦数图数据库和数据服务的云上服务，支持一键部署悦数图数据库和相关可视化产品。本文为您介绍创建悦数图数据库服务实例的详细操作。产品功能悦数图数据库服务的产品功能如下。悦数图数据库服务为用户的业务提供...

如何开启模型训练

训练前的数据准备训练集：训练所用的数据集，格式一般为Prompt+Completion的文本数据，可通过excel/json进行编辑和上传，最小训练数据条数为20，最大训练数据条数为10000，一条训练数据Prompt+Completion总字符数不高于8000，高于8000的...

模型部署及训练

数据集配置训练数据集快速开始提供了默认的训练数据，如果您不使用默认数据集，需要按照模型文档中的训练数据格式准备好训练数据，然后参考以下两种方式上传训练数据。OSS文件或目录。单击，选择数据集所在的OSS路径。在选择OSS目录或...

工业质检解决方案

解决方案基于智能标注（iTAG）平台和PAI数据集管理，对目标场景的数据进行快捷标注和样本管理。基于PAI提供的模型和算法，针对自己的数据，在DSW平台上进行模型Fine-Tune，从而构建具体场景的质检模型。将模型进行EAS在线部署，形成完整的...

LangStudio【内测中】

LangStudio是PAI平台上的大模型应用开发平台，集成了丰富的大模型应用开发组件及场景化模板，为广大开发者提供高效开发及调试大模型应用的能力。使用限制目前LangStudio支持的地域为华东1（杭州）。当前LangStudio为白名单邀测阶段，如果...

自建Oracle迁移至DataHub

阿里云流式数据服务DataHub 是流式数据（Streaming Data）的处理平台，提供对流式数据的发布、订阅和分发功能，让您可以轻松构建基于流式数据的分析和应用。本文介绍如何使用数据传输服务DTS（Data Transmission Service）将自建Oracle迁移...

模型调优

模型调优模型调优是通过Fine-tuning训练模式提高模型效果的功能模块，作为重要的大模型效果优化方式，用户可以通过构建符合业务场景任务的训练集，调整参数训练模型，训练模型学习业务数据和业务逻辑，最终提高在业务场景中的模型效果。...

Huggingface镜像部署

大语言对话模型目前支持一键部署的大语言对话模型列表，请参见附录：目前支持一键部署的大语言对话模型列表。使用大语言对话模型的通用流程如下：步骤一：部署模型进入部署服务页面，配置以下关键参数，其他参数配置详情，请参见服务...

交付环境要求说明

本文描述ADP底座对于部署交付环境的具体要求，适用于所有底座版本。说明适用场景：本文主要针对选用了非ACK底座时的部署环境要求，对于ACK底座的部署，当前只支持“标准托管版”，环境要求，部署要求参见：创建Kubernetes托管版集群。另：...

部署及微调Llama-3系列模型

验证数据集的OSS或是本地路径>"#}#)#使用默认数据提交训练任务 est.fit(inputs=training_inputs)#查看训练产出模型的OSS路径 print(est.model_data())如果需要将微调训练完的模型部署为在线服务，可以在同一页面的模型部署卡片中选择...

Modelscope镜像部署

对于部署到EAS的Modelscope社区中的模型，可以分为普通模型和大语言对话模型，由于加载和使用方式的不同，两种模型的部署和调用方式稍有区别，详情请参见：普通模型大语言对话模型普通模型 Modelscope社区中的大部分模型都可以通过...

捷顺

本文介绍数据库自治服务DAS助力捷顺，实现数据库运维自动化。客户简介捷顺科技是一家智慧停车、智慧社区综合服务提供商，集研、产、销于一体，公司的产品线涵盖各类软硬件产品，包括捷停车及捷生活APP、停车场智能硬件、智能门禁、通道闸...

数据开发

因此，用户在构建数据应用时，只需从解决实际某一业务场景出发，组合多种类型的计算节点来配置计算节点工作流程，从而快速解决业务工作流并依托数据开发的跨平台多异构任务的一键部署和上线能力，极大的提高了工程效率。节点模式节点模式...

EMR Doctor概述

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即集群管理...通过对集群中各种信息进行融合分析，并根据智能算法进行智能诊断分析，减少大数据平台繁重和重复的劳动。

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

开启部署集

如果您的集群数据存储方案为本地HDFS存储方案，且Core节点使用了本地盘机型（大数据型、本地SSD），建议您为使用本地盘机型的Core节点组开启部署集功能来提升数据安全性。由于加入部署集后节点组的节点数会受到限制，所以请您谨慎选择是否...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品，是阿里云和Cloudera联合打造阿里云上的大...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

通过BizWorks Tookit更新部署实例

前提条件需通过BizWorks Tookit更新部署的实例在BizWorks平台部署过。您当前登录的账号拥有项目实例的部署权限。操作步骤获取环境信息。单击白色箭头按钮进行平台环境的下载。查看实例信息。单击目标环境（例如：插件test02）您可查看...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

风险识别规则

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

什么是主机应用部署

云开发平台部署主机应用的过程第一步：根据语言进行机器环境分配，执行代码中的build.sh脚本第二步：打包构建后build目录（云开发平台中可以修改）内容成压缩包，上传到流水线制品库第三步：拉取构建包到主机应用/root/application（云...