阿里大数据-阿里大数据文档介绍内容-移动阿里云

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

通过大数据平台搭建设备监控大屏

本文介绍如何对接物联网平台和阿里云大数据平台，以实现设备数据分析、统计、计算和可视化实时展示。前提条件开通、购买相关阿里云产品实例和计算资源。使用阿里云大数据平台处理物联网平台设备相关数据，涉及多个阿里云产品，包括云数据...

使用DataV大屏展示阿里云Elasticsearch数据

通过在DataV中添加阿里云Elasticsearch数据源，您可以使用DataV访问阿里云Elasticsearch服务，完成数据的查询与展示。本文介绍如何使用DataV大屏展示阿里云Elasticsearch数据。前提条件您已完成以下操作：创建阿里云Elasticsearch实例。...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

什么是DataWorks

从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手，不断提升数据应用效率，助力产业数字化升级。产品架构 DataWorks十多年...

E-MapReduce本地盘实例大规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点，并进行大数据基准性能测试。应用范围需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

技术架构选型

本教程中使用阿里云大数据产品Dataphin配合MaxCompute，完成整体的数据建模和研发流程。完整的技术架构如下图所示。其中，Dataphin的数据集成及同步负责完成源业务系统数据引入。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

功能概览

1.4 生态融合系出飞天，与阿里云大数据系统深度整合，无缝对接MaxCompute、实时计算、交互式分析等产品，打通整个大数据体系。2.产品功能 2.1 数据接入提供多种SDK、API和Flume、Logstash等第三方插件，让您高效便捷的把数据接入到数据...

构建数据仓库

方案优势：阿里巴巴大数据最佳实践，高性能、低成本、Serverless服务，免运维、全托管模式，让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。产品组合：MaxCompute+Flink+DataWorks。场景说明用户数据来源丰富，包括来自云端...

数据治理能力解读

以下为您系列讲解阿里云数据治理能力解读。数据治理的产品介绍主要产品：DataWorks 课程时长：25分钟 DataWorks数据治理能力的最佳实践主要产品：DataWorks、MaxCompute 课程时长：19分钟

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

什么是MaxCompute

数据生态支持 MaxCompute与阿里云DataWorks深度结合，可通过DataWorks实现一站式数据开发分析治理，同时也支持其他多种数据开发分析场景：数据湖数据集成数据治理三方引擎的数据开发数据可视化分析 TopConsole（管理控制台）提供...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

产品架构

EMR自研能力为让开源大数据组件和服务更好的运行在阿里云技术设施上，EMR自研了如下组件：数据应用平台，提供交互式开发、作业提交、作业调试和工作流一站式数据开发体验，详情请参见 EMR Studio概述。Shuffle Service是EMR在优化计算引擎...

计算设置概述

设置Dataphin实例的计算引擎为TDH或ArgoDB 星环TDH 6.x Transwarp Data Hub（TDH)是星环大数据平台实时计算引擎阿里云实时计算Flink 阿里云新一代计算引擎Flink，支持实时计算，具有高吞吐低延迟等优势，同时也支持离线计算与调度。...

通过DMS连接StarRocks实例

类别配置项说明数据来源-选择阿里云>大数据>StarRocks。基本信息数据库类型 StarRocks。实例地区选择在EMR控制台创建的StarRocks实例所在的地域。其他主账号如果您选择跨阿里云账号实例，则会出现该配置项。选择数据库实例所属的...

数据建模新能力解读

以下为您系列讲解阿里云智能数据建模新能力解读。数据建模的发展背景主要产品：DataWorks 课程时长：5分钟当前主流的数据建模方法论主要产品：DataWorks 课程时长：4分钟数据建模的主要能力解读主要产品：DataWorks 课程时长：22分钟 ...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

关于我们

阿里云隐私计算产品是源于阿里集团内部数据安全流通的最新解决方案和实践，所以她的提出是基于解决实际的数据安全问题和大数据场景需要，这就决定了她的基因里面就是贴身于实际产业应用。目前团队中拥有全职博士4名，研究型密码学博士实习...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

最佳实践概览

场景文档链接 Elasticsearch迁移迁移方案选取指南阿里云Elasticsearch间数据迁移通过reindex迁移数据基于reindex实现低版本多type数据迁移自建Elasticsearch数据迁移通过OSS将自建Elasticsearch数据迁移至阿里云通过阿里云Logstash...

BigQuery数据迁移至MaxCompute

本文为您介绍如何通过公网环境将谷歌云GCP（Google Cloud Platform）的BigQuery数据集迁移至阿里云MaxCompute。前提条件类别平台要求参考文档环境及数据谷歌云GCP 已开通谷歌BigQuery服务，并准备好环境及待迁移的数据集。已开通谷歌...

同阿里云主账号访问

在进行数据同步前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据源的网络连通性。本文为您介绍数据源与DataWorks工作空间同阿里云主账号时如何进行网络连通。背景信息网络连通方案选择取决于数据...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品，是阿里云和Cloudera联合打造阿里云上的大...

Elasticsearch数据迁移至MaxCompute

本文为您介绍如何通过DataWorks数据同步功能，迁移阿里云Elasticsearch集群上的数据至MaxCompute。前提条件已开通MaxCompute服务。开通指导，详情请参见开通MaxCompute和DataWorks。已开通DataWorks服务。开通指导，详情请参见开通...

通过阿里云Milvus与PAI搭建高效的检索增强生成（RAG）...

然而，在广泛应用大语言模型（LLM）的过程中，一些固有局限性逐渐显现：领域知识局限：大语言模型通常基于大规模通用数据集训练而成，这意味着它们在处理专业垂直领域的具体应用时可能缺乏针对性和深度。信息更新滞后：由于模型训练所依赖...

快速入门

同时您也可以参见数据迁移系列文档，将第三方Elasticsearch、云数据库和大数据云产品数据迁移至阿里云Elasticsearch。背景信息在阿里云Elastic Stack产品生态下，Elasticsearch作为实时分布式搜索和分析引擎，Logstash采集、转换、优化和...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

阿里云电子政务云产品全家福

阿里云电子政务云平台提供弹性计算类、网络、数据库、存储、大数据、中间件、IoT等品类丰富的产品及高标准的安全合规服务，用以支撑多种政务类业务场景，例如：城市大脑，合规应用平台等。截至文档发布时间，阿里云电子政务云共计上线95款...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

快速入门

阿里云数据库RDS MySQL基于阿里巴巴的MySQL源码分支，经过双11高并发、大数据量的考验，拥有优良的性能和吞吐量。此外，阿里云数据库MySQL版还拥有经过优化的读写分离、数据库代理、智能调优等高级功能。当前RDS MySQL支持5.5、5.6、5.7...

什么是EMR Serverless Milvus

和阿里云上下游产品集成与阿里云存储、大数据产品集成对接，方便产品间数据调用，为AI应用场景的数据工程提供最大程度的便利。产品计费公测期间您可以免费试用Milvus，免费试用结束后，实例将开始收费。相关文档快速创建Milvus实例 ...

从HDFS迁移数据到OSS/OSS-HDFS

本文为您介绍如何使用阿里云JindoDistCp从HDFS迁移数据到OSS/OSS-HDFS。前提条件已根据 JindoDistCp使用说明进行环境适配和工具包下载。注意事项 JindoSDK 4.4.0及以上版本默认使用域名分离的方式，数据读写域名默认使用内网标准OSS域名...