大数据数据-大数据数据文档介绍内容-移动阿里云

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

数据开发与运行

本文为您介绍数据开发的相关问题。资源如何在pyodps调用第三方包？如何在节点内使用资源？如何下载上传到DataWorks的资源？超过30M的资源如何上传？通过odpscmd上传的资源如何在DataWorks上使用？在DataWorks如何上传自己本地编写的jar并...

导入概述

此处的有效数据不包括由于类型转换错误等数据质量问题而被过滤的数据，数据质量问题可以参见数据导入常见问题。MySQL和HTTP协议 StarRocks提供MySQL协议和HTTP协议两种访问协议接口来提交作业。Broker Load Broker导入，即通过部署的...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

冷热分层

冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至整个生命周期都不会被访问。冷热数据的区分方式如下：按照数据的创建时间：通常，数据写入初期，用户的关注度较高且访问频繁，...

阶段一：基础防护建设

例如：《金融数据安全分级指南 JR/T 0197-2020》《网络安全标准实践指南——网络数据分类分级指引》《信息安全技术个人信息安全规范 GB/T 35273—2020》《信息技术大数据数据分类指南 GB/T 38667-2020》《基础电信企业数据分类分级方法 YD/...

湖仓一体新能力：EMR支持Hologres和MaxCompute数据源

随着EMR支持Hologres和MaxCompute数据源，您可以：高效访问在线数据：直接使用在线数据进行大数据分析，无需导出Hologres和MaxCompute中的数据至OSS等中心化存储，从而避免了导出数据可能引起的数据丢失和安全问题，同时还提高了数据处理和...

为Spark集群设置元数据

横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和人工智能平台 PAI 等。多个EMR集群时，可以统一管理元数据。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。使用...

EMR元数据迁移到数据湖构建（DLF）

适用场景从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群（MySQL做元数据），整体集群需要迁移到阿里云EMR新集群（DLF做元数据）。从阿里云EMR老集群（MySQL做元数据），仅元数据修改为DLF。说明仅EMR-3.33及后续版本、...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

大数据安全治理实践指南

数据湖集群

E-MapReduce（简称EMR）新版控制台提供了数据湖集群，一个更灵活、可靠，以及高效的大数据计算集群。同时，您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性，以及与旧版Hadoop集群之间的差异。数据湖集群...

更新或删除数据（UPDATE|DELETE）

MaxCompute支持通过 delete、update 操作，在行级别删除或更新Transactional表中的数据。本文中的命令您可以在如下工具平台执行：MaxCompute客户端使用SQL分析连接使用云命令行（odpscmd）连接使用DataWorks连接 MaxCompute Studio 前提...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

2.0数据类型版本

本文为您介绍MaxCompute 2.0数据类型版本的定义、使用场景、支持的数据类型以及与其它数据类型版本的差异。定义项目空间选择数据类型版本为2.0数据类型版本时，项目空间的数据类型属性参数定义如下。setproject odps.sql.type.system.odps...

Hologres外部表

当您需要访问存储在Hologres中的数据时，MaxCompute支持使用外部表访问Hologres数据源数据，无需导入数据至MaxCompute中，实现快速查询Hologres数据。本文为您介绍如何在外部表建表语句中指定Hologres数据源、STS认证信息或打开双签名开关...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。章节目标将MySQL存储的用户基本信息及OSS存储的网站访问日志数据，通过数据集成服务同步至...

Tablestore外部表

注意事项 MaxCompute与Tablestore是两个独立的大数据计算和存储服务，所以两者之间的网络必须保证连通性。MaxCompute公共云服务访问Tablestore存储时，推荐您使用Tablestore私网地址，即Host名以 ots-internal.aliyuncs.com 作为结尾的地址...

数据引入层（ODS）

数据同步加载与处理 ODS的数据需要由各数据源系统同步到MaxCompute，才能用于进一步的数据开发。本教程建议您使用DataWorks数据集成功能完成数据同步，详情请参见数据集成概述。在使用数据集成的过程中，建议您遵循以下规范：一个系统的源...

优化器（Analyze）

数据膨胀：当两个表Join key的ndv都比行数小很多时，证明数据大量重复，大概率存在数据膨胀，优化器可以采取相关措施来规避数据膨胀带来的问题。数据过滤：当小表的ndv比大表小很多时，说明执行JOIN操作后，大表的数据会被大量过滤。优化器...

迁移服务（MMA）

如果数据量较大，可能需要几分钟才能完成更新。创建迁移计划选择目标数据源，查看数据源下待迁移的数据库列表。您可以按照实际迁移需求，选择整库迁移或部分迁移。整库迁移单击待迁移数据库列表操作列中的整库迁移。部分迁移单击待...

DataHub数据源

DataHub数据源作为数据中枢，为您提供读取和写入DataHub数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

Spark对接OSS

Spark对接OSS提供了高效、灵活的数据处理和分析方式，将大数据处理和云存储相结合。本文介绍Spark如何处理和分析OSS中的数据。背景信息当前E-MapReduce：支持 MetaService 服务。支持通过免AccessKey方式访问OSS数据源。支持通过显式写...

通过函数计算节点实现GitHub实时数据分析与结果发送

阿里云原生大数据计算MaxCompute 阿里云对象存储OSS 阿里云函数计算FC MaxCompute配置数据源类型显示当前数据源类型，即MaxCompute。数据源名称选择步骤二中创建的MaxCompute数据源。OSS配置数据源类型显示当前数据源类型，即OSS。...

SelectDB数据源

DataWorks数据集成支持使用SelectDB ...否无 flushInterval 数据写入批次的时间间隔（单位：ms），如果 maxBatchRows 和 batchSize 参数设置的很大，则可能还未达到设置的数据量大小，系统就会根据写入的时间间隔执行数据导入。否 30000

Tablestore数据源

否 false mode 定义了读取数据的模式，当前支持两种模式：normal：行模式读取数据，数据格式为{主键列值，普通列值}。multiVersion：列模式读取数据，数据格式为{主键列，普通列名，时间戳，普通列名对应列值}。本配置仅在新版Tablestore ...

Tunnel操作

MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型功能角色操作入口上传数据将本地文件的数据上传至MaxCompute的表中，以追加...

Insert Into

数据量 Insert Into对数据量没有限制，也支持大数据量导入。但Insert Into有默认的超时时间，如果您预估的导入数据量过大，需要修改系统的Insert Into导入超时时间。例如，当导入数据量为36 GB时，导入时间约小于等于3600s*10 M/s。其中10 ...

Doris数据源

DataWorks数据集成支持使用Doris Writer导入表数据至Doris。本文为您介绍DataWorks的Doris数据同步能力支持情况。支持的Doris版本 Doris Writer使用的驱动版本是MySQL Driver 5.1.47，该驱动支持的内核版本如下。驱动能力详情请参见 Doris...

零售电商数据建模

实施工作流可以参考下图：说明上面示意图引用自阿里巴巴数据技术及产品部《大数据之路：阿里巴巴大数据实践》，部分修改。数仓规划相关概念业务分类：业务分类是某一大类的业务的指标和维度的集合。在后续模型设计过程中，可将模型归属到...

网易有数BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入网易有数BI，帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用网易有数BI连接MaxCompute项目，并进行可视化数据分析。背景信息网易有数BI是新一代敏捷数据可视化分析平台，是包含...

同步EMR Kafka数据至OSS-HDFS

背景信息 OSS-HDFS服务是一款云原生数据湖存储产品，基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好的满足大数据和AI领域丰富多样的数据湖计算场景，详细信息请参见 OSS-HDFS服务概述。...

数据引入层（ODS）

数据同步加载与处理 ODS的数据需要由各数据源系统同步到MaxCompute，才能用于进一步的数据开发。本教程建议您使用DataWorks数据集成功能完成数据同步，详情请参见数据集成概述。在使用数据集成的过程中，建议您遵循以下规范：一个系统的源...

Amazon Redshift数据迁移至MaxCompute

支持英文小写字母、数字和特殊字符短划线（-）和下划线（_），且区分大小写。UTF-8编码并且不能以短划线（-）和下划线（_）开头。源地址是选择已创建的源地址。目的地址是选择已创建的目的地址。在配置任务页面，配置如下参数。参数 ...

基于GitHub公开事件数据集的离线实时一体化实践

该方案优势如下：离线链路稳定高效：支持数据小时级写入更新，可以批量处理大规模数据，进行复杂的计算和分析，降低计算成本，提高数据处理效率。实时链路成熟：支持实时写入、实时事件计算、实时分析，实时链路简化，数据秒级响应。统一...

LogHub（SLS）数据源

LogHub（SLS）数据源为您提供读取和写入LogHub（SLS）双向通道的功能，本文为您介绍DataWorks的LogHub（SLS）数据同步的能力支持情况。使用限制数据集成离线写LogHub（SLS）时，由于LogHub（SLS）无法实现幂等，FailOver重跑任务时会引起...

BigQuery数据迁移至MaxCompute

本文为您介绍如何通过公网环境将谷歌云GCP（Google Cloud Platform）的BigQuery数据集迁移至阿里云MaxCompute。前提条件类别平台要求参考文档环境及数据谷歌云GCP 已开通谷歌BigQuery服务，并准备好环境及待迁移的数据集。已开通谷歌...

数据导入常见问题

导入数据的时候出现类似如下错误时，建议您查看并调大 load_process_max_memory_limit_bytes 和 load_process_max_memory_limit_percent 的参数值。修改配置项的具体操作，请参见修改配置项。数据导入过程中，发生远程过程调用（Remote ...

JSON格式导入

Doris支持导入JSON格式的数据。本文为您介绍进行JSON格式数据导入时的参数说明和注意事项。支持的导入方式目前只有以下导入方式支持JSON格式的数据导入：将本地JSON格式的文件通过 Stream Load 方式导入。通过 Routine Load 订阅并消费...

使用Copilot+增强分析实现一站式智能数据查询与可视化

基于以上操作，本教程展示了如何将本地数据单次手动上传到MaxCompute中，如需将业务生产过程中产生的数据定时同步至MaxCompute等大数据计算引擎中，推荐使用DataWorks数据集成，详情请参见数据集成概述。附录：报告中所有卡片用到的SQL...