大数据数据

_相关内容

数据重排

在MaxCompute的使用过程中,如果已经积累了大量数据占用了大量存储资源,且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理,在您的存储预算有限,计算资源还有冗余的情况下,可以考虑使用数据重排方式对存储空间进行优化。...

数据开发与运行

本文为您介绍数据开发的相关问题。资源 如何在pyodps调用第三方包?如何在节点内使用资源?如何下载上传到DataWorks的资源?超过30M的资源如何上传?通过odpscmd上传的资源如何在DataWorks上使用?在DataWorks如何上传自己本地编写的jar并...

导入概述

此处的有效数据不包括由于类型转换错误等数据质量问题而被过滤的数据数据质量问题可以参见 数据导入常见问题。MySQL和HTTP协议 StarRocks提供MySQL协议和HTTP协议两种访问协议接口来提交作业。Broker Load Broker导入,即通过部署的...

Quick BI连接MaxCompute

背景信息 智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台,可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具,更是数据化运营的助推器。更多Quick BI信息,请参见 Quick ...

冷热分层

冷热数据 数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较,很少被访问,甚至整个生命周期都不会被访问。冷热数据的区分方式如下:按照数据的创建时间:通常,数据写入初期,用户的关注度较高且访问频繁,...

阶段一:基础防护建设

例如:《金融数据安全分级指南 JR/T 0197-2020》《网络安全标准实践指南——网络数据分类分级指引》《信息安全技术个人信息安全规范 GB/T 35273—2020》《信息技术大数据数据分类指南 GB/T 38667-2020》《基础电信企业数据分类分级方法 YD/...

湖仓一体新能力:EMR支持Hologres和MaxCompute数据

随着EMR支持Hologres和MaxCompute数据源,您可以:高效访问在线数据:直接使用在线数据进行大数据分析,无需导出Hologres和MaxCompute中的数据至OSS等中心化存储,从而避免了导出数据可能引起的数据丢失和安全问题,同时还提高了数据处理和...

为Spark集群设置元数据

横向使用多种大数据计算引擎时,元数据可以集中管理。例如,MaxCompute、Hologres和 人工智能平台 PAI 等。多个EMR集群时,可以统一管理元数据。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 步骤一:创建集群。使用...

EMR元数据迁移到数据湖构建(DLF)

适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群(MySQL做元数据),整体集群需要迁移到阿里云EMR新集群(DLF做元数据)。从阿里云EMR老集群(MySQL做元数据),仅元数据修改为DLF。说明 仅EMR-3.33及后续版本、...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

数据湖集群

E-MapReduce(简称EMR)新版控制台提供了数据湖集群,一个更灵活、可靠,以及高效的大数据计算集群。同时,您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性,以及与旧版Hadoop集群之间的差异。数据湖集群...

更新或删除数据(UPDATE|DELETE)

MaxCompute支持通过 delete、update 操作,在行级别删除或更新Transactional表中的数据。本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用云命令行(odpscmd)连接 使用DataWorks连接 MaxCompute Studio 前提...

使用独立的Trino集群

背景信息 在使用开源大数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:Trino独享集群资源,受其他组件干扰少。支持弹性...

2.0数据类型版本

本文为您介绍MaxCompute 2.0数据类型版本的定义、使用场景、支持的数据类型以及与其它数据类型版本的差异。定义 项目空间选择数据类型版本为2.0数据类型版本时,项目空间的数据类型属性参数定义如下。setproject odps.sql.type.system.odps...

Hologres外部表

当您需要访问存储在Hologres中的数据时,MaxCompute支持使用外部表访问Hologres数据数据,无需导入数据至MaxCompute中,实现快速查询Hologres数据。本文为您介绍如何在外部表建表语句中指定Hologres数据源、STS认证信息或打开双签名开关...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据,并且只支持在数据集成模块读取数据。章节目标 将MySQL存储的用户基本信息及OSS存储的网站访问日志数据,通过数据集成服务同步至...

Tablestore外部表

注意事项 MaxCompute与Tablestore是两个独立的大数据计算和存储服务,所以两者之间的网络必须保证连通性。MaxCompute公共云服务访问Tablestore存储时,推荐您使用Tablestore私网地址,即Host名以 ots-internal.aliyuncs.com 作为结尾的地址...

数据引入层(ODS)

数据同步加载与处理 ODS的数据需要由各数据源系统同步到MaxCompute,才能用于进一步的数据开发。本教程建议您使用DataWorks数据集成功能完成数据同步,详情请参见 数据集成概述。在使用数据集成的过程中,建议您遵循以下规范:一个系统的源...

优化器(Analyze)

数据膨胀:当两个表Join key的ndv都比行数小很多时,证明数据大量重复,概率存在数据膨胀,优化器可以采取相关措施来规避数据膨胀带来的问题。数据过滤:当小表的ndv比表小很多时,说明执行JOIN操作后,表的数据会被大量过滤。优化器...

迁移服务(MMA)

如果数据量较,可能需要几分钟才能完成更新。创建迁移计划 选择目标数据源,查看数据源下待迁移的数据库列表。您可以按照实际迁移需求,选择整库迁移或部分迁移。整库迁移 单击待迁移数据库列表 操作 列中的 整库迁移。部分迁移 单击待...

DataHub数据

DataHub数据源作为数据中枢,为您提供读取和写入DataHub数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

Spark对接OSS

Spark对接OSS提供了高效、灵活的数据处理和分析方式,将大数据处理和云存储相结合。本文介绍Spark如何处理和分析OSS中的数据。背景信息 当前E-MapReduce:支持 MetaService 服务。支持通过免AccessKey方式访问OSS数据源。支持通过显式写...

通过函数计算节点实现GitHub实时数据分析与结果发送

阿里云原生大数据计算MaxCompute 阿里云对象存储OSS 阿里云函数计算FC MaxCompute配置 数据源类型 显示当前数据源类型,即MaxCompute。数据源名称 选择 步骤二 中创建的MaxCompute数据源。OSS配置 数据源类型 显示当前数据源类型,即OSS。...

SelectDB数据

DataWorks数据集成支持使用SelectDB ...否 无 flushInterval 数据写入批次的时间间隔(单位:ms),如果 maxBatchRows 和 batchSize 参数设置的很,则可能还未达到设置的数据量大小,系统就会根据写入的时间间隔执行数据导入。否 30000

Tablestore数据

否 false mode 定义了读取数据的模式,当前支持两种模式:normal:行模式读取数据数据格式为{主键列值,普通列值}。multiVersion:列模式读取数据数据格式为{主键列,普通列名,时间戳,普通列名对应列值}。本配置仅在新版Tablestore ...

Tunnel操作

MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型 功能 角色 操作入口 上传数据 将本地文件的数据上传至MaxCompute的表中,以追加...

Insert Into

数据量 Insert Into对数据量没有限制,也支持大数据量导入。但Insert Into有默认的超时时间,如果您预估的导入数据量过,需要修改系统的Insert Into导入超时时间。例如,当导入数据量为36 GB时,导入时间约小于等于3600s*10 M/s。其中10 ...

Doris数据

DataWorks数据集成支持使用Doris Writer导入表数据至Doris。本文为您介绍DataWorks的Doris数据同步能力支持情况。支持的Doris版本 Doris Writer使用的驱动版本是MySQL Driver 5.1.47,该驱动支持的内核版本如下。驱动能力详情请参见 Doris...

零售电商数据建模

实施工作流可以参考下图:说明 上面示意图引用自阿里巴巴数据技术及产品部《大数据之路:阿里巴巴大数据实践》,部分修改。数仓规划相关概念 业务分类:业务分类是某一类的业务的指标和维度的集合。在后续模型设计过程中,可将模型归属到...

网易有数BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入网易有数BI,帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用网易有数BI连接MaxCompute项目,并进行可视化数据分析。背景信息 网易有数BI是新一代敏捷数据可视化分析平台,是包含...

同步EMR Kafka数据至OSS-HDFS

背景信息 OSS-HDFS服务是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好的满足大数据和AI领域丰富多样的数据湖计算场景,详细信息请参见 OSS-HDFS服务概述。...

数据引入层(ODS)

数据同步加载与处理 ODS的数据需要由各数据源系统同步到MaxCompute,才能用于进一步的数据开发。本教程建议您使用DataWorks数据集成功能完成数据同步,详情请参见 数据集成概述。在使用数据集成的过程中,建议您遵循以下规范:一个系统的源...

Amazon Redshift数据迁移至MaxCompute

支持英文小写字母、数字和特殊字符短划线(-)和下划线(_),且区分小写。UTF-8编码并且不能以短划线(-)和下划线(_)开头。源地址 是 选择已创建的源地址。目的地址 是 选择已创建的目的地址。在 配置任务 页面,配置如下参数。参数 ...

基于GitHub公开事件数据集的离线实时一体化实践

该方案优势如下:离线链路稳定高效:支持数据小时级写入更新,可以批量处理规模数据,进行复杂的计算和分析,降低计算成本,提高数据处理效率。实时链路成熟:支持实时写入、实时事件计算、实时分析,实时链路简化,数据秒级响应。统一...

LogHub(SLS)数据

LogHub(SLS)数据源为您提供读取和写入LogHub(SLS)双向通道的功能,本文为您介绍DataWorks的LogHub(SLS)数据同步的能力支持情况。使用限制 数据集成离线写LogHub(SLS)时,由于LogHub(SLS)无法实现幂等,FailOver重跑任务时会引起...

BigQuery数据迁移至MaxCompute

本文为您介绍如何通过公网环境将谷歌云GCP(Google Cloud Platform)的BigQuery数据集迁移至阿里云MaxCompute。前提条件 类别 平台 要求 参考文档 环境及数据 谷歌云GCP 已开通谷歌BigQuery服务,并准备好环境及待迁移的数据集。已开通谷歌...

数据导入常见问题

导入数据的时候出现类似如下错误时,建议您查看并调 load_process_max_memory_limit_bytes 和 load_process_max_memory_limit_percent 的参数值。修改配置项的具体操作,请参见 修改配置项。数据导入过程中,发生远程过程调用(Remote ...

JSON格式导入

Doris支持导入JSON格式的数据。本文为您介绍进行JSON格式数据导入时的参数说明和注意事项。支持的导入方式 目前只有以下导入方式支持JSON格式的数据导入:将本地JSON格式的文件通过 Stream Load 方式导入。通过 Routine Load 订阅并消费...

使用Copilot+增强分析实现一站式智能数据查询与可视化

基于以上操作,本教程展示了如何将本地数据单次手动上传到MaxCompute中,如需将业务生产过程中产生的数据定时同步至MaxCompute等大数据计算引擎中,推荐使用DataWorks数据集成,详情请参见 数据集成概述。附录:报告中所有卡片用到的SQL...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用