如何使用大数据

_相关内容

使用程序进行大数据导入

本文介绍如何通过编写代码的方式,离线导入大数据量到 PolarDB-X 1.0 数据库。背景信息 假设当前数据库有一个表需要导入到 PolarDB-X 1.0 数据库中,数据量大致为814万,表结构如下。CREATE TABLE `post`(`postingType` int NOT NULL,`id` ...

Quick BI数据大屏使用分享链接打开背景视频没有播放

概述 Quick BI数据大屏使用分享链接打开背景视频没有播放。详细信息 需要在视频组件中勾选静音选项后即可正常播放。适用于 Quick BI

大数据AI公共数据集分析

本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

选型配置说明

E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求,还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明 具体各集群类型支持的组件以控制台实际展示为准。集群类型 场景介绍 ...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍,请参见 使用OpenAPI。基本信息 版本说明 版本号 说明 2021-03-20 推荐使用。接入点说明 根据实例所在的地域,选择对应的服务接入点地址,...

使用独立的Trino集群

背景信息 在使用开源大数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:Trino独享集群资源,受其他组件干扰少。支持弹性...

E-MapReduce本地盘实例规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点,并进行大数据基准性能测试。应用范围 需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

ECS实例说明

大数据量(10 TB或以上)情况下,推荐使用大数据机型,可以获得极高的性价比。重要 当Core核心实例使用本地盘时,HDFS数据存储在本地盘,需要您自行保证数据的可靠性。Task计算实例 用于补充集群的计算能力,可以使用除大数据型外的所有...

大数据安全治理的难点

使用大数据系统的常见人员包括开发、运营、分析师,甚至销售及HR都会来查询自己所需的数据。如此多类型的用户,授权、管理难度加大,什么样的人员需要授予什么样的权限?如果他们离职、换部门了怎么办?这其中很有可能出现 权限蠕变、过度...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库,支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业,推荐您使用SQL查询或DataWorks的临时查询等工具,高效便捷地完成数据分析...

数据模型概述

DDM目前支持逻辑模型和物理模型建模,其中物理模型又分为关系型数据模型和非关系型数据模型,支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层,DDM是数据建模工具,支持设置表、字段等物理属性。

全景视角

数据使用视角:在数据分析、发布或使用数据服务等数据使用场景下,建议您使用数据使用视角,关注查看数据使用过程中,浏览、访问过的表列表、拥有权限的数据服务等方面的情况。详情请参见:数据使用视角。数据生产视角:在数据开发场景下,...

数据使用诊断

DataWorks的数据使用诊断,为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力,以及诊断相关安全问题的最佳实践及解决方案,帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断 登录 DataWorks控制台...

用户授权与管理

使用数据建模DATABLAU功能时,在进行定义标准、数据建模、数据开发、部署运维等不同任务时,通常需不同角色的用户进行操作,对应用户需获取相应的权限。本文为您介绍制定标准、数据建模并应用部署过程中推荐的用户角色权限规划与授权操作...

使用Kettle调度MaxCompute

Kettle支持丰富的输入输出数据源,数据库支持Oracle、MySQL、DB2等,也支持各种开源的大数据系统,例如HDFS、HBase、Cassandra、MongoDB等。您可以在Kettle中通过创建Job的方式连接MaxCompute项目,并按照ETL流程调度作业。前提条件 在执行...

Github实时数据同步与分析

操作难度 易 所需时间 55分钟 使用的阿里云产品 实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据可视化 所需费用 0元 ​阿里云提供一定额度的资源包供您免费体验,开通后会使用计算...

选择付费方式

对周期性高密度计算作业使用包年包月模式,对非周期性的规模数据处理作业使用按量计费模式。按量计费模式下可以不存储数据,通过读取其它账号下的表获取数据,从而可以节省数据存储费用。不同账号下跨表计算需要通过授权来实现,详细请...

使用DTS将自建数据库迁移到RDS,为什么迁移过程中RDS...

因为DTS进行的是逻辑迁移方式,它是将迁移数据封装成SQL后,同步到目标RDS实例中的,此时会在目标RDS实例中产生binlog数据,所以迁移过程中,RDS的空间大小可能比源数据

业务视角管理:数据专辑

使用限制 仅支持DataWorks专业版及以上版本使用数据专辑功能,低版本用户请先升级再使用该功能,详情请参见:DataWorks各版本详解。数据专辑目前仅支持管理MaxCompute表。进入数据专辑 进入数据地图页面。登录 DataWorks控制台,切换至目标...

数据质量入门

数据质量帮助您及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,阻断脏数据向下游蔓延。避免任务产出问题数据,影响正常使用和业务决策。本文示例配置表数据质量监控规则,保障产出的表数据...

SparkSQL使用扩展记录数据血缘和访问历史

通过EMR-HOOK,您可以使用数据湖构建(DLF)的数据概况,以统计表和分区的访问次数,您也可以使用DataWorks来管理数据血缘。本文为您介绍如何配置Spark服务的EMR-HOOK。前提条件 已创建DataLake或自定义集群,且选择了Spark服务,详情请...

基础使用

以下是在Spark SQL中使用数据湖元数据的配置,集群版本不同默认的Catalog名称不同,需要配置的参数也不同,具体请参见 数据湖元数据配置。EMR-5.6.0及后续版本 spark-sql-conf spark.sql.extensions=org.apache.iceberg.spark.extensions....

SmartData使用说明(EMR-3.20.0~3.22.0版本)

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

SmartData使用说明(EMR-3.22.0~3.25.1版本)

我们提供了 node.data-dirs.watermark.high.ratio 和 node.data-dirs.watermark.low.ratio 这两个参数用来调节本地存储的使用容量,值均为0~1的小数表示使用比例,JindoFS默认使用所有数据盘,每块盘的使用容量默认即为数据盘大小。...

DataWorks准备工作流程

DataWorks是为您提供专业高效、安全可靠的一站式大数据开发与治理平台,使用其进行数据开发前,您需做好相关准备工作,保障后续开发任务可顺利执行。本文为您介绍DataWorks的购买及环境准备流程,帮助您快速开通DataWorks并准备所需开发...

使用Copilot+增强分析实现一站式智能数据查询与可视化

基于以上操作,本教程展示了如何将本地数据单次手动上传到MaxCompute中,如需将业务生产过程中产生的数据定时同步至MaxCompute等大数据计算引擎中,推荐使用DataWorks数据集成,详情请参见 数据集成概述。附录:报告中所有卡片用到的SQL...

配置及使用数仓分层检查器

也可单击 图标,使用业务类英文缩写、数据集市英文缩写、主题域英文缩写等多种类别的来定义规则。可自由组合。说明 不同模型(例如,应用表、维度表)定义规则时可选类别存在差异,具体请以实际界面为准。指标规则:选择修饰词、原子指标...

容量中心

容量中心可以反映集群、租户、数据库、表、索引的资源使用情况及使用趋势,告知客户是否存在容量风险,便于客户及时进行扩容等操作。操作步骤 登录 OceanBase 管理控制台。在左侧导航栏中,单击 自治服务。在 实例详情 区域,单击需要查看...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

使用DataWorks连接

DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定计算引擎后,您即可在DataWorks上创建对应引擎...

RDS SQL Server空间不足问题

数据空间的回收通常有如下几种方式:归档数据 删除数据库中不常用的数据(例如早期的历史数据),或者根据需要迁移到其他数据库实例中,或者以其他形式归档保存,通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用