大数据平台搭建注意事情

_相关内容

无感集成(Zero-ETL)

方案概述 在大数据时代,企业面临着大量分散在不同的系统和平台上的业务数据,为了有效地管理和利用这些数据,企业往往需要依赖于ETL工具对数据进行集中式管理。ETL是将上层业务系统的数据经过提取(Extract)、转换清洗(Transform)、...

文档修订记录

Check节点 2024.1.12 新增功能 最佳实践 新增DataWorks大数据安全治理实践新增指南,为您介绍数据安全治理的常见思路、DataWorks产品的安全能力,以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

2023年

JSON_SET 2023-10-09 新增Sugar BI连接MaxCompute 新说明 Sugar BI是百度智能云推出的敏捷 BI 和数据可视化平台,MaxCompute支持您将MaxCompute项目数据接入Sugar BI,帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用Sugar ...

2019年

概述 通过Tunnel迁移日志数据至MaxCompute 通过DataHub迁移日志数据至MaxCompute 通过DataWorks数据集成迁移日志数据至MaxCompute 通过日志服务迁移日志数据至MaxCompute 2019-12-25 新增开源地理空间UDF。新功能 您可以将开源地理空间UDF...

DataWorks数据服务对接DataV最佳实践

现在通过DataWorks为您提供的 数据集成>数据开发>数据服务 的全链路数据研发平台,结合MaxCompute即可快速搭建企业数仓。DataWorks数据服务提供了快速将数据表生成API的功能,通过可视化的向导模式操作,无需代码便可快速生成API,然后通过...

管理控制台功能概览

功能模块 您可通过控制台了解DataWorks各模块的功能及使用流程,并快速进入指定工作空间的 数据集成、智能数据建模、数据开发、运维中心、数据质量、数据分析、数据地图、安全中心、数据治理中心、数据服务、管理中心 模块执行相关操作。...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

入门概述

设计原型图如下图所示:应用搭建 基于应用设计需求,在魔笔平台搭建一个基础的待办事项管理平台搭建流程就包含以下三个部分:步骤一、新建应用。步骤二、应用搭建。搭建待办事项的增删改查功能。搭建登录功能。列表页集成今日天气接口。...

快速创建Milvus实例

通过创建阿里云向量检索Milvus实例,能够迅速搭建起具备高性能、弹性伸缩特性的AI向量检索数据库,并借助内置可视化管理工具Attu实现高效运维与监控。本文为您介绍如何快速创建Milvus实例。前提条件 已拥有阿里云账号。如果您还没有阿里云...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

什么是阿里云Cloudera CDP

企业数据平台Cloudera Data Platform(简称阿里云CDP),是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

产品概述

DataV数据可视化应用搭建平台以丰富的图表组件和二三维时空地理组件为特色,搭配强大的低代码可视化搭建编排能力,可以高效、低成本地完成可视化大屏、PC数据看板、移动端报表等各类数据可视化应用的搭建,并集成到您的业务系统中。...

客户案例

价值体现 从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(...

Kyuubi概述

使用场景 交互式分析:利用Kyuubi可以构建企业级分析平台,用于对大数据进行交互式可视化分析,支持常见的计算框架。Kyuubi支持JDBC和ODBC接口,您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

通过大数据平台搭建设备监控大屏

本文介绍如何对接物联网平台和阿里云大数据平台,以实现设备数据分析、统计、计算和可视化实时展示。前提条件 开通、购买相关阿里云产品实例和计算资源。使用阿里云大数据平台处理物联网平台设备相关数据,涉及多个阿里云产品,包括 云数据...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台,其中数据集成服务支持导出数据到GDB,您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

构建数据仓库

用户的应用场景复杂,对非结构化的语音、自然语言文本进行语音识别、语义分析、情感分析等,同时融合结构化数据搭建企业级的数据管理平台,并且计算和存储成本最低。平台支撑多种形式的应用,包括使用机器学习算法进行复杂数据分析、使用BI...

E-MapReduce本地盘实例规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点,并进行大数据基准性能测试。应用范围 需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

基本概念

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。统一服务 应用:是调用API...

产品优势

企业基于物联网通过运营设备数据实现效益提升,是行业趋势和业内共识。然而,企业在建设物联网系统的过程中往往存在各类阻碍。针对这些严重制约企业物联网发展的问题,阿里云物联网平台相比企业自建MQTT集群、MQTT服务器具有不可比拟的优势...

互联网、电商行业离线大数据分析

通过阿里云MaxCompute、云数据库RDS MySQL、DataWorks等产品,可以实现互联网、电商网站的离线数据分析,且支持通过DataV大屏展示分析后的业务指标数据。概述 电商网站的销售数据通过大数据进行分析后,可以在屏幕展示销售指标、客户指标...

升级数据库版本

注意事项 升级分片集群实例的数据版本时,实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行,升级过程中会自动对实例进行2~3次重启,请在业务低峰期执行并确保应用程序具有重连机制。说明 推荐生产环境的应用程序通过...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

添加用户和数据

本文介绍如何在企业数据智能平台添加用户以及数据源。注意事项 请使用角色为 租户管理员 的账号进行 添加用户 和 添加数据源 操作。如果您是第一次使用企业数据智能平台,请使用阿里云账号进行 添加用户 和 添加数据源 操作。添加用户 登录...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

ECS实例说明

大数据型 使用本地SATA盘作存储数据,存储性价比高,是大数据量(TB级别的数据量)场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点;Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型 使用本地...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

DataWorks on EMR数据安全方案

大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

01创建解决方案

将应用、服务、数据源等资源生成整体解决方案包,便于在其他系统或工作组中快速部署。本文以按应用关联为例,介绍如何创建解决方案。前提条件 已创建“信息中心(xxzx)”工作组,具体操作,请参见 新建工作组并添加成员。线上场景已上线,...

规格及选型

16C128G ESSD云盘 PL2 适合企业级平台建设,适用于高并发场景,规模企业核心数据平台推荐选择。高性能(基础版)2C8G ESSD云盘 PL0 POC测试。个人学习使用,体验测试产品能力。4C16G ESSD云盘 PL0 ESSD云盘 PL1 适合计算存储均衡场景,...

准备环境

为保证您可以顺利完成本次实验,请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和 人工智能平台 PAI。前提条件 注册阿里云账号,详情请参见 注册阿里云账号。实名认证,详情请参见 个人实名认证 背景信息 本次...

什么是EMR on ECS

您可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。100%采用社区开源组件,适配并优化开源组件,性能远高于开源版本。基于时间的弹性伸缩能力,抢占式实例可进一步降低成本。解耦了计算与存储之间的绑定关系,...

数据标准

数据是由特定的环境产生的,这些环境因素包括生产者、时间、系统等,从而造成了同一个语义的数据,有多种不同的定义方法,给后期进行数据汇集和整合带来障碍。因此,数据处理的前奏就是数据标准化,数据标准作为一个统一的数据共识,在标准...

物联网设备数据上云存储

本文介绍如何使用阿里云物联网平台和 TSDB 进行数据打通,实现物联网设备系统的开发和管理、数据采集、数据上报、数据存储和分析的一体化方案,构建智能物联网平台。架构参考“物联网平台+TSDB”方案的实现架构如下:物联网设备通过 IoT ...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

产品架构

EMR自研能力 为让开源大数据组件和服务更好的运行在阿里云技术设施上,EMR自研了如下组件:数据应用平台,提供交互式开发、作业提交、作业调试和工作流一站式数据开发体验,详情请参见 EMR Studio概述。Shuffle Service是EMR在优化计算引擎...

其他问题

为什么不能在调度资源组上进行大数据计算?其他 如何设置任务优先级?如何查看任务优先级?周期任务与周期实例、补数据实例、测试实例是什么关系?DataWorks每晚将根据周期任务,批量生成第二天自动调度的周期实例,周期实例自动生成并且...

云产品集成

常见云产品如下:大数据开发治理平台 DataWorks 实时计算 Flink 版 数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现 前提条件 已获取 OceanBase 数据库的基本连接信息,详细步骤请参见 获取连接参数。大数据开发治理平台 ...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用