什么是大数据项目-什么是大数据项目文档介绍内容-移动阿里云

高效数据治理实施指南

步骤一：明确成本治理重点，规划数据治理工作成本治理工作的起始阶段，通常需要治理工作负责人建立一个治理框架，帮助其了解成本管理的现状，明确阶段性规划里，要治理的重点方向是什么，进而确认如何治理，以及怎样衡量治理的成功或失败...

创建PolarDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

文档更新动态（2022年）

更新说明 什么是Dataphin 添加派生指标和衍生指标新建注册上挂标签 2022年07月19日增加回收站功能可以将删除的数据处理任务还原。新增说明管理回收站的资源对象 2022年07月19日实时研发新增支持Ververcia Flink引擎支持Flink SQL流批...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

DML操作常见问题

如果表数据量较大，如何删除非分区表中的重复数据？执行INSERT操作过程中出现错误，会损坏原有数据吗？不会损坏原有数据。MaxCompute满足原子性，INSERT操作执行成功则更新数据，INSERT操作执行失败则回滚数据。执行INSERT INTO或INSERT ...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

资源分析

项目分析项目分析模块默认以项目和业务板块为维度，为您展示所有项目下的项目名称、业务板块、任务数、表数量、计算量、存储量、计算分、存储分、管理员和待治理项信息。项目名称：该项目的名称。业务板块：该项目所属的业务板块。...

资源分析

项目分析项目分析模块默认以项目和业务板块为维度，为您展示所有项目下的项目名称、业务板块、任务数、表数量、计算量、存储量、计算分、存储分、管理员和待治理项信息。项目名称：该项目的名称。业务板块：该项目所属的业务板块。...

常见问题

快速入门常见问题如下：新创建的MaxCompute项目为什么不支持数据类型自动隐式转换呢？在MaxCompute中创建表的方式有哪些？MaxCompute支持通过什么方式运行SQL语句?数据导入方式有哪些？误删除表数据如何恢复？不同项目的表是否可以相互引用...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

应用场景

但数据体系复杂、数据不统一，数据分析速度和数据准确一致性难保障，战略决策与数据化运营受阻。解决方案：数据融合：通过数据引入功能，将业务系统数据集成、融合一体，统一基础数据。数据建模：通过规范建模功能，结合业务发展需求，自顶...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

设置告警

数据传输支持对数据迁移和数据同步项目进行监控项的配置。项目创建完成后，您可以对单个项目设置告警监控，也可以选择多个项目进行批量操作。本文以数据迁移项目为例，为您介绍如何设置告警监控。背景信息告警监控功能是数据传输重要的运...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

MaxCompute数据源

使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。2023年12月11日之后创建的MaxCompute数据源，若数据源所在的DataWorks服务与需要...

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加、配置及管理...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

数据服务

数据服务中的API分组的作用是什么，与API网关中的分组有什么关联？如何合理设置API分组？最多可以创建多少个API分组？什么情况下要开启API返回结果分页功能？生成API是否支持POST请求？生成API是否支持HTTPS协议？为什么数据服务无法连接...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

云产品集成

在 DataV 添加 OceanBase for MySQL 数据源的详细操作，请参见：什么是DataV数据可视化配置数据库白名单添加OceanBase for MySQL数据源 Quick BI 数据分析与展现 Quick BI 是一款全场景数据消费式的BI平台，秉承全场景消费数据，让业务...

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加Dataphin成员。...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值，本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户架构如下。客户简介为了快速数字化转型，拥抱新零售，...

离线同步并发和限流之间的关系

脏数据限制阅读此部分，您可以解决和理解如下问题：问题一：什么是数据同步的脏数据？问题二：如何配置数据同步任务脏数据限制？问题三：数据同步速率和脏数据有哪些关联关系？脏数据限制能力用来控制任务在遇到脏数据时的行为，所谓脏...

购买流程

数据传输服务DTS（Data Transmission Service）支持先配置再购买和先购买再配置两种创建任务方式。若您需要随用随配，建议您选择先配置再购买的方式；若您需要先锁定财务预算而不需要配置任务，建议您选择先购买再配置的方式。本文介绍数据...

创建Tablestore数据源

权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏的管理中心。按照以下操作指引，进入新建数据源对话框。依次单击数据源管理->数据源->新建数据源。在 ...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

通过跨项目数据访问实现不同地域MaxCompute项目数据...

本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移，包括两种使用场景：同云账号内不同Region的项目数据迁移；不同云账号间不同Region的项目数据迁移。使用限制此方案只支持在中国内地地域间实现不同地域间的...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

创建三维城市场景项目

说明如果在选择空间数据项目 对话框内，空间数据项目较多，可以在选择空间数据项目 对话框左上角的搜索项目处，输入项目名称即可定位所需项目的内容，再进行选中。如果在选择空间数据项目 对话框内，没有任何已创建的空间数据项目，...

创建三维城市场景项目

说明如果在选择空间数据项目 对话框内，空间数据项目较多，可以在选择空间数据项目 对话框左上角的搜索项目处，输入项目名称即可定位所需项目的内容，再进行选中。如果在选择空间数据项目 对话框内，没有任何已创建的空间数据项目，...

创建Log Service数据源

说明通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 LogHub Endpoint Log Service的...

迁移 PolarDB-X 1.0 数据库的数据至 OceanBase 数据库...

数据传输支持在数据迁移项目运行过程中修改迁移对象，详情请参见查看和修改迁移对象。数据迁移项目启动后，会根据选择的迁移类型依次执行，详情请参见查看迁移详情。相关文档新建 PolarDB-X 1.0 数据源新建 OceanBase 数据源批量操作...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

数据脱敏

数据安全中心（Data Security Center，简称DSC）支持静态脱敏和动态脱敏，可以脱敏数据库中的敏感数据。本文介绍如何使用静态脱敏和动态脱敏。脱敏方式静态脱敏：通过新增脱敏任务，使用脱敏算法对敏感数据进行遮盖、加密或替换，并将脱敏...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

概述

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介在现实世界中，绝大多数的数据都...