软件大数据项目概况-软件大数据项目概况文档介绍内容-移动阿里云

引入预制模型

导入模型时将在您创建的MaxCompute项目中自动创建模型所需的数据板块、项目及计算源，因此需要您提供计算源的连接信息。由于模板导入将在计算源（MaxCompute项目）中创建表，可能造成冲突及覆盖已有表，建议使用空白的MaxCompute项目。...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

MMA概述

数据迁移原理 Hive数据迁移原理 Hive数据迁移包含通过Hive UDTF迁移数据到MaxCompute、通过OSS迁移Hive数据到MaxCompute，本文为您介绍两种数据迁移方式的原理。通过Hive UDTF迁移数据到MaxCompute。该场景通过Hive的分布式能⼒，实现Hive...

常见问题

数据安全中心DSC根据为不同行业预先定义的敏感数据关键字段，扫描MaxCompute、OSS、阿里云数据库服务（RDS、PolarDB-X、PolarDB、OceanBase、表格存储等）和自建数据库中的数据，通过敏感数据规则，判断和打标敏感数据，为数据安全审计、...

项目

项目（Project）是MaxCompute的基本组织单元，它类似于传统数据库的Database或Schema的概念，是进行多用户隔离和访问控制的主要边界。项目中包含多个对象，例如表（Table）、资源（Resource）、函数（Function）和实例（Instance）等，您...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

MaxCompute数据源

使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。2023年12月11日之后创建的MaxCompute数据源，若数据源所在的DataWorks服务与需要...

执行补数据并查看补数据实例（旧版）

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

安全配置常见问题

MaxCompute拥有完备的措施来保证用户的数据安全：多用户场景，除项目所有者（Project Owner）或项目管理员之外，未经授权的用户无法访问MaxCompute项目。MaxCompute提供了多种授权方式，保证只有经过授权的用户才能访问MaxCompute项目。...

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

权限自查建议

随着项目的不断演进，人员的权限也会更新迭代，您需要及时审视人员权限合理性，提升项目数据安全。本文为您介绍权限查询要点，并提供调整建议供参考。背景信息在项目创建初期，为了提升业务处理效率，通常在用户和权限管理上相对宽松。...

附录：空间级预设角色与MaxCompute引擎权限的映射关系

可以对该项目空间的基本属性、数据源、当前项目空间计算引擎配置和项目成员等进行管理，并为项目成员赋予项目管理员、开发、运维、部署、访客角色。开发 Role_Project_Dev MaxCompute引擎层面：当前项目下 project/table/fuction/resource/...

文档修订记录

最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个阶段落地数据安全治理项目的最佳...

Yonghong BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入Yonghong BI，帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何连接Yonghong BI和MaxCompute项目，并进行可视化数据分析。背景信息 Yonghong Desktop是一款桌面智能数据分析工具，基于...

观远BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入观远BI，帮助企业的业务人员和数据分析师开展以问题为导向的探索式分析工作以及制作数据卡片和数据看板。本文为您介绍如何通过MaxCompute JDBC驱动，连接观远BI和MaxCompute项目，并进行可视化...

公开数据集概述

GitHub公开事件数据项目名称 BIGDATA_PUBLIC_DATASET Schema名称 github_events 可用地域华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华北6（乌兰察布）、华南1（深圳）、西南1（成都）表名称与说明大量开发人员在...

安全设置

支持-当前项目Prod环境的所有表操作支持-不支持跨项目查询支持-跨项目DDL 支持不支持-说明-表示当前操作不受跨项目安全模式或生产数据安全模式功能管控。重要设置安全模式后，项目数据有更高的安全性，但是会导致系统使用流畅程度...

安全设置

支持-当前项目Prod环境的所有表操作支持-不支持跨项目查询支持-跨项目DDL 支持不支持-说明-表示当前操作不受跨项目安全模式或生产数据安全模式功能管控。重要设置安全模式后，项目数据有更高的安全性，但是会导致系统使用流畅程度...

MaxCompute+DLF+OSS湖仓一体的湖查询和湖数据入仓实践

MaxCompute、DLF和OSS是阿里云提供的一体化解决方案，可以实现数据湖查询和湖数据入仓。通过配置DLF，将数据从OSS导入到MaxCompute中，并使用MaxCompute进行数据湖查询。该方案可以方便地进行数据分析和处理，并保证数据的可靠性和安全性。...

场景：跨账号创建数据源

说明您可根据跨账号添加的数据源在A工作空间的使用场景，提前为RAM角色授权与相关权限，例如，若要在A工作空间查询B工作空间数据源下的表，需确保数据源配置的RAM角色已拥有该表的SELECT权限。账号A：使用账号B的用户信息创建数据源说明 ...

查看实例统计

实例统计展示系统内离线实例和实时实例的运行详情、运行趋势、运行失败实例数排行、失败报警实例数排行等信息，帮助您从项目视角或全局视角，把控实例运行的情况。本文为您介绍运维中心的实例统计。实例统计入口请参见运维中心入口，进入...

查看实例统计

实例统计展示系统内离线实例和实时实例的运行详情、运行趋势、运行失败实例数排行、失败报警实例数排行等信息，帮助您从项目视角或全局视角，把控实例运行的情况。本文为您介绍运维中心的实例统计。实例统计入口请参见运维中心入口，进入...

MaxCompute+Hadoop搭建实践

本文以E-MapReduce的Hive为例，为您介绍在MaxCompute中如何创建外部项目，并查询Hadoop中的表数据。使用限制仅华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华南1（深圳）、中国香港、新加坡和德国（法兰克福）地域...

监控报警

Tunnel日累计下载数据量_项目级别以项目为单位，单日该项目累计下载的数据量监控指标。您可以设置最大数据量（MB），达到或超过这个阈值会触发报警。Tunnel日累计上传数据量_项目级别以项目为单位，单日该项目累计上传的数据量监控指标。...

新建MaxCompute计算源

MaxCompute计算源用于绑定Dataphin项目空间和MaxCompute项目，为Dataphin项目提供处理离线计算任务的计算源。如果Dataphin系统的计算引擎设置为MaxCompute，则只有项目空间添加了MaxCompute计算源，才支持规范建模、即席查询、MaxCompute ...

基于DLF数据入湖的MaxCompute湖仓一体实践

由于DLF中数据入湖功能已经停止更新，本文采用DataWorks数据集成的入湖方式，以MySQL数据入湖为例，为您介绍在MaxCompute中如何创建外部项目，并查询DLF中的表数据。使用限制仅华东1（杭州）、华东2（上海）、华北2（北京）、华北3...

Davinci连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入Davinci，您只需在可视化UI界面上简单配置即可服务多种数据可视化应用。本文为您介绍如何通过MaxCompute JDBC驱动，连接Davinci和MaxCompute项目，并进行可视化数据分析。背景信息 Davinci是面向...

元数据仓库共享模型标准访问方式

元数据共享模型是一系列元数据相关的物理表，基于Dataphin的系统元数据和相应计算引擎的元数据加工汇总而成，存储在Dataphin元仓租户下的元仓项目中，产出时效为T+1。若您需访问元仓共享模型，可以通过集成任务将元仓中所需的元仓共享模型...

数据归档

RDS MySQL实例数据量较大时，存储成本会随之增高。业务数据通常分为冷数据和热数据，将对象存储（OSS）作为归档冷数据的存储介质，能够大幅降低用户的存储成本。功能简介在开启RDS MySQL通用云盘的数据归档OSS功能后，用户可通过执行下面...

Superset连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入Superset，帮助您快速、轻量、直观地探索和可视化分析数据。本文为您介绍如何通过PyODPS连接Superset和MaxCompute项目，并进行可视化数据分析。背景信息 Apache Superset是一个现代数据探索和可视...

创建并管理数据源

若您想在DataWorks操作您的数据库或数据仓库（例如，MaxCompute项目数据），需先在DataWorks的数据源管理页面，将数据库或数据仓库创建为DataWorks的数据源，并将该数据源绑定至DataWorks相应的功能模块使用。例如，同步MaxCompute数据前，...

2021年

新功能 MaxCompute提供湖仓一体方案，该方案可以打破数据湖与数据仓库割裂的体系，并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力构建数据湖和数据仓库相融合的数据管理平台。MaxCompute湖仓一体概述 2021年2...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

Github实时数据同步与分析

教程简介本教程基于GitHub Archive公开数据集，通过DataWorks将GitHub中的项目、行为等20多种事件类型数据实时采集至Hologres进行分析，同时使用DataV内置模板，快速搭建实时可视化数据大屏，从开发者、项目、编程语言等多个维度了解...

运维监控概述

您可以查看运维总览数据、调用API的情况及为API配置限流和告警：查看异常影响分析：以指标卡的形式直观清晰的展现了特定时间段内，特定服务项目下发布API数、在线API数、调用API数、在线API调用率、API的调用总次数、异常调用总次数、错误...

空间分析

CloudDBA空间分析提供了查询空间概况、空间变化趋势、异常列表、数据空间和空间碎片回收功能，您可以通过这些信息及时发现数据库中空间的异常情况，避免影响数据库稳定性。前提条件实例为MongoDB 4.0及以上版本的副本集或分片集群实例。...

FineReport连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入FineReport，您通过简单拖拽式操作便可制作中国式复杂报表。本文为您介绍如何通过MaxCompute JDBC驱动，连接FineReport和MaxCompute项目，并进行报表分析。背景信息 FineReport是帆软软件有限公司...

什么是MaxCompute

随着数据收集手段不断丰富，行业数据大量积累，数据规模已增长到了传统软件行业无法承载的海量数据（TB、PB、EB）级别。MaxCompute提供离线和实时的数据接入，支持大规模数据计算及查询加速能力，为您提供面向多种计算场景的数据仓库解决...