大数据软件中心-大数据软件中心文档介绍内容-移动阿里云

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版（兼容Oracle）背景信息功能测试或者性能测试时，往往需要准备测试数据，通常有以下几种方法：手工编写：效率低，不适用于大数据量场景。维护生成测试数据脚本：成...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

JindoFS实战演示

Flume高效写入OSS Flume高效写入OSS 2021-06-01 Flume是一个分布式、可靠、高可用的系统，支持从不同数据源高效地收集、聚合、迁移大量日志数据，聚合到中心化的数据存储服务，被广泛用于日志收集场景中。由于OSS本身不支持Flush功能，而...

DLF Catalog数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

通过操作审计查询行为事件日志

DIRunStreamxJob 运维中心数据集成启动实时任务 DIBatchRunStreamxJob 运维中心数据集成批量启动实时任务 DIStopStreamxJob 运维中心数据集成停止实时任务 DIBatchStopStreamxJob 运维中心数据集成批量停止实时任务 DIOfflineStreamxJob 运...

如何处理数据倾斜

在云数据库 Tair（兼容 Redis）集群架构实例中，若个别数据分片节点（Data Node）的内存使用率、CPU使用率或带宽使用率等性能指标远远高于其他数据分片，该集群可能已产生数据倾斜。数据倾斜严重时，会导致实例在整体内存使用率不高的情况...

什么是DataWorks

DataWorks是一站式智能大数据开发治理平台，适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、AnalyticDB、StarRocks、PAI 等数十种大数据和AI计算服务，为数据仓库、数据湖、湖仓一体、Data+AI解决方案提供全链路智能化的数据集成、...

数据导入

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

通用配置：添加白名单

云原生大数据计算服务MaxCompute设置白名单 RDS MySQL数据库设置白名单云原生数据仓库AnalyticDB MySQL版设置白名单云原生数据仓库AnalyticDB PostgreSQL版设置白名单云数据库OceanBase 版设置白名单云数据库ClickHouse设置白名单云...

SQL查询（新版）

对象存储OSS：将查询结果以指定格式（如CSV、Parquet）导出至阿里云对象存储OSS（Object Storage Service）空间，适用于大数据量归档或与其他云产品集成的场景。首次使用时，您需要为DataWorks进行授权，以允许其访问您的OSS资源。请在 ...

观远BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入观远BI，帮助企业的业务人员和数据分析师开展以问题为导向的探索式分析工作以及制作数据卡片和数据看板。本文为您介绍如何通过MaxCompute JDBC驱动，连接观远BI和MaxCompute项目，并进行可视化...

列加密

数据安全中心 DSC（Data Security Center）列加密功能是一项数据安全技术，通过对数据库中的特定列进行加密存储，实现对RDS（MySQL或PostgreSQL）、PolarDB（MySQL、PostgreSQL或Oracle）、PolarDB-X 2.0等数据库敏感列数据的加密访问，...

基于Delta Table构建近实时增全量一体化链路架构

面对当前日益复杂且对数据时效性要求极高的近实时业务场景，MaxCompute基于Delta Table推出了集大规模存储、高效批量处理和近实时能力于一体的近实时增量一体化架构。本文为您介绍该架构的工作原理及其优势。背景和现状在当前典型的数据...

列加密

通过数据安全中心DSC（Data Security Center）提供的列加密功能，可以实现对RDS PostgreSQL敏感列数据加密访问，防止非授权人员通过云平台软件或数据库连接工具直接访问敏感数据明文。该功能可确保列数据在数据库内可用但不可见，有效防御...

ListDoctorHiveTables-批量获取Hive表分析结果

冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内都没有访问的数据。totalDataSize:总数据量大小。hotDataRatio:热数据的数据量大小占比。热数据指的是 7...

简介

概述 GanosBase（简称Ganos）是阿里云自主研发的新一代时空数据库引擎，它将时空数据处理能力融入了云原生关系型数据库PolarDB中，为数据库构建了面向新型时空多模多态数据的一体化存储、查询、分析与渲染支撑能力。Ganos 取名于大地女神...

简介

概述 GanosBase（简称Ganos）是阿里云自主研发的新一代时空数据库引擎，它将时空数据处理能力融入了云原生关系型数据库PolarDB中，为数据库构建了面向新型时空多模多态数据的一体化存储、查询、分析与渲染支撑能力。Ganos 取名于大地女神...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

散点层

重要该配置项为一个数组，配合数据分级使用，从类型1到类型n为递增的设置，例：类型1设置为10，则表示value值为0~10的数据将展示为10的大小，类型2设置为20，则表示value值为11~20的数据将展示为20的大小，如果数据分级配置项设置为3级，...

使用数据集

在节点（Shell节点、Python节点、Notebook节点）中使用数据集，以便在数据开发过程中读写NAS或OSS存储中的数据。也可以在创建个人开发环境时，将数据集作为个人开发环境实例的存储。重要建议优先阅读管理数据集，了解如何创建数据集。...

配置Hive输出组件

同步其他数据源的数据至Hive数据源的场景中，完成源数据源的信息配置后，需要配置Hive输出组件写入数据的目标数据源。本文为您介绍如何配置Hive输出组件。使用限制 Hive输出组件支持写入文件格式为 orc、parquet、text、Hudi（Hudi格式仅...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

迁移方案概览

数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景。本文将介绍数据迁移功能支持的数据库、版本和迁移类型，以及具体的配置文档。背景信息迁移类型说明 ...

数据服务管理

管理数据服务在 DataV-Atlas控制台中选择开放中心数据服务服务列表，进入服务管理页。服务列表中可以完成服务搜索过滤、服务状态改变、服务配置功能。服务搜索过滤服务搜索：支持通过搜索栏进行服务搜索。服务过滤：支持通过服务标签...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。背景信息数据推送节点可以通过节点上下文...

数据清理

背景信息 ODC 支持在源数据库中的数据归档到目标数据库后，删除源数据库中的数据，以提高数据库查询性能，降低在线存储成本。本文档以新建数据清理为例，介绍如何在 ODC 中清理数据库 test2 中的表 employee。说明文中所使用的均为示例...

添加DataV Atlas地理数据服务

您可登录 DataV Atlas控制台，在开放中心数据服务数据服务令牌中获取服务地址和访问令牌。访问令牌配置信息填写完成后，单击确定，完成数据源的添加。新添加的数据源会自动显示在数据源列表中。使用DataV Atlas数据服务下面将使用...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。原理介绍数据推送节点，可以通过节点上...

创建Redis数据源

操作步骤在Dataphin首页，单击顶部菜单栏管理中心数据源管理。在数据源页面，单击+新建数据源。在新建数据源页面的 NoSQL 区域，选择 Redis。如果您最近使用过Redis，也可以在最近使用区域选择Redis。同时，您也可以在搜索框中，...

创建Redis数据源

操作步骤在Dataphin首页，单击顶部菜单栏管理中心数据源管理。在数据源页面，单击+新建数据源。在新建数据源页面的 NoSQL 区域，选择 Redis。如果您最近使用过Redis，也可以在最近使用区域选择Redis。同时，您也可以在搜索框中，...

创建HDFS数据源

操作步骤在Dataphin首页，单击顶部菜单栏管理中心数据源管理。在数据源页面，单击+新建数据源。在新建数据源页面的文件区域，选择 HDFS。如果您最近使用过HDFS，也可以在最近使用区域选择HDFS。同时，您也可以在搜索框中，输入...

功能特性

资源中心数据源中心支持配置数据源，以满足不同的数据存储和访问需求。数据源中心安全中心安全中心涵盖用户管理、告警实例及告警组管理，以及审计日志，确保了操作的精细权限控制和安全监控。管理用户管理告警组和告警实例管理审计...

创建FTP数据源

操作步骤在Dataphin首页的顶部菜单栏中，选择管理中心数据源管理。在数据源页面，单击+新建数据源。在新建数据源页面的文件区域，选择 FTP。如果您最近使用过FTP，也可以在最近使用区域选择FTP。同时，您也可以在搜索框中输入...

创建FTP数据源

操作步骤在Dataphin首页的顶部菜单栏中，选择管理中心数据源管理。在数据源页面，单击+新建数据源。在新建数据源页面的文件区域，选择 FTP。如果您最近使用过FTP，也可以在最近使用区域选择FTP。同时，您也可以在搜索框中输入...

数据归档

本文档旨在介绍如何通过提交数据归档工单实现归档数据。背景信息 ODC 支持定时将源数据库中的表数据归档至其它目标数据库中，以解决因线上数据增多影响查询性能与业务运作的问题。本文档以新建数据归档为例，介绍如何在 ODC 中将同一项目的...

功能发布记录

2024.10.14 计费概述购买数据安全中心数据检测响应：OSS泄露（AK场景）迭代新增访问溯源Graph功能，支持可视化OSS文件访问行为路径，直观地展示和分析OSS中数据访问的复杂关系，帮助您追踪和分析OSS文件的访问情况。2024.09.24 OSS文件...

数据灾备（原DBS）

数据量：介绍在数据库备份场景下的四个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。内置存储与用户OSS：从安全性、可靠性、成本、易用性、增值服务等方面介绍数据灾备内置存储和用户OSS的情况。产品计费备份费用：...

东软案例

目前，东软在物联网、互联网等新场景下面临的IT系统运维主要问题与挑战有：多模型数据融合分析困难，面向海量数据采集终端同时写入数据的并发能力弱，数据量大且价值密度低导致存储成本高，基于开源软件自建数据存储集群稳定性低运维成本...