大数据是指什么-大数据是指什么文档介绍内容-移动阿里云

常见问题

模糊查询：通常是指使用SQL中的LIKE通配符匹配关键词的查询。这种查询方式在搜索索引创建后可以直接使用。但是当需要匹配的数据量较大或本身存储的字符串内容较长时，查询性能可能会随着数据量的增大而降低。分词查询：数据查询时，搜索...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

冷数据归档备份与恢复

而归档到OSS的冷数据和InnoDB热数据，都是用户的实例数据，所以无论数据以什么形式存在，整个数据库实例都应该被视为一个整体来做备份恢复方案，为此我们对归档OSS的冷数据设计了一套完整的备份与恢复方案。技术原理针对于包含冷数据的...

数据加工过程卡点校验

本文为您介绍在线或离线业务系统的数据在生成过程中进行的卡点校验。在线系统卡点校验在线业务系统产生的数据是数据仓库的重要数据来源。在线业务系统复杂多变，每次变更都会产生数据的变化。因此，数据仓库需要适应多变的业务发展，及时...

常见问题

此处的任务并行度，实际上是指单个Routine Load拆分成的子任务个数。实际的任务并行度参照如下的计算公式。concurrent_num=Min(Min(partition_num,Min(desired_concurrent_num,alive_be_num)),Config.max_routine_load_task_concurrent_num...

分区表常见问题

其他：与传统的MySQL数据库不同，PolarDB MySQL版对大表的支持做了很多优化，线上集群有超过40 TB大小的单表（单表指非分区表），访问性能没有明显的下降。目前，对于64 TB以下的数据量也没有绝对要求必须要分区，您可以综合考虑数据的...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

MySQL数据源

} },"order":{"hops":[{"from":"Reader","to":"Writer"}]} } 配置分库分表说明分库分表是指在MySQL Reader端可以选择多个MySQL数据表，且表结构保持一致。此处的‘分库分表’是指多个MySQL写入同一个目标表，如想要支持整库级别配置分库...

Tunnel命令常见问题

java.io.IOException:Error writing request body to server 产生原因这是上传数据到服务器时产生的异常，通常是因为上传过程中的网络连接断开或超时导致的：当您的数据源并非是本地文件，需要从数据库等地方获取时，数据在写入的过程中还...

一键建仓

数据管理DMS一键建仓功能可以实现一键创建实时同步的数据仓库，数据可在秒级的延迟下，同步至AnalyticDB MySQL版数据库中，帮助您更实时、准确地掌握业务情况，以便更好地进行业务分析和决策，提升业务效果。本文介绍如何在数据管理DMS中...

迁移或同步指定时间段内的数据

说明创建实时同步任务是指创建实时数据复制任务，或创建一键迁移任务时勾选了实时数据复制。历史数据迁移登录LTS。在左侧导航栏，选择 Lindorm/HBase迁移>历史数据迁移。单击创建任务。填写并勾选相关参数：源集群、目标集群、表...

大数据开发治理平台 DataWorks

大数据开发治理平台 DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎，为客户提供专业高效、安全可靠的一站式大数据开发与治理平台，自带阿里巴巴数据中台与数据治理最佳实践，赋能各行业数字化转型。每天阿里巴巴集团内部有数万...

PolarDB PostgreSQL版（兼容Oracle）间的迁移

由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。请确认DTS对数据类型为FLOAT或DOUBLE的列的迁移精度是否符合业务预期。DTS会通过 ROUND(COLUMN,...

数据脱敏

增量脱敏是指每次脱敏数据为上次脱敏任务完成后新增的数据的脱敏方式。您需要选择一个源数据中随着时间递增的字段作为增量列，例如创建时间、自增ID（数据库自带的自增列）等。说明当前仅有RDS数据支持增量脱敏。分片字段否 DSC 执行静态...

离线同步常见问题

文档概述问题分类相关文档离线同步任务运维常见问题为什么数据源测试连通性成功，但是离线同步任务执行失败？如何切换数据集成任务执行资源组？脏数据如何排查和定位？如何查看脏数据？如果离线同步传输数据时，脏数据超出限制，是否...

新功能发布记录

水印嵌入是指将标识信息嵌入到数据或文件中，使其具备一定的标识度。对于不易察觉的水印，可以通过DMS的水印提取功能检测文件是否嵌入水印信息。数据水印权限模板新增权限模板支持对具有相同业务属性的实例、库、表等进行统一管理，然后...

PolarDB PostgreSQL版间的迁移

通过数据传输服务DTS（Data Transmission Service），可以实现 PolarDB PostgreSQL版集群间的迁移。前提条件已创建源和目标 PolarDB PostgreSQL版数据库集群，详情请参见创建PolarDB PostgreSQL版数据库集群。已将源和目标 PolarDB ...

概述

DataWorks（数据工场，原大数据开发套件）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘...

什么是数据库代理

数据库代理概述 RDS PostgreSQL数据库代理是位于数据库服务端和应用服务端之间的网络代理服务，用于代理应用服务端访问数据库时的所有请求。您可以连接数据库代理访问地址使用数据库代理的各项功能，以简化RDS PostgreSQL数据库实例的连接...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

概述

数据传输是 OceanBase 数据库提供的一种支持同构或异构数据源与 OceanBase 数据库之间进行数据交互的服务，具备在线迁移存量数据和实时同步增量数据的能力。产品功能数据传输提供可视化的集中管控平台，您只需要进行简单的配置即可实时...

新建AnalyticDB for MySQL 3.0数据源

更多信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏的 ...

新建AnalyticDB for MySQL 3.0数据源

更多信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源...

创建AnalyticDB for MySQL 2.0数据源

更多云原生数仓AnalyticDB MySQL信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源...

数据节点管理

背景介绍 PolarDB-X 支持存储资源池和数据节点单独升降配，实现数据节点的精细化管理与资源隔离，满足不同业务场景的需求，提升资源利用率。存储资源池，指的是将DN存储节点划分为互不交叉的池，支持在单个存储池维度通过添加/减少 DN 存储...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog ...

支持的数据库类型与功能

其他来源是指来自其他云厂商或自建的数据库。表格注释说明为了便于浏览和内容表达，本文的表格约定使用下述注释：✔️表示支持该功能。➖表示即将支持该功能。❌表示不支持该功能。关系型数据库关系型数据库在DMS功能模块中的支持情况...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

概述

为了帮助您更好地理解并且体验NL2SQL能力，PolarDB构建了 NL2BI解决方案：NL2BI是指「BI服务+NL2SQL」，即结合PolarDB数据库NL2SQL能力以及PolarDB高效数据查询和分析能力，基于内置的样本数据集和提问示例进行场景化体验，并以可视化图表...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

补数据任务概述

手动运行：是指手动触发补数据任务的运行，一般用于临时的数据补全或验证补数据效果。对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补数据任务进行补数据，减少重复配置的繁琐性。更多信息，...

补数据任务概述

手动运行：是指手动触发补数据任务的运行，一般用于临时的数据补全或验证补数据效果。对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补数据任务进行补数据，减少重复配置的繁琐性。更多信息，...

标准代码

标准代码是指数据标准中的枚举值和语义，可以作为基础数据标准的一部分，数据标准维度大部分来源于标准代码。在标准代码编辑器页面，您可以查看所有的标准代码。单击自定义标准编码文件夹，右键菜单选择创建自定义编码，输入代码编号...

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，...

与Oracle管理的对比

对象权限对象权限是指对指定的对象执行操作的权限，数据库对象包括表、视图、序列、大对象、模式、函数、过程语言等。对象权限包括SELECT、INSERT、UPDATE、DELETE、ALTER、INDEX、REFERENCES、EXECUTE等，具体的对象权限因对象类型而异。...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...