大数据常用工具

_相关内容

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力,您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源,实现将其他数据源的数据同步至Hive或HBase数据源,或将Hive或HBase数据...

DataWorks On EMR使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至EMR Hive的能力,您需要将Hive组件创建为 DataWorks的 Hive数据源,实现将其他数据源的数据同步至Hive数据源,或将Hive数据源的数据同步至其他数据源。同时,可根据需要选择...

Append Delta Table数据组织优化

要求数据必须以 插入或覆写数据(INSERT INTO|INSERT OVERWRITE)的形式一次性写入,在写入完成后,如果需要再进一步追加数据,则需要将表中原有的数据全部读取,与新增数据 并集(UNION)之后再次写入,数据追加代价非常,效率很低。...

DataWorks On MaxCompute使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

风险识别管理

规则名称 规则类型 规则等级 规则配置 非工作时间查询大数据量敏感数据 数据访问风险 低 如下时间段查询数据量大于10,000时命中该规则。周一至周五:19:00~24:00。周六至周日:00:00~24:00。相似SQL查询 数据访问风险 低 十分钟内查询...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

基本概念

DTS 数据传输服务(Data Transmission Service,简称DTS)支持关系型数据库(RDBMS)、非关系型数据库(NoSQL)、数据多维分析(OLAP)等数据源间的数据交互,集数据同步、迁移、订阅、集成、加工于一体,帮助您构建安全、可扩展、高可用的...

创建Teradata数据

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...

DataWorks On Hologres使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

图扑案例

厦门图扑软件联手 云原生多模数据库 Lindorm 开启工业物联超融合存储模式,应用于工业、制造、楼宇建筑、航空与航天行业。业务/技术亮点 百PB级海量多源异构监控数据一站存储。每秒高吞吐量轻松应对监控指标高并发写入。多模数据检索引擎...

创建DolphinDB数据

连接重试次数将默认应用于 离线集成任务 与 全域质量(需开通资产质量功能模块),离线集成任务中支持单独配置任务级别的重试次数 选择 默认资源组,该资源组用于运行与当前数据源相关任务,包括数据库SQL、离线整库迁移、数据预览等。...

创建Hologres数据

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据,及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中,您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

数据重排

在MaxCompute的使用过程中,如果已经积累了大量数据占用了大量存储资源,且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理,在您的存储预算有限,计算资源还有冗余的情况下,可以考虑使用数据重排方式对存储空间进行优化。...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

创建DolphinDB数据

连接重试次数将默认应用于 离线集成任务 与 全域质量(需开通资产质量功能模块),离线集成任务中支持单独配置任务级别的重试次数 选择 默认资源组,该资源组用于运行与当前数据源相关任务,包括数据库SQL、离线整库迁移、数据预览等。...

创建SelectDB数据

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

创建SelectDB数据

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。本文示例新建名为 rds_workshop_...

创建Doris数据

连接重试次数将默认应用于 离线集成任务 与 全域质量(需开通资产质量功能模块),离线集成任务中支持单独配置任务级别的重试次数 选择 默认资源组,该资源组用于运行与当前数据源相关任务,包括数据库SQL、离线整库迁移、数据预览等。...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

创建Doris数据

连接重试次数将默认应用于 离线集成任务 与 全域质量(需开通资产质量功能模块),离线集成任务中支持单独配置任务级别的重试次数 选择 默认资源组,该资源组用于运行与当前数据源相关任务,包括数据库SQL、离线整库迁移、数据预览等。...

创建Teradata数据

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...

创建及管理应用系统

应用系统可作为元数据采集的数据来源,也可同步开启消费功能以对接Quick BI自助消费。本文为您介绍如何创建及管理应用系统。前提条件 仅支持V5.5.1及以上版本、独立部署环境的Quick BI应用系统。需购买资产消费功能才能配置消费相关配置。...

创建Hologres数据

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据,及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中,您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

简介

时空数据管理面临的挑战 Ganos 解决什么问题 Ganos 为数据库构建了面向新型时空多模多态数据的一体化表达、存储、查询、分析与渲染支撑能力,解决了以往时空大数据使用流程复杂、使用门槛高、应用效率低等问题,可广泛应用于城市管理、交通...

简介

时空数据管理面临的挑战 Ganos 解决什么问题 Ganos 为数据库构建了面向新型时空多模多态数据的一体化表达、存储、查询、分析与渲染支撑能力,解决了以往时空大数据使用流程复杂、使用门槛高、应用效率低等问题,可广泛应用于城市管理、交通...

创建Amazon Redshift数据

通过创建Amazon Redshift数据源能够实现Dataphin读取Amazon Redshift的业务数据或向Amazon Redshift写入数据。本文为您介绍如何创建Amazon Redshift数据源。权限说明 仅支持具备 新建数据源权限点 的自定义全局角色和 超级管理员、数据源...

配置数据库的列加密

数据安全中心 DSC(Data Security Center)支持对RDS MySQL、RDS PostgreSQL、PolarDB MySQL、PolarDB PostgreSQL、PolarDB PostgreSQL(兼容Oracle)、PolarDB-X 2.0等数据库类型的数据列进行加密配置,确保数据库中敏感列数据加密后存储...

创建可视化应用

如果您使用的是其他数据源,在创建可视化应用之前,需要先 添加数据源。操作步骤 登录 DataV控制台。在 我的可视化 页面中,单击 PC端创建。选择空白画布模板,并单击 创建项目。在 创建数据大屏 对话框中,输入可视化应用名称,单击 创建...

创建逻辑模型:应用

应用表是面向具体业务场景时,用于组织相同时间周期、相同维度的多个原子指标、派生指标或统计粒度的统计数据,为后续的业务查询,OLAP分析,数据分发等提供基础。本文为您介绍如何创建应用表。功能介绍 应用表是将一个数据集市或主题域中...

后续指引

介绍:数据迁移 实践:数据迁移最佳实践 常见问题:数据上传下载常见问题 规模数据迁移 MaxCompute提供MMA(MaxCompute Migration Assist)迁移工具支撑规模数据迁移。开发与分析 数据类型 MaxCompute支持三种数据类型版本,为您介绍各...

应用场景

数据传输服务DTS(Data Transmission Service)支持数据迁移、数据订阅和数据实时同步功能,帮助您实现多种典型应用场景。不停机迁移数据库 传输方式:数据迁移 为了保证数据的一致性,传统的迁移过程需要您在迁移数据时停止向源数据库写入...

TPC-DS性能测试

MaxCompute适用于TB、PB和EB等各个数量级的数据查询场景,并在业界具有较的性能优势,本文基于MaxCompute提供的公开数据集及测试工具,以大数据基准测试TPC-DS为例为您验证MaxCompute的性能。当前MaxCompute提供两种不同性能测试方式,...

数据分析作业

本文为您介绍数据分析场景下的常用工具与使用注意事项。使用SQL查询 您可以在 使用SQL分析连接 的查询模式下执行各种SQL命令和授权命令,与在 使用客户端(odpscmd)连接 的执行结果等效。您还可以切换到分析模式使用Web Excel强大而丰富的...

近实时增量导入

涉及的数据源丰富多样,可能存在数据库、日志系统或者其他消息队列等系统,为了方便用户将数据写入MaxCompute的Delta Table,MaxCompute深度定制开发了开源 Flink Connector工具,联合DataWorks数据集成以及其它数据导入工具,针对高并发、...

更多数据同步方案

数据集成是阿里提供的跨异构数据存储系统的可靠、安全、低成本、可扩展的数据同步平台,支持20多种...您可以通过 数据集成 向云数据库RDS MySQL进行数据的导入和导出,详情请参见 MySQL数据源 以了解如何使用数据集成工具进行数据导入和导出。

PolarDB的高级脱敏

阿里云将 PolarDB MySQL版 集群代理(Proxy)的脱敏功能与 DMS 的敏感数据保护功能集成,当 DMS 识别到敏感数据后,会根据脱敏规则自动对数据进行脱敏,并实时同步到PolarDB的Proxy,最后通过应用程序等工具查询数据。高级脱敏功能具有但不...

会话管理

Spark Thrift Server会话:Spark Thrift Server是Apache Spark提供的一种服务,支持通过JDBC或ODBC连接并执行SQL查询,从而便捷地将Spark环境与现有的商业智能(BI)工具数据可视化工具及其他数据分析工具集成。相关文档 管理SQL会话 ...

调用API

调用方式 调用方式 适用场景 说明 安全级别 加密签名身份认证 应用程序开发、数据采集等。该方式需要在SDK中使用数据服务中的AppKey和AppSecret。具体操作,请参见 使用SDK调用API。高 简单身份认证 一般用于可视化场景,如DataV调用。该...

LLM操作

通过工具调用的监控数据,您可以全面评估模型应用与外部工具的交互情况,为优化和运维提供数据支持。面板 说明 调用次数 指定时间段内所有工具的调用总次数。调用平均耗时 指定时间段内所有工具调用的平均耗时。错误次数 指定时间段内...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用