大数据数据采集软件

_相关内容

创建Greenplum数据

通过创建Greenplum数据源能够实现Dataphin读取Greenplum的业务数据或向Greenplum写入数据。本文为您介绍如何创建Greenplum数据源。背景信息 Greenplum是一款大数据分析引擎,适用于分析、机器学习和AI等领域。其架构主要针对管理规模分析...

使用新版数据开发体验

通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站...

使用新版数据开发体验

通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站...

快速接入

新人需知道 首先,让我们了解一次完整的埋点流程,从提出需求到数据采集到Quick Tracking展示包含哪些关键环节:第1步:业务准备(需求|业务技术)由需求人员主导整体的需求梳理、指标体系设计和埋点方案设计。其中,业务人员配合进行需求...

功能特性

DataWorks 提供一站式大数据开发与治理平台,涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力,支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成:全领域数据汇聚 DataWorks的数据...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据,您可以根据自身业务需求自由消费增量数据,并写入目标端,实现各类业务场景,例如缓存更新、业务异步解耦、异构数据数据实时同步及含复杂ETL的多种业务场景。源库限制 限制项 说明 网络...

限制说明

项目 限制说明 数据类型 云数据库 Memcache 版仅支持 Key-Value 格式的数据,不支持 array、map、list 等复杂类型的数据数据可靠性 云数据库 Memcache 版的数据存储在内存中,服务并不保证缓存数据不会丢失,有强一致性要求的数据不适合...

权限管理

数据采集 功能权限 功能权限名称 权限说明 数据采集_埋点验证访问 可以访问「数据采集-埋点验证」,使用埋点验证功能并可以查看验证报告 注意:必须要有至少一个「数据采集」的“数据权限”才能正常访问。数据权限 数据权限名称 权限说明 ...

通过迁移评估采集采集数据库对象

您可以自行采集数据库对象定义,也可以下载迁移评估采集器完成数据库对象的采集。本文为您介绍如何通过迁移评估采集采集数据库对象。背景信息 迁移评估采集器是用于在公有云环境采集用户 Schema 数据的工具。您在公有云环境下不可以使用...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

创建IMPALA数据

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...

数据导入

数据库 SelectDB 版 支持多样化的数据导入方式,涵盖原生接口与生态工具,满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议 阿里云生态源数据:DTS、DataWorks 非阿里云生态...

通过DTS采集数据

查看数据采集结果。回到 DataHub控制台,查看通过DTS创建的数据结构是否有缺失。在RDS数据库中插入一条数据,单击 数据抽样,查看增量数据同步结果。注意 DataHub同步的是增量数据,您的数据库中必须插入、删除或更新一条或多条数据后,才...

数据库监控

说明 上述各监控项的数据采集周期均为1分钟。最多支持查看7天内的监控数据。操作步骤 登录 PolarDB分布式版控制台。在页面左上角选择目标实例所在地域。在 实例列表 页,找到目标实例并单击实例ID。在左侧导航栏中,单击 监控与报警 数据库...

使用DataWorks连接

DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定后您可以创建计算任务并进行周期调度。使用...

创建TDengine数据

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明 仅支持具备 新建数据源权限点 的自定义全局角色和 超级管理员、数据源管理员、板块架构师、项目管理员...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据,您可以根据自身业务需求自由消费增量数据,并写入目标端,实现各类业务场景,例如缓存更新、业务异步解耦、异构数据数据实时同步及含复杂ETL的多种业务场景。源库限制 限制项 说明 网络...

创建Presto数据

说明 通常情况下,生产数据源和开发数据源需配置为非同一个数据源,以实现开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。参数 描述 JDBC URL Presto的连接地址...

创建TDengine数据

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明 仅支持具备 新建数据源权限点 的自定义全局角色和 超级管理员、数据源管理员、板块架构师、项目管理员...

新增消费组

若DTS增量数据采集模块或者客户端切换,则可能会导致数据重复。操作步骤 登录 数据传输控制台。在左侧导航栏,单击 数据订阅。在 数据订阅列表 页面上方,选择订阅通道所属地域。定位至已购买的数据订阅通道,单击订阅ID。单击左侧导航栏的...

创建Presto数据

说明 通常情况下,生产数据源和开发数据源需配置为非同一个数据源,以实现开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。参数 描述 JDBC URL Presto的连接地址...

数据集成

数据源支持情况 数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句,来查询和分析存储在MaxCompute中的大数据,详情请参见 SQL查询(旧版)。您可以通过编写SQL语句,对有查询权限的数据源进行快速的数据查询与分析操作,详情请参见 SQL查询(旧版)。...

创建Teradata数据

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...

创建Lindorm(计算引擎)数据

通过创建Lindorm(计算引擎)数据源能够实现Dataphin读取Lindorm(计算引擎)的业务数据或向Lindorm(计算引擎)写入数据。本文为您介绍如何创建Lindorm(计算引擎)数据源。背景信息 Lindorm(计算引擎)是阿里云推出的自研数据库,提供宽...

创建Aliyun HBase数据

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase,是低成本、高扩展、云智能的大数据NoSQL。...

风险识别管理

规则名称 规则类型 规则等级 规则配置 非工作时间查询数据量敏感数据 数据访问风险 低 如下时间段查询数据量大于10,000时命中该规则。周一至周五:19:00~24:00。周六至周日:00:00~24:00。相似SQL查询 数据访问风险 低 十分钟内查询...

资产消费

需购买OpenAPI功能,使用Dataphin JDBC对接Dataphin和Quick BI系统进行数据采集和消费。权限说明 超级管理员、运营管理员及拥有 消费-消费渠道管理 权限的自定义全局角色支持资产消费。消费渠道 Dataphin支持通过Notebook、仪表板、自助取...

数据扫描和识别

本文介绍敏感数据扫描和识别的常见问题及解决方法。数据扫描会影响我的数据库性能吗?数据安全中心DSC(Data Security Center)采用全量扫描、增量扫描和定时扫描策略扫描您的数据库。全量扫描会对您的数据库性能产生较小的影响,不会影响...

创建DolphinDB数据

数据源配置 基于业务数据源是否区分生产数据源和开发数据源:如果业务数据源区分生产数据源和开发数据源,则选择 生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源,则选择 生产数据源。标签 您可以根据标签给数据源进行分类...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版(兼容Oracle)背景信息 功能测试或者性能测试时,往往需要准备测试数据,通常有以下几种方法:手工编写:效率低,不适用于大数据量场景。维护生成测试数据脚本:成...

通过识别任务扫描敏感数据

扫描说明 扫描限制 为了避免数据源中文件或表过影响整体扫描进度,数据安全中心对可以扫描的文件大小或表的字段大小做了限制,请您在进行敏感数据扫描前了解以下规则:结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据...

创建Lindorm(计算引擎)数据

通过创建Lindorm(计算引擎)数据源能够实现Dataphin读取Lindorm(计算引擎)的业务数据或向Lindorm(计算引擎)写入数据。本文为您介绍如何创建Lindorm(计算引擎)数据源。背景信息 Lindorm(计算引擎)是阿里云推出的自研数据库,提供宽...

创建Hologres数据

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据,及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中,您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

时序数据库

时序数据库(Time Series Database,TSDB)是一种专门设计用于高效存储和处理时间序列数据数据库系统。时间序列数据是指按时间顺序排列的数据点序列,每个数据点通常包含一个时间戳和一个或多个值(度量Metrics)。这类数据广泛存在于物...

Hive数据管理

PARQUET:列式存储格式,压缩率高,适合大数据分析。ORC:优化的列式存储格式,性能优异,支持复杂数据类型。AVRO:支持模式演化的二进制格式,适合动态数据结构。JSON:支持嵌套结构,适合半结构化数据。SELE_DEFINE:允许用户自定义序列...

创建Aliyun HBase数据

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件 若您需在Dataphin中创建基于阿里云产品的数据源,创建数据源前,需确保Dataphin的IP...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

数据重排

在MaxCompute的使用过程中,如果已经积累了大量数据占用了大量存储资源,且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理,在您的存储预算有限,计算资源还有冗余的情况下,可以考虑使用数据重排方式对存储空间进行优化。...

外部表概述

但这两种方法都有不足之处:第一种方法需要在MaxCompute系统外部做一次中转,如果OSS数据量太,还需要考虑如何并发来加速,无法充分利用MaxCompute的规模计算能力。第二种方法通常需要申请UDF网络访问权限,还需要开发者自己控制作业...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用