大数据的数据采集软件-大数据的数据采集软件文档介绍内容-移动阿里云

配置并开启审计模式

审计模式对比审计模式支持的数据资产类型工作原理模式特点原生日志采集 OSS 阿里云原生数据库（不支持自建数据库和Redis）DSC 自动建立与对应产品的数据采集链路，采集日志。日志会记录所有DQL、DML和DDL操作信息，这些信息是通过...

数据库采集器问题

采集的数据量大吗？主要采集哪些内容？采集主要收集数据库本身记录的一些统计信息，主要的数据量来自数据库对象的DDL和记录的历史SQL文本信息，所有大小取决于客户的对象数量、大小和SQL文本大小，一般都不会超过1G。终端提示“connection ...

DataWorks模块使用指引

数据上云与集成：使用数据集成模块将源业务系统的数据采集至大数据平台。支持离线（批量）、实时（流式）、全量及增量等多种同步方式。规范模型设计：在进行大规模数据开发前，进行规范化的模型设计，以保证数据体系的有序与可维护性。此...

指标数据采集（Metric）

采集Open-Falcon数据 Open-Falcon是一款企业级、高可用、可扩展的开源监控解决方案，用于监控服务器的状态，例如磁盘空间、端口存活、网络流量等。采集ping和tcping数据介绍通过Logtail采集ping和tcping数据到日志服务Metricstore的操作...

数据库评估常见问题

请使用 ADAM 数据库采集器采集的 ZIP 包进行上传并创建画像。画像报错，采集数据中缺乏某信息？ADAM 画像必须分析完整的采集数据，如果缺乏某些必要信息，请重启采集或联系 ADAM 工作人员。画像内容，如何查看兼容度？ADAM 数据库画像主要...

应用场景

实时数据通道接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。收益系统解耦...

数据库评估

ADAM的数据库评估功能通过对源数据库快速分析、评估，获得目标库选型建议，并对迁移工作量和成本进行预估。数据库评估流程操作步骤登录数据管理DMS 5.0。在顶部菜单栏中，选择 Data+AI 异构数据库迁移（ADAM）数据库评估。说明实际操作...

数据管理DMS中服务器监控数据的采集频率

通过“登录服务器”，进入到服务器管理界面，“实时监控”显示的数据，是每隔5秒左右获取一次数据，如下图。关闭、退出服务器管理界面，会自动停止“实时监控”数据的采集。数据管理控制台页面，显示的服务器监控数据，是每隔30秒获取一次...

管理问题数据

问题数据采集最终将基于您的规则生成数据采集SQL，并在MaxCompute引擎侧执行，此过程将产生MaxCompute计算引擎费用。问题数据采集结果将存储于MaxCompute临时表中，此过程将产生MaxCompute计算引擎存储费用。保留问题数据配置入口您可在按...

数据库采集

下载采集器：如果源库不能对外使用公网，或者无法从云上去访问，可以通过ADAM数据采集器采集数据库。更多信息，请参见采集器采集。在线采集登录数据管理DMS 5.0。在顶部菜单栏中，选择 Data+AI 异构数据库迁移（ADAM）数据库评估。在 ...

什么是EMR on ECS

自研组件为了让开源大数据组件和服务更好地运行在阿里云基础设施上，EMR提供的自研组件如下：OSS-HDFS：兼容Hadoop分布式文件系统接口的对象存储解决方案，支持大数据计算任务通过标准HDFS协议直接访问阿里云OSS的数据。JindoCache：分布...

数据分析整体趋势

市场趋势数据规模高速增长（全球2010-2025年复合增长达到27%，中国则大于30%）带来了强劲的数据分析需求。据Gartner统计，到2025年实时数据占比达30%，其中非结构数据占比达80%，同时数据存储云上规模达45%，而云上数据库规模可达75%。从...

数据集成概述

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

基本概念

一个数据库实例可以包含多个由数据库用户创建的数据库，并且可以使用相应的客户端工具和应用程序进行访问。本地IDC自建数据库：本地IDC自建数据库是部署在非云环境（如本地IDC、托管机房等）的数据库实例。阿里云ECS自建数据库：阿里云ECS...

数据地图

网络连通将数据源中的元数据导入数据地图进行统一的元数据管理，需要先确保数据地图元数据采集器能正常访问您的数据库。如果您需要进行元数据采集的数据库已开启白名单访问控制，请在数据库白名单列表中，添加您使用的DataWorks所在地域...

看板概述

针对不同类型的应用，系统预置的看板会有所区别，详情如下：APP 系统预置看板针对APP类应用，Quick Tracking 提供了【整体概览】、【页面列表】、【事件列表】、【留存分析】、【终端分析】5个系统预置的基础看板，各看板提供的数据指标和...

数据库节点

SelectDB SelectDB是基于Apache Doris打造的新一代多云原生实时数据仓库，聚焦于满足企业级大数据实时分析需求，为您提供极致性价比、简单易用的数据分析服务。更多介绍，请参见 SelectDB。Redshift Amazon Redshift是云平台的一种完全托管...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

数据集成

数据集成是基于Dataphin构建的简单高效的数据同步平台，致力于提供强大的数据预处理能力和丰富的异构数据源之间数据高速稳定的同步能力。5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地...

应用场景

构建离线实时一体化企业级智能云数仓业务挑战在数字化竞争日益激烈的今天，企业对数据时效性的要求越来越高，但传统的数据架构在应对这一挑战时显得力不从心：架构割裂，开发复杂：企业通常需要维护两套独立的技术栈——一套用于T+1的离...

基于Delta lake的一站式数据湖构建与分析实战

数据湖能够将这些不同来源、不同格式的数据集中存储管理在高性价比的存储如 OSS等对象存储中，并对外提供统一的数据目录，支持多种计算分析方式，有效解决了企业中面临的数据孤岛问题，同时大大降低了企业存储和使用数据的成本。...

名词解释

降采样（Downsampling）：当查询的时间区间跨度较长而原始数据时间精度较细时，为了满足业务需求的场景、提升查询效率，就会降低数据的查询展现精度，这就叫做降采样，比如按秒采集一年的数据，按照天级别查询展现。数据时效（Data’s ...

创建Hudi数据源

通过创建Hudi数据源能够实现Dataphin读取Hudi的业务数据或向Hudi写入数据。本文为您介绍如何创建Hudi数据源。背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心...同步到Hive的数据库名称：填写同步到Hive的数据库名称。

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

创建Hudi数据源

通过创建Hudi数据源能够实现...同步到Hive的数据库名称：填写同步到Hive的数据库名称。重要创建Hudi数据源时不支持测试数据源是否可以和Dataphin进行正常的连通，因此需要您确保连接信息的正确性。您可根据网络连通解决方案自行排查。

创建IMPALA数据源

使用限制 Dataphin的IMPALA数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及输入输出组件集成。操作步骤在Dataphin首页，单击顶部菜单栏管理中心数据源管理。在数据源 ...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

JindoFS实战演示

视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用...

创建IMPALA数据源

使用限制 Dataphin的IMPALA数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及输入输出组件集成。仅当连接E-MapReduce 5.x版本的Impala数据源时，才支持使用DLF获取元数据。...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

使用MaxCompute控制台（离线）

同时您需拥有对应的数据权限，如：上传至已有表：需具备对应表的数据写入权限。上传至新增表：需具备对应项目的创建表权限。创建MaxCompute项目详情请参见项目管理（新版），授权操作请参见权限概述。基于阿里云对象存储OSS上传数据时，...

数据库监控

说明上述各监控项的数据采集周期均为1分钟。最多支持查看7天内的监控数据。操作步骤登录 PolarDB分布式版控制台。在页面左上角选择目标实例所在地域。在实例列表页，找到目标实例并单击实例ID。在左侧导航栏中，单击监控与报警数据库...

创建Aliyun HBase数据源

如果需要根据所处环境自动访问对应环境的数据源，请通过${数据源编码}.table 或${数据源编码}.schema.table 的变量格式访问。更多信息，请参见 Dataphin数据源表开发方式。重要数据源编码配置成功后不支持修改。数据源编码配置成功后，...

创建Aliyun HBase数据源

前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见数据源白名单配置背景信息 Aliyun HBase即阿里云的云数据...

通过识别任务扫描敏感数据

扫描速度不同类型数据资产的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为每分钟1000列（以每...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

创建HBase数据源

若您的数据源配置选择生产+开发数据源，则需配置生产+开发数据源的连接信息。如果您的数据源配置为生产数据源，仅需配置生产数据源的连接信息。说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与...