业务数据采集-业务数据采集文档介绍内容-移动阿里云

典型使用场景

典型的数据源包括：MySQL/SQL Server/PostgreSQL/Oracle等OLTP业务数据库，业务App产生的日志数据，在OSS/Hadoop上的归档数据，以及来自Kafka/Flink等系统的流式数据。在库中对ODS层数据进行加工，形成CDM（Common Data Model）和ADS...

采集ACK集群容器日志

安装Logtail Logtail组件是用于采集Kubernetes日志的Agent，支持多种日志类型及标准容器和Kubernetes集群的日志数据采集。步骤二：创建采集配置根据采集需求选择文本日志或标准输出。采集文本日志文本日志是由容器内的程序生成并保存到...

实时数据采集

本文为您介绍如何使用智能制造平台AICS实时数据采集模块。创建通道登录工业数据中台IGate。在通道管理页面，单击右上角新增通道按钮。通道是测点数据的来源，如果不使用IGate主动采集则不需要添加通道，可使用默认提供的平台标准通道，...

Dataphin新手引导

创建数据源在您开始同步业务数据至Dataphin平台前，需要通过添加数据源的方式连通业务数据库与Dataphin。如何创建，请参见创建MaxCompute数据源。规范定义创建主题域主题域用于存放同一数据板块内不同意义的指标，如商品域、交易域、...

功能简介

将业务数据沉淀为智能数据或智能算子，通过可视化的拖拉拽和简单的图形化条件设定进行模型编排，支持离线场景，实现简化建模复杂度、提高模型运行效能、结合智能化算法等帮助用户将数据与业务结合起来，不断积累和沉淀专家业务模型，服务...

策略表

若您希望限制其看到的数据范围，而不是看到全部业务数据，可以为其创建数据访问策略。数据访问策略是指用户访问应用数据时，系统会自动触发过滤条件（该条件在创建数据访问策略时设置），使其仅可查看被允许查看的数据。例如，计算DAU时，...

关系图

DataWorks支持的模型及其介绍如下：概念模型-维度：维度是您观察业务状况的视角，您可在维度建模中规划并创建维度，后续创建维度表时进行关联，关联后即可通过不同维度分析呈现不同视角的业务数据状况。逻辑模型-维度表：结合业务的数据域...

产品更新动态-共享模式（全托管）

资产清单可统一查看Dataphin资产和从数据源采集到的业务系统表资产。资产专题升级为资产专题目录，可设置多个专题，每个专题下可设置多级目录；可将资产手动上架到不同的资产目录，并配置展示名、查看权限等信息，以提升数据查找效率，降低...

功能更新动态（2024年）

StarRocks、SelectDB、Doris输出组件的系统默认行列分隔符修改为不常见字符以降低业务数据冲突。本地文件输入组件支持输入中文字符及特殊字符，可上传及解析的文件大小限制扩展。离线整库迁移：任务支持自定义任务名前后缀；系统生成的目录...

数据质量教程概述

业务场景要保证业务数据质量，首先您需要明确数据的消费场景和加工链路。本教程使用的数据来源于某网站上的HTTP访问日志。基于这份网站日志，您可以统计并展现网站的浏览次数（PV）和独立访客（UV），并能够按照用户的终端类型（如Android...

应用场景

您可以将模式固定的结构化数据存储在 RDS（Relational Database Service）中，模式灵活的业务存储在MongoDB中，高热数据存储在云数据库 Tair（兼容 Redis）或云数据库Memcache 中，实现对业务数据高效存取，降低存储数据的投入成本。...

研发规范

数据仓库研发规范旨在为广大数据研发者、管理者提供规范化的研发流程指导方法，目的是简化、规范日常工作流程，提高工作效率，减少无效与冗余工作，赋能企业、政府更强大的数据掌控力来应对海量增长的业务数据，从而释放更多人力与财力专注...

数据开发：开发者

通常，写入原始业务数据至DataWorks，并加工为最终结果表的过程如下：在DataWorks创建多个数据表。例如：源表：存储从其他数据源同步过来的数据。结果表：存储经DataWorks清洗加工过的数据。创建同步任务，将业务数据同步至上述源表。创建...

小程序内嵌H5数据上报

小程序的业务不希望在自己的业务数据中出现H5的数据，H5的业务则是希望可以在H5的应用中一起看到今日的总访问量，包括通过商城小程序或者会员中心小程序访问的用户分别是多少。在QuickTracking的后台中为该H5创建独立的应用和appkey H5 ...

资源密集活动统计（pg_profile）

购买指引

在实际使用中，请根据实际业务数据所在位置确定开通地域：如果您的业务数据位于阿里云的其他云服务，请选择与其相同的地域。如果您的业务在本地，需要通过公网访问，请选择与您实际地理位置较近的地域，以降低访问延迟。本文以华东2（上海...

产品概述

产品特点稳定对于绝大部分应用而言，关系型数据库所承担的职责是整个数据管理系统中最为核心和基础的，不光直接影响到终端用户的服务体验，同时也是业务数据的最后一道保险，所以稳定性是数据库最核心的选型因素。PolarDB-X 1.0 的稳定性...

configName:systemd-journal-log-config inputDetail:plugin:inputs:detail:JournalPaths:"/logtail_host/var/log/journal"Kernel:true ParsePriority:true ParseSyslogFacility:true type:service_journal 步骤二：查询和分析采集数据 ...

产品选型参考

单分片无法承载全量业务数据和流量。涉及命令复杂，执行耗时较高。可选是否开启，支持自定义只读节点数量，每个分片最多1主4只读节点。选择实例规格您需要综合业务预估量（容量、带宽、连接数、QPS等）选择合适的实例规格购买量（分片...

阿里云AI网络白皮书

这一功能显著降低了跨地域访问的运维复杂性，同时提升了服务的灵活性与可用性 3 阿里云网络方案：全场景助力企业AI创新 3.1 全球训练数据采集与预处理网络方案 ❶ 就近数据源头部署数据采集：EIP/共享带宽包做公网出口 NAT做出口网关，充分...

新零售：特步

解决方案通过 PolarDB-X+RDS的分布式数据库解决方案支撑O2O全渠道业务中台系统上线，通过垂直拆分剥离各业务中心，使不同类型的业务数据可以存储在不同的RDS上，确保资源和访问隔离，从物理上使整个数据库架构具备了扩展性。通过这套架构...

采集主机监控数据

数据采集配置登录日志服务控制台。单击控制台右侧的快速接入数据卡片。在接入数据页面，查找主机监控并单击。选择目标Project和时序库MetricStore，单击下一步。在创建机器组页签中。如果已有可用的机器组，请单击使用现有机器...

Fluentd插件

flush_interval 1s buffer_chunk_limit 3m buffer_queue_limit 128 dirty_data_continue true dirty_data_file 脏数据记录文件路径 retry_times 3 put_data_batch_size 1000/match 使用如下命令启动Fluentd，即可完成CSV文件数据采集进入...

采集器YML配置

通过采集器YML配置，您可以根据需求修改对应的配置，并启用该配置，完成数据采集任务。本文介绍采集器YML文件的配置方法和配置参数详情。前提条件创建阿里云Elasticsearch实例，并开启实例的自动创建索引功能。创建实例的具体步骤请参见...

采集SQL Server查询结果

当下次执行SELECT语句时，会将上一次保存的CheckPoint带入到SELECT语句中，以此实现增量数据采集。重要开启CheckPoint时，需要在SELECT语句中对CheckPoint字段进行排序，否则会造成数据重复或其他问题。功能支持采集SQL Server数据库的...

SAP HANA

仅支持单表的数据采集，不支持多表、整库。系统按照固定频率 query，定时请求时间需要自行配置，如果配置的时间较长，将会导致实时性降低；如果配置的时间很短，将会增加数据库查询压力。系统采集到的数据都是 INSERT 类型的，如果想获取...

数据服务

功能介绍数据服务支持基于业务数据源的物理表或Dataphin生成的逻辑表创建服务项目分组，以满足不同场景的业务诉求。后续应用就可以调用API。同时数据服务支持管理运维监控API，便于您及时发现并处理调用API的异常情况。数据服务支持...

SAP HANA

仅支持单表的数据采集，不支持多表、整库。系统按照固定频率 query，定时请求时间需要自行配置，如果配置的时间较长，将会导致实时性降低；如果配置的时间很短，将会增加数据库查询压力。系统采集到的数据都是 INSERT 类型的，如果想获取...

数据服务概述

功能介绍数据服务支持基于业务数据源的物理表或Dataphin生成的逻辑表创建服务项目分组，以满足不同场景的业务诉求。后续应用就可以调用API。同时数据服务支持管理运维监控API，便于您及时发现并处理调用API的异常情况。数据服务支持...

保险行业解决方案与案例

成本：实现多套系统合并，将原有的上百个业务数据库按照集群规划整合，实现集中管控，数据存储量下降为原有存储量的1/3，每年硬件和运维管理成本节省数千万元；业务系统改造量最小化，最大程度的保护了应用上的既有投资，降低了系统改造的...

接入中心

Java 应用监控 ✅ ✅ ✅（剖析）前端应用组件 采集数据类型日志指标事件链路会话及其他 Web&H5 ✅ ✅ 小程序 ✅ ✅ Windows ✅ ✅ macOS ✅ ✅ 中间件组件 采集数据类型日志指标事件链路会话及其他集群 Nginx Ingress 日志...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

Quick Tracking基本概念

为了能够快速上手Quick Tracking，建议先了解和学习下采集SDK和流量分析产品的基本概念，这些基本概念会贯穿数据采集到数据分析的全流程。行为采集在行为采集中，有如下四个基本概念需要了解：系统事件系统事件是指由采集SDK发出，用来...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

采集MySQL Binlog（计划弃用）

{."cpu_usage_limit":2,"mem_usage_limit":2048,.} 数据可靠性建议您启用MySQL服务器的全局事务ID（GTID）功能，并将Logtail升级到0.16.15及以上版本以保证数据可靠性，避免因主备切换造成的数据重复采集。数据漏采集：Logtail与MySQL...

通过双写迁移数据至云数据库ClickHouse

在迁移业务数据至云数据库ClickHouse 的过程中，如果数据量规模大、写入吞吐量高或者数据生命周期（TTL）较短，为避免数据同步延迟导致新旧集群状态不一致，您可以采用双写方案进行数据迁移。双写过程中，业务应用层同时向源集群和新的...

数据采集概述

阿里云云产品数据采集方案云产品日志采集：日志服务支持采集弹性计算、存储服务、安全、数据库等多种阿里云云产品的日志数据，包括云产品的操作信息、运行状况、业务动态等信息。中间件数据采集方案采集SQL查询结果：支持采集SQL Server...

Logtail限制说明

宕机时的处理由于CheckPoint是定期保存，因此宕机恢复时将从上一个完整保存的CheckPoint开始恢复，可能导致数据采集重复。调整Checkpoint保存策略以减少数据被重复采集。Logtail采集配置限制项限制说明配置更新生效的延时从通过控制台...

Logtail

宕机时的处理由于CheckPoint是定期保存，因此宕机恢复时将从上一个完整保存的CheckPoint开始恢复，可能导致数据采集重复。调整Checkpoint保存策略以减少数据被重复采集。Logtail采集配置限制项限制说明配置更新生效的延时从通过控制台...

步骤二：规划数仓

数据源：业务数据中读取原始数据和写入数据仓库过程中的数据。步骤一：创建数据板块在Dataphin首页的顶部菜单栏中，选择规划数据架构。在数据板块页面，单击+新建数据板块。在新建数据板块对话框的生产开发类型步骤中选择 Basic...