etl

#etl#

已有0人关注此标签

内容分类

最佳实践小文

Serverless对日志服务中的数据进行ETL处理

通过日志服务+函数计算ETL,快速完成日志采集、加工、查询、分析和展示。

ApacheFlink

都在说实时数据架构,你了解多少?

本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案。

冶善

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

ApacheFlink

Netflix:如何打造开放协作的实时 ETL 平台?

本文由 Netflix 高级软件工程师徐振中分享,内容包含有趣的案例、分布式系统基础方面的各种挑战以及解决方案,此外还讨论了其在开发运维过程中的收获,对开放式自助式实时数据平台的一些新愿景,以及对 Realtime ETL 基础平台的一些新思考。

flowerwaiter

【热点】Kafka与传统中间件(MQ,ETL,ESB)的比较

自从Linkin开源Kafka之后,它似乎成了可以叫嚣所有传统消息中间件产品的行业新宠。事实上他也确实成为了大规模消息、微服务解耦以及可靠轻量流处理的业界标准解决方案。 我们知道在传统企业的数据汇聚层,往往会涉及到四到五种产品或者是开源的框架并且支持高可用和横向扩展。

云栖号资讯小编

实时计算的应用场景都有哪些?

实时计算广泛应用于大数据实时化的场景,从简单到详细,可以按照已有流处理系统、部门场景和技术领域进行划分。 说明 更多场景案例请参见阿里云实时计算产品案例和解决方案汇总。 已有流处理系统 通常,如果您本地已安装Flink、Storm或Spark Streaming系统,可以直接迁移到实时计算产品。

唐恺

SLS数据处理实践:加工延迟篇

在日志服务,数据加工功能(功能介绍)用于完成对Logstore数据的预处理,为后续的分析阶段准备数据。本文主要介绍数据加工实践中可能遇到的延迟问题,帮助大家理清延迟现象背后的原因,以及如何去监控、解决延迟问题。

ApacheFlink

菜鸟供应链实时数仓的架构演进及应用场景

菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。

ApacheFlink

覆盖电商、推荐、ETL、风控等多场景,网易的实时计算平台做了啥?

目前网易流计算规模已经达到了一千多个任务,2 万多个 vcores 以及 80 多 T 的内存,网易流计算覆盖了绝大多数场景,包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。

墨祤@DataWorks

DataWorks实时同步/实时ETL/批同步ETL灰度邀测中

DataWorks实时同步功能可以支持多种实时数据源(Kafka、MySQL Binlog,Oracle CDC等),可以将实时消息数据经过一些列处理后再写入目的数据源。同时在此前DataWorks数据集成强大EL(Extract-Load)能力基础之上,增加了数据处理能力(Transform),实现了完整了ETL链路。

数据湖分析DLA

阿里云Data Lake Analytics正式商业化

产品介绍: Data Lake Analytics是Serverless化的交互式联邦查询服务。无需ETL,使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据适用客户: 全网发布功能: 阿里云Data Lake Analytics正式商业化,无需ETL即可开启异构数据源的联邦实时分析能力。

我是萌豆

Data Lake Analytics,大数据的ETL神器!

0. Data Lake Analytics(简称DLA)介绍 数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake。

渐意

使用函数工作流+函数计算轻松构建 ETL 离线数据处理系统

随着云计算、人工智能、物联网等新技术的应用普及,人类产生的数据呈现出了爆发式增长的态势,对数据处理的需求能力也提出了越来越高的要求。数据成了重要资产,收集、处理数据的能力成为了核心竞争力,比如:应用服务的运行监控,运营数据的分析,以及深度学习的数据过滤、预处理等,这些对已有数据的处理能力将直接影响服务的运营效率。

ApacheFlink

Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频)

如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数据分析平台。

云栖号资讯小编

你真的需要数据湖吗?

数据湖已经成为许多大数据项目的基石,就因为它们在处理高速生成的大量数据时,提供了更容易、更灵活的选择。

唐恺

日志服务数据加工的设计与实践

在日志类数据成为生产资料得到越来越多关注的今天,日志服务数据加工抽象了规整、分发、富化等操作,帮助数据在阿里云服务和开源生态间流动起来,让日志分析变得更容易。

伴弋

数据中台的OneModel体系与经典维度建模理论有何关系?

作者:柯根 更多内容详见数据中台官网 https://dp.alibaba.com维度建模经典理论维度建模是数据仓库建设中的一种数据建模方法,将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文,Kimball最先提出这一概念。

伴弋

OneModel体系能给数据中台的建设带来什么?

作者:柯根 更多内容详见数据中台官网 https://dp.alibaba.com重要地位造成企业大数据建设的痛点原因,概括起来就是“烟囱式”开发造成数据不标准、不规范。所以数据中台建设的切入点需要以“数据公共层建设”消除因“烟囱式”开发给业务带来的困扰和造成的技术上的浪费。

陆封

AnalyticDB for PostgreSQL 实时数据仓库上手指南

AnalyticDB for PostgreSQL 提供企业级数据仓库云服务,基于开源Greenplum构建,采用MPP架构,支持1000+节点PB级数据的实时分析。