数据处理

#数据处理#

已有4人关注此标签

内容分类

最佳实践小文

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

巴蜀真人

Flink 1.10 Native Kubernetes 原理与实践

Flink 在 1.10 版本完成了 Active Kubernetes Integration 的第一阶段,支持了 session clusters。后续的第二阶段会提供更完整的支持,如支持 per-job 任务提交,以及基于原生 Kubernetes API 的高可用,支持更多的 Kubernetes 参数如 toleration, label 和 node selector 等。

巴蜀真人

从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践

本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:实时计算的痛点、Saber 的平台演进、结合 AI 的案例实践、未来的发展与思考。

云栖号资讯小编

数据分析到底需要哪些能力?

数据分析师的能力模型是数据分析面试的时候,常会被问到的一个问题,对这个问题的理解能够体现出候选人对这一职位的理解和未来发展的思考。

伴弋

Quick BI和Power BI实测比对

作者:徐姗 更多内容详见数据中台官网 https://dp.alibaba.com 摘要:Quick BI和Power BI分别是阿里云和微软云上的官方BI产品,两款产品都是比较好的自助式商业智能软件,都具备云BI的优势,既能够像SaaS运行在阿里云或者Azure云上,又能快速部署到本地的服务器中运行。

巴蜀真人

速度收藏!看完这份知识图谱,才算搞懂 Flink!

社区整理了这样一份知识图谱,由 Apache Flink Committer 执笔,四位 PMC 成员审核,将 Flink 9 大技术版块详细拆分,突出重点内容并搭配全面的学习素材。看完这份图谱,才算真的搞懂 Flink!

最佳实践小文

Serverless对日志服务中的数据进行ETL处理

通过日志服务+函数计算ETL,快速完成日志采集、加工、查询、分析和展示。

巴蜀真人

从开发到生产上线,如何确定集群规划大小?

在 Flink 社区中,最常被问到的问题之一是:在从开发到生产上线的过程中如何确定集群的大小。这个问题的标准答案显然是“视情况而定”,但这并非一个有用的答案。本文概述了一系列的相关问题,通过回答这些问题,或许你能得出一些数字作为指导和参考。

墨祤@DataWorks

DataWorks实时同步/实时ETL/批同步ETL灰度邀测中

DataWorks实时同步功能可以支持多种实时数据源(Kafka、MySQL Binlog,Oracle CDC等),可以将实时消息数据经过一些列处理后再写入目的数据源。同时在此前DataWorks数据集成强大EL(Extract-Load)能力基础之上,增加了数据处理能力(Transform),实现了完整了ETL链路。

巴蜀真人

百万TPS高吞吐、秒级低延迟,阿里​搜索离线平台如何实现?

阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢?

断木

案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

传统大卖场发展面临全新的挑战,本案例详细介绍在这个时代的拐点,零售企业如何借助大数据上云实现企业运营数智化转型,提升精细化运营能力,最终实现业务创新。

www12345

linux工具之jq

简介 在linux下进行日常的开发时,我们经常需要对json格式的数据进行处理分析。jq是一个开源的JSON格式数据处理工具,它提供了很多灵活的语法,功能非常强大。 安装 macOS: brew install jq Ubuntu apt-get install jq 其他参考 官网 jq语法 ...

阿里巴巴云原生小助手

2015 年,我和华大基因立下一个小目标……

2015 年,阿里云和华大基因立下一个目标:到 2020 年,要在 24 小时完成个人全基因组测序。这在当时是一个几乎被认为不可能的挑战。  而在 2020 年刚开始的第 17 天,我们就实现了这个目标!并且把个人全基因组测序分析做到只需要 15 分钟,不到一顿饭的功夫。

巴蜀真人

来!PyFlink 作业的多种部署模式

关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。

巴蜀真人

最新消息!Cloudera 全球发行版正式集成 Apache Flink

近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。