开源大数据周刊-第102期

简介:

资讯

两家大数据先驱Cloudera和Hortonworks今天宣布了它们所谓的相对平等的合并,声称将把两家公司合并成一家年收入达7.2亿美元的新实体。

万维网之父 Tim Berners-Lee 爵士对今天的中心化 Web 非常不满,他想要拯救互联网,方法是重新去中心化。他正式宣布了新的开源去中心化平台 Solid ,源代码发布在 GitHub 上:https://github.com/solid

Cloudera和Hortonworks合并的这项交易意味着Hadoop市场再也维持不了两大竞争对手。多年来,Hadoop一直就是大数据的代名词,但市场和客户需求已然发生了变化,本文分析了几个大趋势如何共同推动了这个变化。

假期期间有个公司上市了,首日大涨,市值接近50亿美元,又掀起了一波造富运动,这个公司就是Elastic。作为后端的程序员,如果没有听说过Elastic及其产品Elasticsearch,实在是太out了,快来了解一下吧。

技术

Fink和Spark Streaming是目前比较主流的实时计算引擎,为了深入了解它们之间的差异,各自存在的优势和劣势,评估实时处理性能,找到其性能瓶颈并对其进行优化,我们对这两个引擎做了一系列的测试,希望为后续实时计算框架选择、性能调优提供数据参考。

本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,简要回顾了大数据系统发展的历史轨迹,重点讨论了流处理系统。行文轻松活泼,内容通俗易懂,不妨一读。

对于搭建大数据平台和数据湖,通常而言是作为ETL的基础,广泛地采集各种数据源存储到Hadoop,来进行数据挖掘和分析。Uber新开源的Marmaray项目除了数据采集外,还包括数据分发,将Hadoop数据湖中的数据同步到各个在线存储系统,满足在线处理对性能和质量的更高要求。

近日,由 Apache Flink 创始人创立的 data Artisans 宣布开源 Streaming Ledger——一项激动人心的新技术,为基于流式架构的应用程序带来了串行化 ACID 事务支持。在这篇文章中,我们将解释为什么串行化 ACID 事务对于现代企业来说是一个巨大的挑战、data Artisans 如何找到解决方案以及如何将这项技术用于流式应用程序。

近年来Tensorflow和Kubernetes在AI和云计算领域都是异彩纷呈,火热得可以,放在一起又怎么样呢?本文是一篇关于Kuberflow:Kubernetes+Tensorflow入门级的介绍,了解一下?

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
65 0
|
4月前
|
SQL 大数据 关系型数据库
开源大数据比对平台(dataCompare)新版本发布
开源大数据比对平台(dataCompare)新版本发布
68 0
|
4月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
104 0
|
5月前
|
机器学习/深度学习 分布式计算 大数据
开源大数据平台的发展
开源大数据平台的发展
64 0
|
5月前
|
人工智能 分布式计算 大数据
开源大数据平台 3.0 技术解读
阿里云研究员,阿里云计算平台事业部开源大数据平台负责人王峰围绕新一代的流式湖仓、全面 Serverless 化、更智能的开源大数据等多维度解读开源大数据平台 3.0~
1016 1
开源大数据平台 3.0 技术解读
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
49 4
|
4月前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
105 1
|
4月前
|
大数据 Linux KVM
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
97 0
|
4月前
|
存储 人工智能 大数据
2023云栖陈守元,阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
258 2
|
6月前
|
存储 分布式计算 数据可视化
开源在大数据和分析中的角色
开源在大数据和分析中的角色
49 0