开源大数据周刊-第79期

简介: 资讯 警惕大数据成了互联网的“PX项目” 新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。

资讯

  • 警惕大数据成了互联网的“PX项目”
    新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。
  • 李飞飞发文发布谷歌云AutoML Vision平台,订制化的企业级机器学习模型不再是难题
    一直以来机器学习或深度学习都存在这比较高的入门门槛,比如要有一定的算法功底,数学水平也不能太差,至少能看清楚 loss function 的意义等等。AutoML Vision 平台的推出让普通人也能够通过在页面上点击几下就能创建自己的模型并调参训练成为了可能。这样,对深度学习不怎么了解的普通企业也可以构建自己的人工智能系统了。这对于普及人工智能技术来说意义重大。
  • 微软和阿里开发的人工智能在阅读测试中首次击败人类
    关于人工智能系统击败人类已经不是什么新鲜事了。这次是“阅读理解”,即让机器和人阅读一些文章,并根据自己对文章的理解回答一些问题。最终的结果是微软和阿里巴巴的系统各自以几个百分点的优势击败人类。

技术

  • 基于Kubernetes构建现代大数据管道
    大数据生态从早期的 hadoop、hive、spark 等传统批处理场景逐步过渡到与 kafka、flink 等流式处理场景和 tensorflow 等机器学习场景相融合的阶段,从而实现数据从采集到存储到分析到挖掘的一站式处理过程。越来越多的生态组件和越来越多的应用场景对如何整合这些组件形成一个完整的数据管道提出了很大的挑战。本文介绍了利用容器技术来实现一个数据管道的思路,即完全借助于云上服务,并利用 kubernetes 提供统一的编排。在这种解决方案中,hadoop、spark、tensorflow 等都被容器化,数据流在这些容器之间流动,整个数据流由 kubernetes 控制。这是一种无服务器框架(关于无服务器技术,可参考这篇文章)。该文章还提到了另外一种无服务器框架 nuclio这里是 Eliran Bivas 在 kubecon 2017 的报告链接。
  • 从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例
    这是一篇纯技术文章,介绍了推荐系统的原理与实现。一般地说,推荐系统与搜索引擎、广告系统类似,都是一个相关性排序问题。相关性排序问题,核心是如何定义相关性,这就引出了种种的相似度度量算法。当用户搜索并点击了一个词条时,把除此之外的最相关的东西呈现在用户面前,就完成了一次最简单的推荐。这个过程说简单也简单,说复杂也复杂。文章系统的分析了在具体做相似度计算时应当仔细考量的因素,诸如长尾效应(马太效应)、计算矩阵过大、多因子权重调整等等。文章之后对个性化推荐、协同过滤两种经典场景(或者技术)给出了spark代码实现,可以作为学习推荐系统的新手来练手。文章的可贵之处是除了算法和技术,还讨论了产品形态和技术架构,这个往往是普通技术人员所欠缺的,如果读者想成为一个素质全面的综合性人才,这部分内容更要多看看。
  • Apache Ranger调研
    这是关于 apache ranger 的系列文章,上边的链接是其第一篇。在该系列文章中,作者从调研选型、测试到原理都进行了深入的剖析,可以说是读者入门 ranger 的一个不错的介绍文章。另外,如果读者对 hadoop 安全选型方面有需求,可以参考一下这篇英文文章
  • Spark Security面面观
    本文是关于 spark 安全的介绍文章,主要从认证、授权、数据/链路加密、与其他系统安全交互几个方面进行了讲解。认证方面介绍了 spnego(以 kerberos 为基础的 http 认证机制)、LDAP,以及 SASL 认证体系(在数据链路加密一节中进行了介绍)。授权方面介绍了 spark acl 的使用。文章的重点是介绍 spark 系统中需要对哪些数据,以及哪些数据链路进行加密。文章最后介绍了和其他系统如何做安全的交互。

欢迎入群技术交流!

EMR_dingding


版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队出品

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
70 0
|
4月前
|
SQL 大数据 关系型数据库
开源大数据比对平台(dataCompare)新版本发布
开源大数据比对平台(dataCompare)新版本发布
74 0
|
4月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
122 0
|
5月前
|
机器学习/深度学习 分布式计算 大数据
开源大数据平台的发展
开源大数据平台的发展
66 0
|
5月前
|
人工智能 分布式计算 大数据
开源大数据平台 3.0 技术解读
阿里云研究员,阿里云计算平台事业部开源大数据平台负责人王峰围绕新一代的流式湖仓、全面 Serverless 化、更智能的开源大数据等多维度解读开源大数据平台 3.0~
1020 1
开源大数据平台 3.0 技术解读
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
54 4
|
4月前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
113 1
|
4月前
|
大数据 Linux KVM
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
103 0
|
4月前
|
存储 人工智能 大数据
2023云栖陈守元,阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
262 2
|
6月前
|
存储 分布式计算 数据可视化
开源在大数据和分析中的角色
开源在大数据和分析中的角色
50 0