云计算和大数据有什么关系?

简介: 当大数据遭遇云计算 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。

当大数据遭遇云计算

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

云计算为什么能盛行呢?在互联网领域应用系统的构建:客户群体是不确定的、系统规模不确定、系统投资不固定、业务应用有很清晰的并行分割特征、数据仓库系统的构建、数据仓库规模可估算、数据仓库的系统投资与业务分析的价值和回报相关、商业智能应用属于整体应用、Saas模式构建数据仓库系统。

大数据管理,分布式进行文件系统,如Hadoop、Mapreduce数据分割与访问执行;同时SQL支持,以Hive+HADOOP为代表的SQL界面支持,在大数据技术上用云计算构建下一代数据仓库成为热门话题。

从系统需求来看,大数据的架构对系统提出了新的挑战:

1. 集成度更高。一个标准机箱最大限度完成特定任务。

2. 配置更合理、速度更快。存储、控制器、I/O通道、内存、CPU、网络均衡设计,针对数据仓库访问最优设计,比传统类似平台高出一个数量级以上。

3. 整体能耗更低。同等计算任务,能耗最低。

4. 系统更加稳定可靠。能够消除各种单点故障环节,统一一个部件、器件的品质和标准。

5. 管理维护费用低。数据藏的常规管理全部集成。

6. 可规划和预见的系统扩容、升级路线图。

云计算环境成为大数据处理平台

1. 云计算环境中基本计算单元的分化

企业云计算平台上虽然有多个并行计算的CPU,但并没有创造出具有超强数据处理能力的超级CPU,因此云计算平台需要的是有并行运算能力的软件系统。同时,当所有用户的数据全部放在云端时,虽然存储容量可以很方便地扩充,但面对大量用户同时发起的海量数据处理请求,简单的数据处理逻辑已经无法满足需要。

可以看到,国内有相当多的电商企业,用小型机和Oracle扛了好几年,并请了全国最牛的Oracle的专家不停优化他的Oracle和小型机,初期发展可能很快,但是后来由于数据量激增,业务开始受到严重影响,最典型的例子无疑是京东商城前段时间发生的大规模访问请求宕机事件,因此他们开始逐渐放弃了Oracle或者MS-SQL,并逐渐转向MySQL+X86的分布式架构。

目前的基本计算单元常常是普通的X86服务器,它们组成了一个大的云,而未来的云计算单元里有可能有存储单元、计算单元、协调单元,总体的效率会更高。

2. 对系统稳定性的需求

在应对大规模访问的时候有一些系统稳定性的追求,来自很多方面,来自网络稳定性、数据库稳定性。对系统而言,需要把握一个大原则,需要消除任何单点故障。不光是网络上单点故障,还有来自你呼叫中心里的单点故障,只要有单点故障一定要消除掉。因为对于电商行业而言,每一秒都是钱,电子商务业务如果宕机一个小时,损失多少是可以算出来的,电商行业需要非常全面的技术系统监控报警系统。有时候你会发现你如果通过技术系统的监控去推导出你的技术发生问题已经晚了。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
10天前
|
存储 大数据 云计算
大数据与云计算
大数据与云计算
46 2
|
17天前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
295 0
|
17天前
|
存储 机器学习/深度学习 大数据
云计算与大数据:合作与创新
本文探讨了大数据技术与云计算的背景和发展,大数据的5V特征(量、速度、多样、复杂、不确定)及云计算的3S特点(服务、共享、可扩展)。两者相互依赖,云计算为大数据提供计算与存储资源。核心算法涉及分布式计算、数据挖掘和机器学习,如线性回归、逻辑回归等。通过代码示例展示了Hadoop的MapReduce、Scikit-learn的KNN和TensorFlow的线性回归应用。未来趋势包括数据量增长、实时处理、AI与ML集成及数据安全挑战。附录解答了大数据、云计算等相关问题。
355 3
|
17天前
|
存储 大数据 数据挖掘
python数据分析——大数据和云计算
大数据和云计算作为当代信息技术的两大核心驱动力,正在以前所未有的速度改变着我们的生活、工作和思维方式。它们不仅为各行各业的创新提供了强大的技术支持,更是推动了整个社会的数字化转型。 从大数据的角度来看,它的核心价值在于通过对海量数据的收集、存储、分析和挖掘,发现其中的关联性和趋势,从而为决策提供更为科学、精准的依据。无论是商业领域的市场预测、消费者行为分析,还是公共服务领域的城市规划、交通管理,大数据都发挥着不可或缺的作用。同时,随着物联网、传感器等技术的普及,大数据的来源和种类也在不断扩展,这使得我们能够更全面地认识世界,把握规律。
54 0
|
17天前
|
监控 物联网 大数据
智慧工地管理平台系统源码基于物联网、云计算、大数据等技术
智慧工地平台APP通过对施工过程人机料法环的全面感知、互联互通、智能协同,提高施工现场的生产效率、管理水平和决策能力,实现施工管理的数字化、智能化、精益化。
65 0
|
17天前
|
资源调度 分布式计算 大数据
【云计算与大数据技术】资源管理、调度模型策略的讲解
【云计算与大数据技术】资源管理、调度模型策略的讲解
150 0
|
17天前
|
资源调度 大数据 调度
【云计算与大数据技术】集群资源统一管理系统YARN、Mesos、Omega讲解(图文解释 超详细)
【云计算与大数据技术】集群资源统一管理系统YARN、Mesos、Omega讲解(图文解释 超详细)
104 2
|
17天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
17天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
17天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
28 0