MaxCompute2.0新功能介绍

简介: 在过去的两年内,MaxCompute进行了翻天覆地的重构,从1.0版本全面升级到了2.0版本。而大家或许对于MaxCompute 2.0的一些新特性并不了解,在本文中,MaxCompute技术专家秋鹏就为大家详细介绍MaxCompute 2.0的新特性。

摘要:在过去的两年内,MaxCompute进行了翻天覆地的重构,从1.0版本全面升级到了2.0版本。而大家或许对于MaxCompute 2.0的一些新特性并不了解,在本文中,MaxCompute技术专家秋鹏就为大家详细介绍MaxCompute 2.0的新特性。

本文主要围绕以下三个方面进行分享:
MaxCompute 2.0简介
MaxCompute 2.0 vs 1.0
MaxCompute 2.0 vs 竞品

一、MaxCompute 2.0简介

MaxCompute之所以要进行重构是因为MaxCompute 1.0上存在很多问题,在MaxCompute 2.0的概念提出前,MaxCompute就已经在线上服务内部和外部用户一段时间了,并且也获得了一些积极的反馈。但是MaxCompute 1.0中也存在一些问题需要解决,这些问题大概分为两个部分。首先,一些竞争对手比如Hive、Spark等用了很多MaxCompute还没有用上的新功能,他们能够达到比MaxCompute更加高效的性能,这就迫使MaxCompute尝试增加新的功能,并且优化自身引擎,解决已知的问题。在引入新功能的过程中,发现需要对于MaxCompute引擎进行重构,使得引擎能够支持新功能。此外,MaxCompute 1.0在用户开发体验上有待提升,相比于Hive以及MySQL存在一定差距,从原有系统向MaxCompute迁移存在一定的不兼容问题,这也制约了MaxCompute对于外部用户的吸引力。此外,在MaxCompute 1.0的开发过程中缺乏完善并且好用的集成开发环境,使得用户开发较为困难。

image

因此,基于1.0版本所存在的问题,MaxCompute就进行了一系列的改进,并提出了MaxCompute 2.0的概念。MaxCompute 2.0首先提出了三个重要的设计目标:强大的编译器,包容的生态以及高效的引擎。首先,编译器需要支持脚本式语言,能够让用户轻松编写复杂逻辑,还需要能够支持强大的IDE功能,比如实现错误实时提示以及代码填充等,从而提高用户开发体验。对于生态而言,需要使得MaxCompute的SQL支持标准SQL,还需要兼容开源生态,使得用户可以方便地将原有应用迁移到MaxCompute上。最后一点,还需要利用最新的分布式计算框架来优化执行引擎,从而使得执行的效率更高。

image

二、MaxCompute 2.0 vs 1.0

前面所讲的更多的是站在系统层面进行分享,接下来将围绕大家日常开发使用MaxCompute来进行分享,本部分主要将对比MaxCompute 2.0版本和1.0版本的区别所在。

编译器
MaxCompute 2.0在编译器上进行了完全重构,也进行了大量的优化,如图所示列举了部分关键点,比如所有编译错误都会行列号信息,这样的中括号格式能够方便IDE来实现各种各样的自动化处理;第二个就是全新的error key,相比于之前的error code具有更高的可读性;此外更重要的一点就是MaxCompute 2.0的编译结果更可能是包含warning的,warning是编译器在用户的SQL里面发现的有可能存在潜在问题的情况,而这些问题却并不会影响用户的SQL进一步编译和执行,但是编译器认为有必要将这些潜在问题提出来让用户改正。此外,MaxCompute 2.0编译器非常重要的一点新功能就是其支持错误恢复,这里的错误恢复指的是当碰到用户错误的时候会尝试去猜测用户SQL的实际意图,尝试去将错误恢复出来继续进行编译,这样的好处就是在同一次编译中的多次错误会一次性地报出来,方便用户修改。这一功能对于IDE而言是非常重要的,因为当用户使用IDE来做语法检查的时候会发现IDE能够将整个脚本中的所有错误同时标识出来。

image

数据类型
MaxCompute 2.0新增了很多数据类型,如下图所示。可以看出,MaxCompute 1.0只支持了几个有限的数据类型,这些数据类型其实在大多数场景下其实是够用的,但是将应用从已有的开源系统上移植过来的时候就会显得不足。而MaxCompute 2.0中更多的数据类型能够支持更丰富的表达能力。此外,MaxCompute 2.0还增加了很多常量的定义,比如TINYINT、SMALLINT、DATETIME以及TIMESTAMP等。当然了,这里也有两点需要注意,一点就是使用新类型需要使用新类型需要set odps.sql.type.system.odps2=true; 或者开Hive兼容。此外,还需要注意MaxCompute实际还支持CHAR类型和INTERVAL 类型,目前仅当打开Hive兼容模式下可用。

image

复杂类型
此外,MaxCompute 2.0还对于复杂类型进行了补充,支持了ARRAY、MAP以及STRUCT三种类型,并且这些复杂类型可以任意嵌套。MaxCompute 2.0对于复杂类型的定义、构造以及操作都进行了扩充,因此用户可以很轻松地使用这些复杂类型来实现复杂的逻辑。

image

语法结构
MaxCompute 2.0相比于1.0增加了如下图所示的很多语法结构。首先是Values表达式,其并不是MaxCompute原创的,在其他的SQL语言中也有,但是在MaxCompute 1.0中并没有支持,这就导致在MaxCompute 1.0里面构造一个简单的数据是非常困难的。在MaxCompute 2.0中,因为支持了Values表达式,因此用户可以直接在SQL里面通过Values表达式来构造一个简单的维表。此外,目前还可以在Select语句中省略from表达式,相当于Select一个一行的values。

image

第二个新增的语法叫做“Common Table Expression(CTE)”,简单而言CTE可以让用户通过使用WITH语句将子查询提前,而踢到前面的SubQuery可以被反复使用,即所谓的Common Table,而且Common Table之间可以相互引用。此外一个新增的语法及时“SEMI/ANTI JOIN”,这两个语法其实算是SQL标准的功能,SEMI JOIN的语义是当JOIN条件满足的时候返回满足条件的行,而ANTI JOIN与之前恰好相反,就是当JOIN条件满足的时候就过滤掉满足条件的行,保留不满足条件的行返回。

MaxCompute 2.0还支持了更加丰富的子查询表达式,在MaxCompute 1.0中只支持了IN的SubQuery表达式,而在MaxCompute 2.0则引入了两种新表达式,一种是EXISTS表达式,其含义是当后面的表达式有结果返回时为TRUE,否则为FALSE;另一种叫做SCALA SubQuery,也就是当后面的子查询能够确定是一行一列的时候,子查询可以当做标量使用,进而可以参与其他表达式的计算。此外,在MaxCompute 2.0子查询中支持了correlated,这使得子查询的结果不再是固定的值,而是会根据外部表的行进行改变。MaxCompute 2.0提供的另外一个重要功能就是“SELECT TRANSFORM”,该语法完全与Hive兼容,其允许用户使用第三方脚本来处理数据。另外一个引入的新功能是“User Defined Type”,这是MaxCompute独有的功能,这个功能非常好用,其允许用户直接在SQL中嵌入第三方语言,目前只支持了Java。使用new就可以创建对象,可以直接调用对象公共方法和访问公共属性,而且整个JDK都可以直接使用,还可以通过设置odps.sql.session.resources引用第三方包。

image

MaxCompute 2.0还支持外表和非结构化存储,简单而言在MaxCompute 1.0里面,用户只能引用内部定义的表,比如创建表之后将数据上传上去才能够使用。而目前的过程完全可以利用外表来实现,用户可以定义和创建一个外表,可以直接从外部数据源读取数据,这样就省略了数据迁移的过程。而外部数据和内部数据的存储肯定不一致,因此MaxCompute 2.0还引入了对于非结构化数据进行处理的机制,比如通过定义StorageHandler来处理非结构化存储的序列化、反序列化以及读写过程。值得注意的是MaxCompute 2.0的外表在语法等方面完全兼容Hive,因此Hive用户可以非常轻松地向MaxCompute 2.0进行迁移。MaxCompute 2.0还提供了“CLUSTERED BY”功能,我们可以在创建表的过程中指定表按照某一列进行CLUSTERED BY,这将会为表建立一个聚集索引,能够使用户在查询中利用索引进行优化,减少读入的数据量。还有一个新功能就是“User Defined Join”,借助此功能用户可以自定义表的连接过程,原本的内置JOIN过程都可能会产生笛卡尔积结果,可能做了过多的爆炸式展开,而通过User Defined Join将会大大减少中间结果的产生。

image

脚本模式
MaxCompute 2.0提供了脚本模式功能,在脚本模式下,用户所提交的脚本不再是以单条SQL为单位的,而是以整个脚本为单位提交查询,因此更适合复杂的查询。此外,脚本模式可以使用DDL语句,并且可以有多个不同的输出,可以有多次insert into以及多个insert override等,所以脚本模式能够最大限度地帮助用户编写复杂的逻辑。虽然脚本模式中,脚本是按照一整个脚本提交的,但是并不会逐条执行,而是将整个脚本作为一个完整作业执行,其优点就是对于一些重复操作可以合并到一起。

image

参数化视图
在MaxCompute 1.0版本的视图定义中,并不允许传递参数,但是在2.0版本中则引入了参数化视图功能,该功能允许用户在定义VIVIEW时候定义参数,根据参数的不同使得VIEW的逻辑会出现一系列变化,这样就能够大大提升VIEW代码的重用能力。如果能够设计得很好,那么用户的绝大部分逻辑都能通过VIEW基于过程的过程方式实现。

image

MaxCompute Studio
MaxCompute 2.0提供了对于IDE的强大支持,其在开始研发的过程中就伴随这MaxCompute Studio的设计和实现了。而MaxCompute Studio也提供了一些非常重要的功能,比如作业监控、作业分析、实时错误提示以及智能提示等。通过MaxCompute Studio,用户可以非常直观地监控作业的执行流程,帮助用户直观地掌控执行流程中的各个节点信息;此外,MaxCompute Studio还提供了一系列分析工具,帮助用户分析参与作业的各个节点的执行信息等;此外,还提供了很多对于SQL开发的支持功能,比如用户在MaxCompute Studio中做编辑的时候,就会把用户的脚本做本地编译,并发现其中存在的问题,然后以图形化方式报告给用户;另外一个就是实现了上下文提示,提示功能非常智能化,而这在开发脚本的过程中也是非常有帮助的。

image

即将上线的功能
除了上述功能之外,MaxCompute 2.0版本中还有如下图所示的很多即将上线的功能,比如GROUPING SETS和CUBE/ROLLUP、INTERSECT/EXCEPT、内存计算、Java Runtime与Local run、更完善的脚本语言支持以及Table API支持等。

image

三、MaxCompute 2.0 vs 竞品

Hive兼容模式
最后与大家简单介绍一下MaxCompute 2.0与其他竞品的区别。之所以介绍这一点,是因为一些用户期望从其他的产品上向MaxCompute 2.0进行迁移,希望能够对于MaxCompute所支持的功能以及难度有一个直观的了解。其实,MaxCompute 2.0对于Hive具有非常强的兼容能力,当用户通过设置“SET odps.sql.hive.compatible=true;”就可以打开Hive兼容模式。在兼容模式下,不仅能够兼容Hive的语法结构,还能够对于数据类型、语义以及UDF和StorageHandler进行兼容。当打开MaxCompute 2.0的兼容模式,那么在Hive上运行的应用就能够非常方便地迁移到MaxCompute 2.0平台上来。当然了,MaxCompute 2.0与Hive还存在一些在设计上的不兼容的地方,比如某些操作和MaxCompute概念不符合,比如database、schema等,因此没有支持;在权限管理上,某些方式和MaxCompute不符,如column的权限管理,没有支持。MaxCompute的resource是全局的,因此某些操作,如CREATEFUNCTION需要指定resource。而这些不兼容的地方,对于用户也没有太大影响,因此对于用户而言,从Hive向MaxCompute进行迁移是非常方便的。而在MaxCompute在未来也将会支持任何符合SQL标准的语法。

image

MaxCompute 2.0核心优势
MaxCompute 2.0除了在兼容方面做得比较好之外,还存在着很多的核心优势。首先,最大的优势就是MaxCompute是企业级服务,能够提供7*24小时不间断服务的系统级平台,会有专业人员对于问题进行支持。MaxCompute 2.0具有包容的生态圈,大家可以从各个平台上迁移过来,从而实现完整统一的计算系统。此外,MaxCompute 2.0所提供的更丰富的扩展能力能够让用户更方便地扩展SQL能力。脚本模式和参数化视图能够让用户用脚本方式开发复杂的逻辑,从而实现复杂的功能。MaxCompute Studio所提供的强大的开发调试的支持,也是企业竞品所没有的。在经过一系列的改进之后,MaxCompute 2.0的执行引擎、优化器都是用了最新的算法模型和框架,因此性能不会输给任何竞品,并且已经经过了内部无数次验证,因此用户可以放心使用。

image

想要了解或讨论更多有关大数据计算的技术和产品,欢迎加入“MaxCompute开发者交流”钉钉群

image

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
分布式计算 关系型数据库 MySQL
maxcompute迁移工具MMA使用操作手册
针对官方教程中省略和易出错的部分进行了补充,在使用过程中如果有更多问题,建议工单或者任务单咨询阿里云售后服务人员。
|
6月前
|
存储 分布式计算 数据挖掘
maxcompute优势
MaxCompute作为阿里巴巴集团内部核心大数据平台,具有以下优势: 1. 存储及计算能力:MaxCompute具备万台服务器扩展能力和跨地域容灾能力,能够承担集团内部绝大多数的计算任务,支撑每日百万级作业规模,适用于100GB以上规模的存储及计算需求,最大可达EB级别,并支持多种计算模型如SQL、MapReduce、Graph等及MPI迭代类算法。 2. 高效的数据处理能力:MaxCompute可以快速处理海量数据,减轻企业数据处理负担。 3. 自动调整存储成本:MaxCompute可以根据数据的访问频率和重要性,自动调整存储成本,降低企业数据存储成本。 4. 实时数据分析:MaxCom
43 3
|
SQL 分布式计算 Oracle
阿里云-数仓 数据开发神器-ODPS(MaxCompute)的组成对象
阿里云-数仓 数据开发神器-ODPS(MaxCompute)的组成对象
|
SQL 分布式计算 API
MaxCompute关键特性
MaxCompute关键特性
97 0
|
SQL 机器学习/深度学习 存储
【MaxCompute】 产品架构
MaxCompute 本身具备计算引擎能力。在处理 Spark 作业时,MaxCompute 运行在阿里云自研的 CUPID 平台之上,可以原生支持开源社区 Yarn 所支持的计算框架。
【MaxCompute】 产品架构
|
SQL 分布式计算 DataWorks
【MaxCompute 常见问题】 PyODPS
1. PyODPS数据类型如何设置? 如果您使用 PyODPS,可以通过下列方法打开新数据类型开关: 如果通过 execute_sql 方式打开新数据类型,可以执行 o.execute_sql('setodps.sql.type.system.odps2=true;query_sql', hints={"od ps.sql.submit.mode" : "script"})。 如果通过 Dataframe 打开新数据类型
【MaxCompute 常见问题】 PyODPS
|
存储 机器学习/深度学习 分布式计算
【MaxCompute】核心功能
统一丰富的计算和存储能力MaxCompute 支持多种计算模型和丰富的 UDF。 采用列压缩存储格式,通常情况下具备 5 倍压缩能力,可以大幅节省存储成本。
【MaxCompute】核心功能
|
分布式计算 Hadoop 调度
|
分布式计算 MaxCompute
【MaxCompute季报】MaxCompute新功能发布 2019Q2
2019年Q2 MaxCompute发布了一系列新功能。 本文对主要新功能和增强功能进行了概述。 SQL新功能 华北张家口节点正式开服售卖 国际Region Spark商业化发布 存储降价 元数据服务Information Schema MaxCompute搬站迁移工具MMA 数据脱敏 Tunn...
1168 0