Delta Lake 平台化实践（离线篇)-阿里云开发者社区

原文链接：https://blog.csdn.net/lsshlsw/article/details/103553289

博客主：breeze_lsw

01

SQL 支持

1.1 DML

背景

delta lake 0.4 只支持以 api 的方式使用 Delete/Update/Merge Into 等 DML，对习惯了使用 sql 的终端用户会增加其学习使用成本。

解决方式

下文通过 spark sql extension 以插件化的方式扩展 sql parser ，增加 DML 语法的支持。在 spark 推出 sql extension 功能前，也可以用通过 aspectj 通过拦截 sql 的方式实现增加自定义语法的功能。

1.在自定义扩展 g4 文件中相应的 antlr4 DML 语法，部分参考了 databricks 商业版的语法

statement
    : DELETE FROM table=qualifiedName tableAlias
        (WHERE where=booleanExpression)?                              #deleteFromTable
    | UPDATE table=qualifiedName tableAlias upset=setClause
        (WHERE where=booleanExpression)?                              #updateTable
    | MERGE INTO target=qualifiedName targetAlias=tableAlias
        USING (source=qualifiedName |
            '(' sourceQuery=query')') sourceAlias=tableAlias
            ON mergeCondition=booleanExpression
            matchedClause*
            notMatchedClause*                                               #mergeIntoTable

2.实现对应的 visit，将 sql 翻译为 delta api，以最简单的 delete 为例

override def visitDeleteFromTable(ctx: DeleteFromTableContext): AnyRef = withOrigin(ctx) {
    DeleteTableCommand(
        visitTableIdentifier(ctx.table),
         Option(getText(ctx.where)))
}

case class DeleteTableCommand(table: TableIdentifier,
                              where: Option[String]) extends RunnableCommand {
     override def run(sparkSession: SparkSession): Seq[Row] = {
       DeltaUtils.deltaTableCheck(sparkSession, table, "DELETE")
       val deltaTable = DeltaUtils.getDeltaTable(sparkSession, table)
       if (where.isEmpty) {
         deltaTable.delete()
       } else {
         deltaTable.delete(where.get)
       }
       Seq.empty[Row]
     }
}

3.启动 Spark 时加载打包的 extension jar ，初始化 SparkSession 时指定 Extension 类。

val spark = SparkSession.builder
    .enableHiveSupport()
    .config("spark.sql.extensions", "cn.tongdun.spark.sql.TDExtensions")

tip

spark 3 之前不支持配置多个 extension ，如果遇到使用多个 extension 的情况，可以将多个 extension 在一个 extension 代码中进行注入。
以同时增加 tispark extension 和自定义 extension 为例

override def apply(extensions: SparkSessionExtensions): Unit = {
    extensions.injectParser(TiParser(getOrCreateTiContext))
    extensions.injectResolutionRule(TiDDLRule(getOrCreateTiContext))
    extensions.injectResolutionRule(TiResolutionRule(getOrCreateTiContext))
    extensions.injectPlannerStrategy(TiStrategy(getOrCreateTiContext))
    extensions.injectParser { (session, parser) => new TDSparkSqlParser(session, parser)}
}

1.2 Query

识别 delta table 有三种实现方式

使用相应表名前缀/后缀作为标识
在 table properties 中增加相应的参数进行识别
判断表目录下是否存在_delta_log

我们一开始是使用 delta_ 的前缀作为 delta 表名标识，这样实现最为简单，但是如果用户将 hive(parquet) 表转为 hive(delta) ，要是表名发生变化则需要修改相关代码，所以后面改为在table propertie 中增加相应的参数进行识别。
也可以通过判断是否存在 _delta_log 文件识别，该方式需要在建表时写入带有 schema 信息的空数据。
Query 通过对sql执行进行拦截，判断 Statement 为 SELECT 类型，然后将 delta 表的查询翻译成对应的 api 进行查询。

if (statementType == SELECT) {
    TableData tableData = (TableData) statementData.getStatement();
    sql = DatasourceAdapter.selectAdapter(tableData, sparkSession, sql);
}

1.3 Insert

Insert 需要考虑 INSERT_VALUES/INSERT_SELECT ，还有分区表/非分区表以及写入方式的一些情况。

sql 类型判断

  if (INSERT_SELECT == statementType) {
    isDeltaTable = DatasourceAdapter.deltaInsertSelectAdapter(sparkSession, statementData);
} else if (INSERT_VALUES == statementType) {
    isDeltaTable = DatasourceAdapter.deltaInsertValuesAdapter(sparkSession, statementData);
}

INSERT_INTO 需要从 catalog 中获取对应的 schema 信息，并将 values 转化为 dataFrame

val rows = statementData.getValues.asScala.map(_.asScala.toSeq).map { x => Row(x: _*) }
import spark.implicits._
val schemaStr = spark.catalog.listColumns(dbName, tableName)
    .map(col => col.name + " " + col.dataType)
    .collect().mkString(",")
val schema = StructType.fromDDL(schemaStr)
val df = spark.createDataFrame(spark.sparkContext.makeRDD[Row](rows), schema)

INSERT_SELECT 则直接访问被解析过的 Delta Query 子句。

partition

由于 delta api 的限制，不支持静态分区，可以从 tableMeta 中解析到对应的动态分区名，使用 partitionBy 写入即可。
至此，已经实现使用 apache spark 2.4 使用 sql 直接操作 delta table 表。

02

平台化工作

与 hive metastore 的集成，表数据管理等平台化的一些工作。

2.1 浏览 delta 数据

用户在平台上点击浏览数据，如果通过 delta api ，启动 spark job 的方式从 HDFS 读取数据，依赖重，延时高，用户体验差。
基于之前在 parquet 格式上的一些工作，浏览操作可以简化为找出 delta 事务日志中还存活 (add - remove) 的 parquet 文件进行读取，这样就避免了启动 spark 的过程，大多数情况能做到毫秒级返回数据。
需要注意的是，_delta_log 文件只存在父目录，浏览某个分区的数据同样需要浏览父目录获取相应分区内的存活文件。

// DeltaHelper.load 方法会从 _delta_log 目录中找到存活 parquet 文件，然后使用 ParquetFileReader 读取
List<Path> inputFiles;
if (DeltaHelper.isDeltaTable(dir, conf)) {
    inputFiles = DeltaHelper.load(dir, conf);
} else {
    inputFiles = getInputFilesFromDirectory(projectCode, dir);
}

从 delta 0.5 开始，浏览数据的功能可以通过 manifest 文件进行更简单的实现，具体内容可以参考下一篇文章。

2.2 浏览 delta 数据

将原生 delta lake 基于 path 的工作方式与 hive metastore 进行兼容。

数据写入/删除

数据动态分区插入 - 统计写入的分区信息（我们是通过修改了 spark write 部分的代码得到的写入分区信息），如果分区不存在则自动增加分区 add partition if ...。还有一种更简单的做法是直接使用 msck repair table ，但是这种方式在分区多的情况下，性能会非常糟糕。

删除分区 - 在界面上操作对某个分区进行删除时，后台调用 delta 删除api，并更新相关 partition 信息。

元数据信息更新

元数据中表/分区记录数，大小等元数据的更新支持。

2.3 碎片文件整理

非 delta lake 表小文件整理方式可以参考我之前在 csdn 上的文章。这种方式采用的是在数据生成后校验，如果有碎片文件则进行同步合并，Spark 小文件合并优化实践：
非 delta lake 表的小文件整理使用的是同步模式，可能会影响到下有任务的启动时间。

基于 delta lake 的小文件整理要分为两块，存活数据和标记删除的数据

标记删除的数据
被 delta 删除的数据，底层 parquet 文件依旧存在，只是在 delta_log 中做了标记，读取时跳过了该文件。

可以使用 delta 自带的 vacuum 功能删除一定时间之前标记删除的数据。

存活数据
可以实现一个 compaction 功能，在后台定时做异步合并，由于 delta 支持事务管理的特性，该过程对用户透明，合并过程中保证了数据一致性且不会中断任务。

03

结语

3.1 一些限制

由于 delta api 的限制，目前 delta delete / update 不支持子句，可以使用 merge into 语法实现相同功能。
由于 delta api 的限制，只支持动态分区插入。

3.2 merge 使用场景

upsert

有 a1,a2 两张表，如果 a.1eventId = a2.eventId ，则 a2.data 会覆盖 a1.data，否则将 a2 表中相应的数据插入到 a1 表

MERGE INTO bigdata.table1 a1
USING bigdata.table2 a2
ON a1.eventId = a2.eventId
WHEN MATCHED THEN
  UPDATE SET a1.data = a2.data
WHEN NOT MATCHED
  THEN INSERT (date, eventId, data) VALUES (a2.date, a2.eventId, a2.data)

ETL 避免数据重复场景

如果 uniqueid 只存在于 a2 表，则插入 a2 表中的相应记录

MERGE INTO logs a1
USING updates a2
ON a1.uniqueId = a2.uniqueId
WHEN NOT MATCHED
  THEN INSERT *

维度表更新场景

如果 a1 和 a2 表的合作方相同，且 a2 中的 deleted 为 true ，则删除 a1 表相应记录
如果 a1 和 a2 表的合作方相同，且 a2 中的 deleted 为 false ，则将 a2 表相应记录的 value 更新到 a1 表中
如果没有匹配到相应合作方，且 a2 中 deleted 为 fasle ，则将 a2 表相应记录插入到 a1 表

MERGE INTO logs a1
USING updates a2
ON a1.partnerCode = a2.partnerCode
WHEN MATCHED AND a2.deleted = true THEN DELETE
WHEN MATCHED THEN UPDATE SET a1.value = a2.newValue
WHEN NOT MATCHED AND a2.deleted = false THEN INSERT (partnerCode, value) VALUES (partnerCode, newValue)

历史数据清理场景

如果 a1 和 a2 表的合作方相同，则删除 a1 表中 ds < 20190101 的所有数据

MERGE INTO logs a1
USING updates a2
ON a1.partnerCode = a2.partnerCode
WHEN MATCHED AND a1.ds < '20190101' THEN
  DELETE

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区近万人Spark技术同学在线提问答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！

对开源大数据和感兴趣的同学可以加小编微信（下图二维码，备注“进群”）进入技术交流微信群。
Apache Spark技术交流社区公众号，微信扫一扫关注