Flink Forward #Asia2020 流批一体及数仓资料整理

时间:2021-03-16 11:59:14   收藏:0   阅读:0

 

阿里云实时计算负责人 - 王峰(莫问)/ FFA_2020-Flink as a Unified Engine - Now and Next-V4


 2020年Flink

基于Flink 的流批一体数仓

基于Flink流批一体数据湖架构

PyFlink

Flink Native on K8S 

 双链路数据实时化

Flag:

美团


 数据集成

 组件对比 

  Flag:

 

有赞


 Flink on  K8S   VS Yarn 优势

Flink on K8S 痛点问题 

Flag: 

 

知乎


 技术选型

Flag:

 

B站


生态场景

Flag:

 

阿里云开放平台


 Flink on Zeppelin

作业调度

Flag:

 

 阿里:Flink在线机器学习


 架构

开源 

Flag : 

 

湖仓一体 - 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系


Multi-Cluster, Shared-Data架构

Multi-Cluster, Shared-Data架构2 

失败容错 

  

贝壳


 数仓架构 

 Flag:

 

顺丰


 实时数仓建设思路

 Hudi 关键特性 

 加速宽表

实时数仓宽表

Flag:

 

腾讯实时数仓


痛点总结

实时数仓建设的需求 

Apache Iceberg 是什么 

Apache Iceberg 的能力 

实时数仓-数据湖分析系统 

实时数仓-数据湖分析系统

Flag:

 

腾讯看点基于Flink构建万亿数据量下的实时数仓及实时查询系统


 实时数仓

  

基于 Flink SQL 构建流批一体的 ETL 数据集成


  传统数仓

流批一体的 ETL 数据集成

 基于 Flink SQL 我们现在可以方便地构建流批一体的 ETL 数据集成,与传统数仓架构的核心区别主要是这几点:

所以基于流批一体的架构,我们能获得的收益:

CDC Connector

数据入 OLAP

流式数据入湖(Iceberg)

Flink 数据集成能力矩阵

Flag:

 

 参考总结及规划:


 1、以实时数仓、K8S、PyFlink 等场景的分布;

2、Flink+ClickHouse

      MySQL CDC connector 非常受用户的欢迎,尤其是结合 OLAP 引擎,可以快速构建实时 OLAP 架构。实时 OLAP 架构的一个特点就是将数据库数据同步到  OLAP 中做即席查询,这样就无需离线数仓了。

 

 3、实时数仓相关技术组件对比

 

 

 4、流批一体的ETL打宽:数据打宽是数据集成中最为常见的业务加工场景,数据打宽最主要的手段就是 Join,Flink SQL 提供了丰富的 Join 支持,包括 Regular Join、Interval Join、Temporal Join。

 

Regular Join(双流关联) 就是大家熟知的双流 Join,语法上就是普通的 JOIN 语法。如下图:

 

 Interval Join(区间关联) 是一条流上需要有时间区间的 join,比如刚刚的广告计费案例中,它有一个非常典型的业务特点在里面,就是点击一般发生在曝光之后的 10 分钟内。

Temporal join (时态表关联) 是最常用的数据打宽方式,它常用来做我们熟知的维表  Join。Flink 支持非常丰富的 Temporal join 功能,包括关联 lookup DB,关联 changelog,关联 Hive 表。在以前,大家熟知的维表 join 一般都是关联一个可以查询的数据库,因为维度数据在数据库里面,但实际上维度数据可能有多种物理形态,比如 binlog 形式,或者定期同步到 Hive 中变成了 Hive 分区表的形式。在 Flink 1.12 中,现在已经支持关联这两种新的维表形态。 

  再看一个 Lookup DB 的例子,这是一个直播互动数据关联直播间维度的案例。

  针对这类场景,Flink 1.12  支持了 Temporal Join Changelog,通过从 changelog在 Flink state 中物化出维表来实现维表关联。

   我们详细解释下 temporal join changelog 的过程

  在数仓场景中,Hive 的使用是非常广泛的,Flink 与 Hive 的集成非常友好,现在已经支持 Temporal Join Hive 分区表和非分区表。

 总结一下我们刚刚介绍的几种在数据打宽中使用的 join:

5、Multi-Cluster, Shared-Data架构

6、Native K8S HA  / vs Yarn

7、Flink 交互

8、AI

 

Flag:

参考资料


评论(0
© 2014 mamicode.com 版权所有 京ICP备13008772号-2  联系我们:gaon5@hotmail.com
迷上了代码!