流批一体

LakeInsight 采用湖仓一体的实时数仓架构，天然支持流批一体数据处理。从实时 CDC 数据同步、增量流式计算到批量离线建模，全链路覆盖，做到"流批一体、湖仓一体、AI 与 BI 一体"三位一体，满足数据可追踪、可管理、可查看以及集群可弹性伸缩的能力。

(1) 多源 CDC 同步

(2) 丰富的数据类型支持

支持 boolean、bit、binary、varbinary、blob、bigint、int、integer、float、double、date、datetime、timestamp、decimal、char、varchar、string、text、json 等全类型数据的同步

(3) 数据准确性保障

(1) 元数据管理

(2) 灵活的数据更新与读取

(3) 多引擎支持

提供统一 API 接口，支持各类开源引擎的接入和整合。

(4) 流批数仓建模

实时增量建模：以流式方式增量读取上游数据，支持 Changelog 语义，支持 Flink 双流 Join、LookupJoin、Aggregate 等增量计算，支持 CDC 输出，实时落盘并推送到下游数据服务
批量计算建模：以周期调度方式批量执行建模任务，支持 Overwrite 覆盖写和 Upsert 两种结果更新方式，支持 Spark SQL 和 Spark DataFrame API 开发
统一存储与查询：流批写入共用同一套湖仓存储，查询层自动合并流批数据，用户无需感知底层数据来源