跳到主要内容

国产唯一开源湖仓架构:LakeSoul

通过国家信创认证,为企业的湖仓数据中台提供全球领先的、可靠的数仓管理能力

领先的技术理念及架构设计

传统数据架构面临响应不及时、成本高、无法统一实时、批量数据、不易扩展等问题,LakeSoul 为解决上述问题提供了高性能流批更新,在云上提供数据高并发、高吞吐读写的能力和完整的数仓管理能力,并以通用的方式提供给多种计算引擎。

高可扩展的Catalog元数据服务

使用 PostgreSQL 数据库来存储 Catalog 信息,提升元数据可扩展性和事务并发能力。

支持并发写和ACID事务

实现并发控制,具备高度写并发能力,自动判断冲突并进行处理,保证数据一致性。

支持增量写入和并发 Upsert 更新

提供高性能、高吞吐的 Merge on Read、Upsert 功能,提升数据摄入的灵活性和性能。

实时数据仓库

支持流式和批式的写入,快照读取;Flink CDC 多源实时入湖,流式增量读取计算,实现全链路实时数仓。

开放的生态系统

支持 Spark、Flink、Presto、PyTorch、Ray 等多种计算引擎,完整地支持实时数仓、BI 分析、AI模型训练等各类数据智能计算业务。

智能实时湖仓,Data + AI 一体化架构

应用场景丰富,满足多种业务需求,助力释放业务价值

实时数据快速入湖

提供FLink CDC,从数据源头实现实时化,无需T+1导入、无需部署Kafka

在线数据库整库同步构建数据中台示例

仅需在线数据源等相关配置,即可启动整库同步实时入湖任务,支持自动感知新表、自动表结构变更同步,无需人工运维。在线数据实时更新到湖仓中台中,无缝对接BI报表、大屏展示,实时更新,随时掌握关键业务指标,支撑商业决策。

实时报表分析

基于流批一体更新特性,通过SQL完成数据提取、转换和开发,简化ETL和数据分析流程

AI应用落地

构建大规模DMP、机器学习样本库、特征库,无缝对接 AI 模型训练和推理,实现数据智能化应用

加入社区,共享数据智能