跳到主要内容

国产领先开源湖仓架构:LakeSoul

通过国家信创认证,作为未来的数智化底座,LakeSoul可以为企业构建统一实时的数据中台、数据资产底座,同时,LakeSoul也是AI 2.0大模型时代的知识底座,支持海量多模态数据的管理、一体化大模型训练和RAG应用

领先的技术理念及架构设计

传统数据架构面临响应不及时、成本高、无法统一实时、批量数据、不易扩展等问题,LakeSoul 为解决上述问题提供了高性能流批更新,在云上提供数据高并发、高吞吐读写的能力和完整的数仓管理能力,并以通用的方式提供给多种计算引擎

高可扩展的Catalog元数据服务

使用 PostgreSQL 数据库来存储 Catalog 信息,提升元数据可扩展性和事务并发能力。

支持并发写和ACID事务

实现并发控制,具备高度写并发能力,自动判断冲突并进行处理,保证数据一致性。

支持增量写入和并发 Upsert 更新

提供高性能、高吞吐的 Merge on Read、Upsert 功能,提升数据摄入的灵活性和性能。

实时数据仓库

支持流式和批式的写入,快照读取;Flink CDC 多源实时入湖,流式增量读取计算,实现全链路实时数仓。

多模态融合检索

向量召回、表查询、原始文件统一检索,灵活指定过滤条件和计算,功能丰富。

开放的生态系统

支持 Spark、Flink、Presto、PyTorch、Ray 等多种计算引擎,完整地支持实时数仓、BI 分析、AI模型训练等各类数据智能计算业务。

智能实时湖仓,Data + AI 一体化架构

应用场景丰富,满足多种业务需求,助力释放业务价值

实时数据快速入湖

提供FLink CDC,从数据源头实现实时化,无需T+1导入、无需部署Kafka

在线数据库整库同步构建数据中台示例

仅需在线数据源等相关配置,即可启动整库同步实时入湖任务,支持自动感知新表、自动表结构变更同步,无需人工运维。在线数据实时更新到湖仓中台中,无缝对接BI报表、大屏展示,实时更新,随时掌握关键业务指标,支撑商业决策。

实时报表分析

基于流批一体更新特性,通过SQL完成数据提取、转换和开发,简化ETL和数据分析流程

湖仓RAG智能专家系统

LakeSoul提供原生的Python接口,一体化支持主流AI框架如PyTorch的直接数据调用、训练、推理,也能支持大模型的训练和RAG应用

GIFGIF
GIF

AI 专家咨询

加入社区,共享数据智能