多模态与 AI 计算
LakeInsight 基于 LakeSoul 湖仓一体框架的 Data+AI 一体化设计,支持将多模态数据(视频、音频、图像、文本等)与结构化数据统一存储在湖仓中,并提供 AI 计算引擎的深度集成,实现从数据入湖到 AI 模型训练、推理的全链路闭环。
多模态数据处理
LakeInsight 支持在湖仓中存储和管理多种类型的非结构化数据:
(1) 视频数据处理
- 支持将视频文件逐帧解析并存入湖仓表中,每帧包含图像二进制数据、时间戳、帧索引等元信息
- 支持按帧索引、时间范围等条件进行增量查询和过滤,方便提取特定视频片段进行后续分析
- 支持结合 AI 模型对视频帧进行目标检测、行为识别等分析任务
(2) 音频数据处理
- 支持将音频文件以结构化表形式存入湖仓,包含音频样本数据、采样率、通道信息等元数据
- 支持按路径、时长等维度进行数据查询和统计分析
- 支持结合语音识别、声纹识别等 AI 模型进行音频数据分析
(3) 图像与文本数据
- 支持以二进制或文件路径方式存储图像和文本数据
- 利用 LakeSoul 的 Schema Evolution 能力,可灵活扩展元数据字段以适应多模态数据的管理需求
AI 计算能力
(1) AI 引擎集成
- 支持主流的 AI 和机器学习计算引擎,包括 PyTorch、Pandas、Spark MLLib 等
- 通过 LakeSoul 原生 Python Reader 和 PyTorch Dataset 接口,可直接从湖仓表中读取数据用于模型训练,省去数据导出和格式转换步骤
(2) Python 开发环境
- 基于 CodeServer 提供在线 IDE,支持 Jupyter Notebook 交互式开发
- 内置 Conda 环境管理,支持创建独立的 Python 虚拟环境用于依赖隔离
- 支持将编写完成的 Python 任务发布为审批任务,进行定时调度或流式运行
Data + AI 一体化
LakeInsight 遵循 LakeSoul "Data+AI 一体化"设计理念:
- 统一存储:结构化数据与非结构化数据共用同一套湖仓存储,降低数据孤岛
- 统一计算:支持 Spark/Flink 批流计算与 AI 训练在同一平台上协作,数据无需跨系统搬迁
- 统一管理:多模态数据与 AI 模型通过统一的元数据管理、权限控制和血缘追踪进行治理