一站式数据智能建模开发环境
LakeInsight 提供基于 WEB-UI 的一站式数据智能建模开发环境,将流式计算、批量计算、AI 开发和多模态数据处理统一在同一平台中,支持数据工程师、AI 开发者和业务分析人员在单一工作空间内完成从数据接入到模型上线、指标发布的完整开发链路。
统一开发体验
(1) 多语言开发支持
- 支持通过 SQL 方式进行数据查询和建模开发,兼容 Flink SQL 和 Spark SQL
- 支持 Python、Java、Scala 等编程语言,满足数据处理、AI 训练和自定义业务逻辑的开发需求
- 支持 Jupyter Notebook 交互式开发,适合探索性分析和 AI 模型实验
- 支持数据任务的开发、测试、上线一站式服务,覆盖完整开发生命周期
(2) 流批 AI 多模态统一
- 同一工作空间内同时管理 Flink 实时流任务、Spark 批量任务、Python AI 训练任务
- 流任务(Flink)用于实时 CDC 同步、实时指标计算和流式特征工程
- 批任务(Spark)用于大规模离线建模、历史数据回填和周期报表
- Python 任务支持 PyTorch、Pandas 等 AI 框架,直接读取湖仓数据进行模型训练
- 多模态数据(视频、音频、图像、文本)与结构化表数据在同一 IDE 中查询和处理
(3) 在线 IDE 开发环境
- 基于 CodeServer 的在线编辑器,支持代码高亮、自动补全和语法检查
- 内置 Conda 虚拟环境管理,支持项目级依赖隔离
- SQL 编辑器支持交互式查询执行,实时预览结果
- 交互协作方式支持多人同时开发数据建模任务
安全与多租户
- 支持企业内部单点登录(SSO)对接
- 开发环境和生产环境隔离,防止开发过程中的误操作影响线上数据
- 支持数据域划分,实现数据可读、可写、可执行等细粒度权限隔离
- 基于角色的权限管理(RBAC),保证各工作空间的业务和数据安全
- 支持自定义角色,可针对不同模块灵活配置操作权限
任务发布与运维
- 开发完成的任务以可配置化的方式一键发布到生产环境
- 支持审批流程:任务需经过管理员审批后方可上线运行
- 实时监控任务运行状态,支持任务启停、日志查询和异常告警
- 支持任务版本管理,历史版本可追溯、可回滚
- 支持计算资源(CPU、内存)和集群配置的灵活调整
平台管理
- 工作空间管理:不同用户、不同项目在独立工作空间中操作,互不干扰
- 开发集群与生产集群分离配置,保障生产稳定性
- 资源监控:支持集群资源、计算任务的实时监控和报警
- 任务调度:批任务支持 Cron 定时调度,流任务支持 7×24 持续运行