Hopsworks:面向机器学习团队的开源 AI 数据平台

AI 项目越做越复杂,特征管理、模型训练、部署上线,每个环节都有自己的工具。把这些环节串起来统一管理,是很多团队面临的痛点。Hopsworks 是个开源方案,把自己定位为"实时 AI 数据湖仓",核心是围绕特征存储和 MLOps 搭建了一套完整平台。

正文顶部截图

什么是 Hopsworks?

Hopsworks 是一个模块化平台,核心组件是面向 Python 的特征存储(Feature Store)。特征存储解决了 ML 团队最头疼的问题:训练和推理时的特征一致性。你可以只用它管理特征,也可以用 MLOps 功能训练模型、部署服务。平台提供了版本管理、血缘追踪、权限控制,团队成员在项目内协作,共享特征、模型和训练数据。

平台支持本地安装,也支持在 AWS、Azure、GCP 上部署。官方还提供了 Serverless 版本,注册账号就能直接用,适合先体验再部署。

安装和部署

Hopsworks 安装不算复杂。一条命令就能拉起基础环境。部署环境需要 Centos/RHEL 8.x 或 Ubuntu 22.04,至少 32GB 内存、8 核 CPU、100GB 磁盘。如果要跑 GPU 训练任务,集群内的 GPU 都可以调度使用。

云端方面,Managed Hopsworks 能直接对接 AWS、Azure、GCP,也支持与 Databricks、SageMaker、KubeFlow 集成。对需要本地部署的企业,Hopsworks 团队会根据硬件环境定制方案。

核心功能

项目级多租户管理

Hopsworks 用项目来组织团队和资源。每个项目是一个独立的沙箱,成员在项目内协作,敏感数据可以存在同一个集群但跨项目隔离。所有 ML 资产都有版本和血缘追踪,从特征工程到模型上线,全链路可追溯。

开发和运维工具

平台提供了完整的开发环境:Conda 管理 Python 环境、Jupyter Notebook、Airflow 编排 pipeline。支持 Spark、Spark Streaming、Flink 程序运行,云端可以动态扩缩容。

README区域截图

文档和 API

Hopsworks 的 API 分成三层:Hopsworks API 管项目级别操作,Feature Store API 管特征组和连接器,MLOps API 管模型注册和服务部署。官方文档覆盖了从安装到使用的全流程,教程仓库包含了欺诈检测、用户流失预测等实际案例。

社区和开源

项目采用 AGPL-V3 协议,代码完全开放。社区提供 Slack 频道和交流论坛,用户反馈和贡献都挺活跃。

对机器学习的团队来说,Hopsworks 提供了一个从特征到模型的全流程管理方案,不管在云上还是本地,都能找到对应的部署方式。

一个从特征到模型的全流程管理方案,不管在云上还是本地,都能找到对应的部署方式。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐