GitHub 地址https://github.com/black-forest-labs/flux

简介

FLUX​ 是由 Black Forest Labs(黑森林实验室)​ 开发的开源图像生成与编辑推理库,其核心是 FLUX.1 系列模型。该团队由 Stable Diffusion 原班人马组建,FLUX 被视为在技术架构上全面超越前作的“次世代”作品。它采用了全新的流匹配(Flow Matching)​ 架构与 Transformer backbone,在提示词遵循度、图像细节(尤其是手部和文字渲染)以及生成速度上均达到了业界顶尖水平。

该项目不仅提供了本地部署的开放权重模型(如 FLUX.1-schnell),还集成了商业 API 接口,支持从简单的文生图到复杂的结构控制(如边缘、深度图引导)的全套视觉创作流程。

主要功能

1. 极致的提示词遵循与画质

FLUX.1 拥有 120 亿参数,支持生成最高 200 万像素的高分辨率图像。与传统扩散模型相比,它在处理复杂、冗长的提示词时表现出色,能精准还原用户描述的构图、风格和细节,解决了“AI 看不懂话”的痛点。特别是在人体解剖结构(手、脸)和图像内文字渲染(海报、Logo)方面,其表现显著优于许多主流竞品。

2. 多模态控制与编辑套件

除了基础的文本生成图像(Text-to-Image),项目还提供了一系列专用工具模型:

  • FLUX.1 Fill:用于智能修复(Inpainting/Outpainting),可基于掩码和文本指令擦除物体或扩展画面。

  • FLUX.1 Canny/Depth:通过边缘检测或深度图进行结构控制,实现“草图变真图”。

  • FLUX.1 Kontext:支持参考图像上下文生成,能保持角色一致性并进行多轮连贯编辑。

3. 高性能推理与加速

项目深度集成 NVIDIA TensorRT​ 优化。对于拥有 NVIDIA 显卡的用户,通过 TensorRT 部署可大幅提升推理速度(官方数据显示提升可达 20%),并降低显存占用,使得在消费级显卡上快速生成高清大图成为可能。

4. 灵活的商用授权与追踪

  • 开源模型:FLUX.1-schnell 采用 Apache 2.0 协议,可免费商用;其他 Dev 版本主要用于研究和非商业用途。

  • 商业 API:针对企业级需求,Black Forest Labs 提供了 Pro 版 API,并内置了用量追踪机制。企业可通过集成 SDK 自动上报使用量,以满足商业授权合规性要求。

安装与配置

基础安装(Python 3.10+ 环境)

这是最通用的本地部署方式,适合大多数用户:

  1. 克隆仓库并创建环境

    git clone https://github.com/black-forest-labs/flux
    cd flux
    python3.10 -m venv .venv
    source .venv/bin/activate
  2. 安装依赖

    pip install -e ".[all]"
  3. 下载模型权重:安装后,代码会自动从 Hugging Face 下载对应的 FLUX.1 模型(如 FLUX.1-schnell)。首次运行会因下载大文件(约 50GB+)而耗时较长。

TensorRT 加速安装(可选)

若你拥有 NVIDIA 显卡并希望获得极致性能,需使用 enroot容器环境安装 NVIDIA 官方的 PyTorch 镜像,并安装 .[tensorrt]扩展。具体步骤详见官方 README。

API 配置(用于商业追踪)

如果你计划商用开源模型,需要配置 API Key 以启用用量追踪:

  1. bfl.ai注册账号并获取 API Key。

  2. 设置环境变量:export BFL_API_KEY="your_key_here"

  3. 在调用脚本时启用 track_usage=True参数。

如何使用

本地推理(Python 脚本)

安装完成后,你可以通过几行代码调用模型。以生成一张“宇航员在火星骑马”的图片为例,核心流程包括:加载管道(Pipeline)、设置提示词、调用生成函数并保存图片。FLUX 支持高级参数如 num_inference_steps(步数)和 guidance_scale(引导尺度)来精细控制生成效果。

命令行(CLI)快速生成

项目提供了便捷的命令行接口,无需编写代码即可生成图片:

python -m flux generate --prompt "A photo of a cat in a spacesuit" --model flux.1-schnell --output ./output.jpg

此命令会调用默认或指定的模型,并将结果保存至本地。

使用官方 Demo 界面

仓库内置了基于 Gradio 和 Streamlit 的 Web UI(如 demo_gr.py)。运行这些脚本可以启动一个本地网页,通过可视化的界面输入提示词、上传控制图,实时预览生成效果,非常适合非开发者体验。

应用场景实例(无代码)

场景一:电商广告素材批量生产

痛点:电商运营团队需要为海量 SKU 生成不同风格(写实、插画、3D)的主图、详情页和社交媒体广告图,传统拍摄成本高且周期长。

FLUX 方案

  1. 准备产品基础图(白底图)和文案描述(如“一款极简风格的白色保温杯,放在木桌上,自然光,商业摄影质感”)。

  2. 使用 FLUX.1-schnell 模型,配合 Canny 或 Depth 控制图,批量生成符合品牌调性的高质量素材。

  3. 价值:无需租赁影棚和雇佣模特,几分钟内即可产出数百张风格统一的营销图片,大幅降低制作成本。

场景二:游戏角色概念设计与迭代

痛点:游戏美术团队在前期概念设计阶段,需要快速产出大量角色原画供策划选择,手动绘制效率低下。

FLUX 方案

  1. 美术总监输入详细的风格提示词(如“赛博朋克女战士,机械义肢,霓虹灯光,Moaebius 风格”)。

  2. 利用 FLUX.1 Dev 或 Kontext 模型生成多张备选方案。若对某张图满意,可将其作为参考图,进一步生成同一角色的不同姿势或表情(保持一致性)。

  3. 价值:将概念设计周期从数周缩短至数小时,极大加速了前期创意验证流程。

场景三:自媒体内容配图自动化

痛点:知识类博主(如公众号、知乎)每天需要为文章配图,既要保证图片与内容强相关,又要避免版权风险。

FLUX 方案

  1. 将文章段落摘要作为提示词输入(如“抽象背景,数据可视化,区块链技术,科技感”)。

  2. 使用本地部署的 FLUX 模型生成完全原创的封面图或文中插图。

  3. 价值:彻底摆脱图库版权限制,实现“一文一图”的个性化配图,提升内容专业度。

总结

FLUX 代表了当前开源图像生成的最高水准之一。对于开发者、艺术家和企业而言,它不仅仅是一个工具,更是一个可定制、可商用的视觉生产力平台。无论是通过本地部署追求极致的控制权,还是通过 API 调用享受企业级服务,FLUX 都能为你的创意工作流提供强大支持。

GitHub 地址https://github.com/black-forest-labs/flux

官方文档https://docs.bfl.ai

模型仓库https://huggingface.co/black-forest-labs

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐