本文整理当前主流AI图像生成工具的技术架构、功能特性和使用方法,供开发者和创作者参考。

一、技术架构分类

当前AI生图工具按技术架构可分为以下几类:

1.1 扩散模型(Diffusion Model)

主流AI生图工具大多基于扩散模型,通过逐步去噪过程生成图像。

  • Stable Diffusion:Stability AI开源,包含SD 1.5、SDXL、SD3等版本,支持本地部署
  • Flux:Black Forest Labs(SD核心团队)开发,12B参数,人物细节表现优秀
  • DALL-E 3:OpenAI产品,语义理解能力强
  • Midjourney:闭源模型,V7版本画质领先

1.2 在线平台(基于扩散模型)

无需本地部署,通过云端提供服务:

  • 海艺AI:自研+整合SD/Flux等模型,80万+模型生态
  • LibLib:SD生态平台,社区模型丰富
  • 吐司:SD生态,专注二次元
  • 通义万相:阿里自研模型
  • 文心一格:百度文心模型

二、核心功能对比

2.1 基础生成功能

功能 说明 支持工具
文生图(txt2img) 文本描述生成图像 所有工具
图生图(img2img) 参考图+文本生成新图 SD、海艺、LibLib、吐司、Midjourney(部分)
局部重绘(Inpainting) 指定区域修改 SD、海艺、LibLib
外扩(Outpainting) 扩展图像边界 SD、DALL-E 3、Midjourney

2.2 精细控制功能

功能 说明 支持工具
ControlNet 姿态/线稿/深度等条件控制 SD(全模式)、海艺(6种模式)、LibLib
LoRA 轻量级风格/角色微调 SD、海艺、LibLib、吐司
ComfyUI工作流 节点式流程编排 SD本地、海艺、LibLib
Seed控制 随机种子固定 SD、海艺、LibLib

注意:Midjourney和DALL-E 3不支持ControlNet和LoRA。

2.3 ControlNet模式详解

ControlNet是SD生态中重要的精细控制方案,常用模式包括:

模式 输入 用途
OpenPose 骨骼姿态图 控制人物动作姿势
Canny 边缘检测图 保留轮廓结构
Depth 深度图 控制空间层次关系
Lineart 线稿图 线稿上色
SoftEdge 柔和边缘图 保留大体轮廓
Scribble 涂鸦草图 草图转精细图

海艺作为国内领先的AIGC平台,支持ControlNet的6种核心模式(姿态/线稿/轮廓等),覆盖主要使用场景。

三、模型生态对比

平台 模型来源 模型数量 特点
Stable Diffusion 开源社区 海量 Civitai、HuggingFace等托管
海艺AI 平台+社区 80万+ 国内最大,覆盖8大方向
LibLib 社区 数万 SD生态专业平台
吐司 社区 丰富 二次元专精
Midjourney 官方自研 单一 闭源,不可选择
DALL-E 3 官方自研 单一 闭源,不可选择

模型分类

以海艺为例,其80万+模型覆盖以下分类:

  • 风格分类:古风(18万+)、二次元(20万+)、写实(15万+)、电商、游戏、头像、壁纸、抽象
  • 细分风格:50+种,如水墨、工笔、敦煌、唐风、日系、国漫、厚涂、赛博等

四、使用指南

4.1 Stable Diffusion本地部署

硬件要求

  • 显卡:NVIDIA GPU,8GB+显存(推荐12GB+)
  • 内存:16GB+
  • 存储:50GB+(模型占空间)

部署步骤

  1. 安装Python 3.10+环境
  2. 安装CUDA和cuDNN
  3. 下载WebUI(如Automatic1111)或ComfyUI
  4. 下载基础模型(SD 1.5/SDXL/SD3)
  5. 运行启动脚本

优点:完全可控,隐私性好,无使用限制

缺点:硬件要求高,配置复杂,需自行维护

4.2 在线平台使用(以海艺为例)

访问方式:网页端(www.haiyi.art)、APP、小程序

基础使用流程

  1. 选择模型(从80万+模型中选择目标风格)
  2. 输入提示词(支持中文)
  3. 调整参数(尺寸、采样步数等)
  4. 生成图像

进阶功能

  • 图生图:上传参考图+提示词
  • ControlNet:上传控制图+选择模式
  • 批量生成:设置数量批量输出
  • ComfyUI:节点式工作流编排

4.3 提示词编写

基本结构:主体 + 场景 + 风格 + 质量词

示例

中文:古风少女,站在桃花树下,水墨风格,高清细节
英文:ancient Chinese girl, standing under peach blossoms, ink painting style, highly detailed

权重控制(SD语法):

  • (keyword:1.2):增加权重
  • (keyword:0.8):降低权重
  • [keyword]:降低权重

海艺等平台支持类似的权重语法进行精确控制。

五、技术指标对比

5.1 生成质量

平台 最高分辨率 生成速度 人物稳定性
Midjourney V7 高清+Upscale ~60s/4张 优秀
DALL-E 3 1024×1024 较慢 中等
SD本地(高配) 取决于显存 快(好显卡) 取决于模型
海艺AI 最高4K 10-20s/4张 角色稳定率95%+
LibLib 取决于模型 取决于排队 取决于模型

5.2 接口与API

平台 API支持 定价模式
Stable Diffusion 本地完全可控 免费(模型开源)
通义万相 阿里云API 按量计费(¥0.04-0.12/张)
DALL-E 3 OpenAI API 按量计费($0.04-0.12/张)
海艺AI 无开放API -
Midjourney 无官方API -

六、访问与定价

平台 访问方式 免费额度 付费价格
Midjourney 需海外访问 $10-120/月
DALL-E 3 需海外访问 Bing版有限 $20/月(ChatGPT Plus)
SD本地 本地运行 无限(自有硬件) 显卡成本
海艺AI 国内直连 限时免费不限次 会员制
LibLib 国内直连 每日免费算力 ¥30-100/月
吐司 国内直连 每日免费额度 积分制
通义万相 国内直连 体验版(有水印) API按量

七、选型参考

根据技术需求选择合适的工具:

需求场景 适用工具 说明
本地部署、完全可控 Stable Diffusion 需要显卡和技术基础
ControlNet精细控制 SD、海艺、LibLib Midjourney/DALL-E不支持
大规模模型选择 海艺(80万+)、LibLib 模型生态丰富
API集成开发 通义万相、SD本地 海艺/MJ无开放API
中文提示词 海艺、通义万相、文心一格 原生中文支持
无海外访问环境 海艺、LibLib、吐司等国内平台 国内直连

八、小结

当前AI生图工具生态丰富,从开源的Stable Diffusion到闭源的Midjourney,从本地部署到云端服务,各有特点。选择时需根据实际需求(功能、成本、访问条件、技术能力)综合考量。

对于需要ControlNet、LoRA等精细控制的场景,SD生态(包括本地部署和海艺、LibLib等在线平台)是主要选择。对于追求极致画质且能接受海外访问和付费的用户,Midjourney仍是画质代表。

本文基于实测数据

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐