Transformer实战——视觉提示模型

盼小辉丶

33人浏览 · 2026-04-03 08:25:52

盼小辉丶 · 2026-04-03 08:25:52 发布

Transformer实战——视觉提示模型

0. 前言

提示模型 (Prompt-based models) 在人工智能的许多领域中备受关注。这类模型能够以某种模式作为指导，并通过理解该模式生成相应的输出。提示可以是多种形式或数据格式，包括文本提示和视觉提示。文本提示是一段自由文本，用于指示模型应执行的任务或输出的内容；而视觉提示则是一种视觉引导，帮助模型理解任务或指令本身。

1. CLIPSeg

例如，CLIP 等模型能够同时理解图像和文本，并将它们映射到同一个向量空间中。在这个向量空间中，语义相近的文本和图像(即文本描述的场景或物体与图像内容一致)在向量空间中的距离更近。为了更好地利用模型的能力，可以通过引入外部数据来增强模型的性能。例如，假设不仅要搜索图像，还要在图像中搜索特定物体。虽然这可以通过语义分割或目标检测实现，但在我们的场景中，文本是自由格式的，这意味着用户可以自由输入任何内容，而不受模型已知或训练过的物体类别的限制。在这种情况下，视觉提示或文本提示的方法非常有用。
CLIPSeg 是一种结合文本和视觉提示的方法，下图展示了该模型的工作原理：

CLIPSeg

如图所示，CLIPSeg 是一个基于 CLIP 视觉和文本 Transformer 训练的解码器。这个解码器接收两种不同的输入：一种是原始图像，另一种是支持信息(可以是文本或另一张图像)。

2. 实现 CLIPSeg

(1) 首先，下载并加载样本图像：

from PIL import Image
import requests
url = "https://farm4.staticflickr.com/3487/3925656789_1b64654c91_z.jpg"
image = Image.open(requests.get(url, stream=True).raw)

(2) 获取图像后，加载 CLIPSeg 模型：

from transformers import CLIPSegProcessor, CLIPSegForImageSegmentation

processor = CLIPSegProcessor.from_pretrained("CIDAS/clipseg-rd64-refined")
model = CLIPSegForImageSegmentation.from_pretrained("CIDAS/clipseg-rd64-refined")

(3) 对于文本提示，我们可以使用一组描述目标物体的文本来帮助模型定位我们要找的物体：

prompts = ["hat", "ball", "player", "red shirt"]
inputs = processor(
    text=prompts,
    images=[image] * len(prompts),
    padding="max_length",
    return_tensors="pt",
)

(4) 准备好模型所需的提示和相应的输入后，生成模型的输出：

outputs = model(**inputs)
preds = outputs.logits.unsqueeze(1)
展示每个输出的预测分割结果：
import matplotlib.pyplot as plt
import torch

_, ax = plt.subplots(1, 5, figsize=(15, 4))
[a.axis("off") for a in ax.flatten()]
ax[0].imshow(image)
[ax[i + 1].imshow(torch.sigmoid(preds.detach()[i][0])) for i in range(4)]
[ax[i + 1].text(0, -15, prompts[i]) for i in range(4)]

输出结果如下所示：

输出结果

除了利用文本提示使用此模型外，我们也可以使用视觉提示作为输入。

(5) 假设我们有一张棒球的图像，并且希望搜索这颗球的位置：

url = "Baseball_(crop).jpg"
prompt = Image.open(url)

(6) 获取棒球图像后，对图像和提示进行编码，并根据提示调整模型：

encoded_image = processor(images=[image], return_tensors="pt")
encoded_prompt = processor(images=[prompt], return_tensors="pt")
outputs = model(**encoded_image, conditional_pixel_values = encoded_prompt.pixel_values)

(7) 得到输出后，将其可视化：

preds = outputs.logits.unsqueeze(1)
preds = torch.transpose(preds, 0, 1)
_, ax = plt.subplots(1, 2, figsize=(6, 4))
[a.axis('off') for a in ax.flatten()]
ax[0].imshow(image)
ax[1].imshow(torch.sigmoid(preds.detach()[0][0]))