BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

vision

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

项目地址：https://gitcode.com/gh_mirrors/vi/vision

免费下载资源

kebijuelun

894人浏览 · 2023-03-11 22:32:19

kebijuelun · 2023-03-11 22:32:19 发布

Paper name

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Paper Reading Note

URL: https://arxiv.org/abs/2201.12086

TL;DR

ICML 2022 文章，提出了BLIP，一种新的 Vision-Language Pre-training (VLP) 框架，同时提出了一种图像文本对的数据集清洗方法

Introduction

背景

大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色
此外，通过使用从网络收集的有噪声的图像-文本对放大数据集，在很大程度上提高了性能，这是次优的监督来源

本文方案

在这里插入图片描述

提出了BLIP，一种新的 Vision-Language Pre-training (VLP) 框架，它可以灵活地转移到视觉语言理解和生成任务中
- 通过引导 caption 来有效地利用有噪声的网络数据，其中 captioner 生成合成 caption，filter 去除有噪声的 caption
在广泛的视觉语言任务上取得了最先进的结果，例如图像文本检索（平均+2.7%recall@1)、图像字幕（CIDEr中+2.8%）和VQA（VQA得分+1.6%）
本文主要贡献
- Multimodal mixture of Encoder-Decoder (MED)：一种有效的多任务预训练和灵活迁移学习的新模型体系结构。MED 既可以作为单模态编码器，也可以作为基于图像的文本编码器，或基于图像的文字解码器。该模型与三个视觉语言目标联合预训练：图像文本对比学习、图像文本匹配和图像条件语言建模
- Captioning and Filtering (CapFilt)：一种从噪声图像文本对中学习的新数据集增强方法。将预先训练的 MED 微调为两个模块：一个用于生成给定网络图像的合成 caption 的 captioner，以及一个用于从原始网络文本和合成文本中去除噪声 caption 的 filter

Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

模型结构

提出 multimodal mixture of encoder-decoder (MED)：
- Unimodal encoder：
  - text encoder 是 BERT
  - image encoder 使用 ViT
- Image-grounded text encoder
  - 通过在自关注（SA）层和前馈网络（FFN）之间为文本编码器的每个 transformer 块插入一个附加的交叉关注（CA）层来注入视觉信息。特定于任务的[Encode]标记被附加到文本，[Encode]的输出嵌入被用作图像-文本对的多模态表示
- Image-grounded text decoder
  - 用因果自关注层替换基于图像的文本编码器中的双向自关注层。[Decode]标记用于表示序列的开始，序列结束标记用于表示其结束

Pre-training Objectives

联合优化了三个目标，包括两个基于理解的目标和一个基于生成的目标，每个图像-文本对只需要一次前向通过计算量较大的视觉转换器，三次前向通过文本转换器
- Image-Text Contrastive Loss (ITC)：集成 ALBEF 中的 ITC 损失。通过鼓励正面图像文本对具有相似的表示，负面图像文本相反，对齐视觉变换器和文本变换器的特征空间
- Image-Text Matching Loss (ITM)：旨在学习图像-文本多模态表示，捕捉视觉和语言之间的细粒度对齐。ITM是一个二分类任务，给定其多模态特征，其中模型使用ITM头（线性层）来预测图像文本对是正（匹配）还是负（不匹配）
- Language Modeling Loss (LM)：旨在生成给定图像的文本描述。优化交叉熵损失，该损失训练模型以自回归方式最大化文本的可能性

CapFilt

背景
- 有标注数据集类似 COCO 这样包含图像与文本的数据集较少
- 网络收集的图片文本对一般准确性较差
提出 Captioning and Filtering (CapFilt)，一种提高文本语料库质量的新方法
- 基于两个子模型清洗网络数据集
  - captioner：对给定的网络图片生成 captions，基于 LM 损失训练
  - filter：移除有噪声的图片文本对，基于 ITC and ITM 损失训练；去除原始web文本Tw和合成文本Ts中的噪声文本，如果 ITM 头预测文本与图像不匹配，则认为文本有噪声，移除该文本
  - 以上两个模型基于 MED 初始化，分别在 COCO 上 finetune
将清洗后的网络数据与 COCO 等标注数据合并后用于模型 pretrain

实验结果

Effect of CapFilt

清洗数据集后有明显涨点，训练数据量更大精度更高(即便不清洗数据也是一样结论)
caption 示例，前两个看起来能过滤掉与图像不想关的网络文本

Diversity is Key for Synthetic Captions

使用 nucleus sampling 来生成合成 caption，nucleus sampling 是一种随机解码方法，其中每个 token 从一组累积概率质量超过阈值 p (p = 0.9) 的 tokens 中采样；与 beam search 方法（旨在以最高概率生成 caption 的确定性解码方法）相比，nucleus sampling 精度更高，原因可能是 nucleus sampling 产生的结果更多变

与 SOTA 模型对比

Image-Text Retrieval
Image Captioning
Visual Question Answering (VQA)
在微调过程中，重新排列预训练的模型，其中图像问题首先被编码为多模态嵌入，然后被提供给答案解码器；基于 LM 损失进行 finetune

Thoughts

训练 loss 与技巧主要是继承之前工作，主要创新点在融合多模态数据的模型结构设计和数据集清洗上

GitHub 加速计划 / vi / vision

下载

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

最近提交(Master分支：4 个月前 )

7a78e541 22 小时前

1e53952f 16 天前

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，