CLIP-Adapter: Better Vision-Language Models with Feature Adapters

vision

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

项目地址：https://gitcode.com/gh_mirrors/vi/vision

免费下载资源

Tsukinousag1

5869人浏览 · 2022-03-12 23:34:44

Tsukinousag1 · 2022-03-12 23:34:44 发布

对比语言图像预训练(CLIP)

虽然prompt-tuning用于textual inputs，但是建议CLIP Adapter在视觉或语言分支上使用功能适配器进行fine-tune

CLIPAdapter采用了一个额外的瓶颈层来学习新的特征，并将剩余的特征与原始的预训练特征进行混合。

为了更好地适应vision语言模型，使用功能适配器，而不是快速调整

1. Classifier Weight Generation for Few-Shot Learning

Co0P方法

a classifier weight matrix W(D,K)，D维度，K类别分类，得到K-维度 logit

hard-prompt，pre-defined hard prompt template H.

soft-prompt，random-initialized learnable soft tokens

2. CLIP Adapter

只在CLIP的语言和图像分支上附加少量可学习的瓶颈线性层,在few-shot , fine-tuning期间，保持原始clip主干冻结。

然而，使用附加层进行简单的微调在few-shot中仍然可能会陷入过度拟合。为了解决过拟合问题，提高CLIP-Adapter的鲁棒性，进一步采用残差连接，将微调后的知识与CLIP主干中的原始知识动态融合。

image feature f ， classifier weight W

GitHub 加速计划 / vi / vision

34

0

下载

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

最近提交(Master分支：24 天前 )

7a13ad0f Differential Revision: D82494990 Pull Request resolved: https://github.com/pytorch/vision/pull/9231 5 天前

58eb0393 Co-authored-by: Nicolas Hug <nicolashug@meta.com> 7 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

SCI论文快速写作指南：沁言学术实用方法

在SCI论文写作领域，尤其针对CSDN社区内的计算机科学、AI和算法优化研究者，高效方法的应用已成为提升投稿成功率的关键。AI工具的整合能显著优化从检索到润色的流程。本文基于公开调研数据和用户案例，剖析SCI写作难点，并以沁言学术为例，探讨实用方法与技术机制。重点在于算法深度与效率insights，旨在为CSDN用户提供可操作的指导，帮助科研人员加速SCI论文产出。

GitCode 开源社区

cover

仓颉共学创作营正式启动！邀您共探新兴技术，解锁仓颉创作红利

GitCode 开源社区

高校科研团队文献协作工具推荐

在高校科研团队中，尤其针对CSDN社区内的计算机科学、AI和大数据领域，文献协作是推动项目进展的核心。传统方法往往因信息孤岛和版本冲突而低效，AI工具的引入能优化这一流程。本文基于公开调研数据和用户案例，剖析协作痛点，并以沁言学术为例，探讨其功能机制与应用策略。重点在于技术深度与团队insights，旨在为CSDN用户提供可借鉴的路径，帮助科研团队提升文献协作效率。

GitCode 开源社区

所有评论(0)

查看更多评论

Tsukinousag1

@weixin_42411502

已为社区贡献1条内容