BLIP-2代码解析

2023-12-13 paperreading paperreading, 原创 0 评论字数统计: 299(字) 阅读时长: 1(分)

1. BLIP-2代码解析

BLIP-2是Salesforce的一篇文章，核心框架图如下所示，由Image Encoder, Q-Former以及LLM组成，其中Q-former主要用来将图像的embedding空间和LLM的word embedding空间进行对齐

这里的Image Encoder就是一个ViT，首先使用Transform将输入图片转化为(1,3,224,224)维度，然后进入到ViT当中，ViT一共有39层，细节如下图所示

Q-Former代码如下图所示，是一个12层的Transformer，包含Self-attention, Cross-attention, 和MLP，其中每一部分的具体操作如下所示

文中给出的网络图如下所示

下面是论文中给出的image encoder和Q-Former的结构图，以及优化目标。这里有一个疑问：在blip2源代码的推理阶段，我并没有看到input text的这一部分，也就是说右边的text分支被删除了，我的理解是训练目标时只是为了让模型提取图片中的关键信息？

本文链接： https://harrytea.netlify.app/2023/12/13/BLIP-2代码解析/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

computer vision