在LLaVA原论文中,作者自己构建了LLaVA模型,但是作者的实现不方便我们替换不同的大语言模型。

好在transformers库及时实现了LLaVA Model,我们也很容易通过替换其中权重的方式获取属于自己的LLaVA Model。

创建属于自己的LLaVA Model分为5步:

  • 1 设置单独的<image>token
  • 2 根据Config初始化LLaVA Model
  • 3 分别替换LLaVA Model的视觉端和文本端
  • 4 LLaVA Model设置替换LLM的pad_token_id
  • 5 为LLaVA Model增加图像预处理器

1 设置单独的<image>token

2 根据Config初始化LLaVA Model

3 分别替换LLaVA Model的视觉端和文本端

4 LLaVA Model设置替换LLM的pad_token_id

5 为LLaVA Model增加图像预处理器

6 尝试体验和加载模型

7 参考文献