在LLaVA原论文中,作者自己构建了LLaVA模型,但是作者的实现不方便我们替换不同的大语言模型。
好在transformers库及时实现了LLaVA Model,我们也很容易通过替换其中权重的方式获取属于自己的LLaVA Model。
创建属于自己的LLaVA Model分为5步:
- 1 设置单独的<image>token
- 2 根据Config初始化LLaVA Model
- 3 分别替换LLaVA Model的视觉端和文本端
- 4 LLaVA Model设置替换LLM的pad_token_id
- 5 为LLaVA Model增加图像预处理器
1 设置单独的<image>token
2 根据Config初始化LLaVA Model
3 分别替换LLaVA Model的视觉端和文本端
4 LLaVA Model设置替换LLM的pad_token_id
5 为LLaVA Model增加图像预处理器
6 尝试体验和加载模型