LLaVA LLM Vision

LLaVA -3- 构建自己的Model

By crabboss 2024 年 7 月 13 日

在LLaVA原论文中，作者自己构建了LLaVA模型，但是作者的实现不方便我们替换不同的大语言模型。

好在transformers库及时实现了LLaVA Model，我们也很容易通过替换其中权重的方式获取属于自己的LLaVA Model。

创建属于自己的LLaVA Model分为5步：

1 设置单独的<image>token
2 根据Config初始化LLaVA Model
3 分别替换LLaVA Model的视觉端和文本端
4 LLaVA Model设置替换LLM的pad_token_id
5 为LLaVA Model增加图像预处理器

1 设置单独的<image>token

2 根据Config初始化LLaVA Model

3 分别替换LLaVA Model的视觉端和文本端

4 LLaVA Model设置替换LLM的pad_token_id

5 为LLaVA Model增加图像预处理器

6 尝试体验和加载模型

7 参考文献

By crabboss

LLaVA -6- Trainer报错

crabboss 2024 年 7 月 14 日

LLaVA -2- 载入自己的模型、数据、训练参数

crabboss 2024 年 7 月 13 日

LLaVA LLM Vision

LLaVA -5- 开启Trainer时代

crabboss 2024 年 7 月 13 日

Black-Box Prompt Optimization: Aligning Large Language Modelswithout Model Training

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

RAG和Long-Context的看法

大模型如何缓解微调过程的遗忘问题？