大模型评估

大模型自动评测理论

By crabboss 2024 年 8 月 21 日

大模型测评是大模型落地的最后一公里。目前的测评方法可以分为人工测评和自动测评，其中自动测评一致性好，可复现，成为业界研究重点。

1 大模型自动测评

模型的自动测评分为rule-based和model-based两类：

rule-based
- 1 以客观题为主，例如多选题，评测指标为准确率；
- 2 其他评价指标例如困惑度，bleu，rouge；
model-based
- 裁判员模型
  - GPT4, claude
  - ranking model
  - chatbot arena竞技场模式
- llm peer-examination：将N个大模型回答的问题交还给N个大模型做两两之间的评估。

2 大模型测评领域

大模型的经典评测领域：

1 知识和能力评测
- 问答
- 知识理解
- 推理
- 工具学习
2 对齐评测
- 道德，伦理
- 偏见，毒性
- 幻觉，诚实性
3 安全评测
- 鲁棒性评测
- 风险性评测
4 行业大模型测评

3 参考文献

大模型自动评估理论和实战–LLM Automatic Evaluation

By crabboss

大模型评估

大模型常见学术基准测试

crabboss 2024 年 6 月 23 日

大模型评估

文本生成的评价指标

crabboss 2024 年 5 月 30 日

Black-Box Prompt Optimization: Aligning Large Language Modelswithout Model Training

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

RAG和Long-Context的看法

大模型如何缓解微调过程的遗忘问题？