大模型测评是大模型落地的最后一公里。目前的测评方法可以分为人工测评和自动测评,其中自动测评一致性好,可复现,成为业界研究重点。
1 大模型自动测评
模型的自动测评分为rule-based和model-based两类:
- rule-based
- 1 以客观题为主,例如多选题,评测指标为准确率;
- 2 其他评价指标例如困惑度,bleu,rouge;
- model-based
- 裁判员模型
- GPT4, claude
- ranking model
- chatbot arena竞技场模式
- llm peer-examination:将N个大模型回答的问题交还给N个大模型做两两之间的评估。
- 裁判员模型
2 大模型测评领域
大模型的经典评测领域:
- 1 知识和能力评测
- 问答
- 知识理解
- 推理
- 工具学习
- 2 对齐评测
- 道德,伦理
- 偏见,毒性
- 幻觉,诚实性
- 3 安全评测
- 鲁棒性评测
- 风险性评测
- 4 行业大模型测评