大模型测评是大模型落地的最后一公里。目前的测评方法可以分为人工测评和自动测评,其中自动测评一致性好,可复现,成为业界研究重点。

1 大模型自动测评

模型的自动测评分为rule-based和model-based两类:

  • rule-based
    • 1 以客观题为主,例如多选题,评测指标为准确率;
    • 2 其他评价指标例如困惑度,bleu,rouge;
  • model-based
    • 裁判员模型
      • GPT4, claude
      • ranking model
      • chatbot arena竞技场模式
    • llm peer-examination:将N个大模型回答的问题交还给N个大模型做两两之间的评估。

2 大模型测评领域

大模型的经典评测领域:

  • 1 知识和能力评测
    • 问答
    • 知识理解
    • 推理
    • 工具学习
  • 2 对齐评测
    • 道德,伦理
    • 偏见,毒性
    • 幻觉,诚实性
  • 3 安全评测
    • 鲁棒性评测
    • 风险性评测
  • 4 行业大模型测评

3 参考文献