模型评估实战：别再只看排行榜了

选模型只看排行榜，就像选餐厅只看大众点评评分——有用但不够。真正靠谱的评估需要在自己的场景和数据上做测试。

通用Benchmark的局限

MMLU、HumanEval衡量通用能力，但你的业务有特殊的数据分布和成功标准。通用高分不代表在你的场景下效果好。

从历史工单提取典型问题和人工回复，从业务文档构造问答对，收集用户反馈中的常见问题。至少100个样本，覆盖主要场景和边界情况。

用另一个大模型做裁判（LLM-as-Judge）：从准确性、完整性、相关性三个维度打分。这是目前最实用的自动评估方法。

最可靠的方式是让部分用户用模型A、部分用模型B，统计满意度和任务完成率。数据不会说谎。

自动评估快速筛选，人工抽检Top候选，A/B测试在真实流量验证。评估时间应占模型选型周期30%以上。