选模型只看排行榜,就像选餐厅只看大众点评评分——有用但不够。真正靠谱的评估需要在自己的场景和数据上做测试。

通用Benchmark的局限

MMLU、HumanEval衡量通用能力,但你的业务有特殊的数据分布和成功标准。通用高分不代表在你的场景下效果好。

构建领域评估集

从历史工单提取典型问题和人工回复,从业务文档构造问答对,收集用户反馈中的常见问题。至少100个样本,覆盖主要场景和边界情况。

自动化评估

用另一个大模型做裁判(LLM-as-Judge):从准确性、完整性、相关性三个维度打分。这是目前最实用的自动评估方法。

A/B测试

最可靠的方式是让部分用户用模型A、部分用模型B,统计满意度和任务完成率。数据不会说谎。

我的流程

自动评估快速筛选,人工抽检Top候选,A/B测试在真实流量验证。评估时间应占模型选型周期30%以上。