不是所有请求都需要GPT-4o。简单问题用小模型就够了,复杂推理才需要大模型。

路由策略

基于规则:短问题走小模型,长问题或包含分析推理等关键词走大模型。基于分类器:训练轻量分类器判断问题难度。基于置信度:小模型回答后检查置信度,低置信度升级到大模型。

实现方案

根据用户问题长度和关键词判断模型选择。问题长度小于100字符走7B模型,包含分析推理对比等词走72B模型。

成本效果

实测80%的请求可以走7B模型,20%走72B。综合成本降低60%以上,用户感知到的质量几乎不下降。

级联升级

小模型回答后用判别器评估质量,不达标自动升级到大模型重答。用户无感知,成本可控。