不是所有请求都需要GPT-4o。简单问题用小模型就够了,复杂推理才需要大模型。
路由策略
基于规则:短问题走小模型,长问题或包含分析推理等关键词走大模型。基于分类器:训练轻量分类器判断问题难度。基于置信度:小模型回答后检查置信度,低置信度升级到大模型。
实现方案
根据用户问题长度和关键词判断模型选择。问题长度小于100字符走7B模型,包含分析推理对比等词走72B模型。
成本效果
实测80%的请求可以走7B模型,20%走72B。综合成本降低60%以上,用户感知到的质量几乎不下降。
级联升级
小模型回答后用判别器评估质量,不达标自动升级到大模型重答。用户无感知,成本可控。