多模型路由:根据任务智能分发到不同模型

不是所有请求都需要GPT-4o。简单问题用小模型就够了，复杂推理才需要大模型。

路由策略

基于规则:短问题走小模型，长问题或包含分析推理等关键词走大模型。基于分类器:训练轻量分类器判断问题难度。基于置信度:小模型回答后检查置信度，低置信度升级到大模型。

根据用户问题长度和关键词判断模型选择。问题长度小于100字符走7B模型，包含分析推理对比等词走72B模型。

实测80%的请求可以走7B模型，20%走72B。综合成本降低60%以上，用户感知到的质量几乎不下降。

小模型回答后用判别器评估质量，不达标自动升级到大模型重答。用户无感知，成本可控。