大模型调用按token计费,不当优化的话成本会失控。

七个策略

提示词精简:去掉冗余描述,每减少100个token就省钱。输出控制:设置合理的max_tokens上限,要求简洁回答比详细回答省一半token。多模型路由:80%请求走便宜小模型,20%走大模型,综合成本降60%。语义缓存:用Embedding做相似度匹配,命中缓存直接返回,热门问题命中率30%-50%。批量处理:非实时任务用Batch API,价格是实时API的一半。本地模型替代:高频简单场景用Ollama替代API,边际成本趋近于零。提前终止:流式输出时用户满意就停止生成。

组合效果

七个策略组合使用,成本通常能降低50%-80%。关键是在不降低用户感知质量的前提下优化。