AI Guardrails：给大模型输出装上安全阀

大模型会说错话、泄露隐私、产生有害内容。面向用户的AI应用没有安全防护就是在裸奔。

常见风险

Prompt注入：用户嵌入恶意指令绕过系统提示。敏感信息泄露：模型暴露API密钥或用户隐私。有害内容：暴力、歧视、违法内容。幻觉：一本正经编造事实。

输入层：检测prompt注入模式，过滤敏感关键词。模型层：通过系统提示设定行为边界（但可被绕过，不能作为唯一手段）。输出层：分类器检测有害内容，正则匹配敏感信息格式。

用正则检测手机号、身份证号、邮箱等格式。用关键词黑名单过滤API密钥泄露。用分类模型判断内容安全性。

高风险场景严格过滤，低风险场景放宽限制。宁可多拦截一次也不要放过一次真正的风险。上线后监控被拦截请求，持续调整规则。