大模型会说错话、泄露隐私、产生有害内容。面向用户的AI应用没有安全防护就是在裸奔。

常见风险

Prompt注入:用户嵌入恶意指令绕过系统提示。敏感信息泄露:模型暴露API密钥或用户隐私。有害内容:暴力、歧视、违法内容。幻觉:一本正经编造事实。

三层防护

输入层:检测prompt注入模式,过滤敏感关键词。模型层:通过系统提示设定行为边界(但可被绕过,不能作为唯一手段)。输出层:分类器检测有害内容,正则匹配敏感信息格式。

实战方案

用正则检测手机号、身份证号、邮箱等格式。用关键词黑名单过滤API密钥泄露。用分类模型判断内容安全性。

平衡安全和体验

高风险场景严格过滤,低风险场景放宽限制。宁可多拦截一次也不要放过一次真正的风险。上线后监控被拦截请求,持续调整规则。