近两年,越来越多企业将 AI 智能体引入客户服务流程。起初是辅助回答、知识检索,接着是工单分发、账户查询,再到退款授权、预约操作。AI 的权限边界在悄悄扩大,但支撑这些权限的治理结构,大多数企业从未认真搭建过。
这是一个被系统性低估的风险点。
失败从哪里开始
来自 IBM 和行业研究机构的分析显示,AI 客服最常见的失败形式是三类:给出错误答案、不知道何时升级人工、以及悄无声息地执行了一个错误动作。
注意第三类。它没有弹窗报错,没有日志告警,客户收到了一封不该发的邮件,账户发生了一次未授权的变更——但在企业内部,什么信号都没有触发。
NIST AI 风险管理框架与 ISO/IEC 42001 将这类问题归类为治理失效,而非模型性能问题。英国政府、澳大利亚政府、OECD 的 AI 监管指引,也独立得出了相同的结论:AI 客服的安全风险、操作风险和排斥性风险,根源在于部署方式和权限设计,不在于模型本身是否足够先进。
这种跨机构的收敛,不是预防性的警告,而是基于已发生事件的归因。
一次注入,一次失控
提示注入(Prompt Injection)是 AI 客服场景下最具代表性的攻击路径。其机制并不复杂:攻击者通过对话输入,将隐藏指令混入用户请求,诱导 AI 偏离原有的行为设定,进而执行本不应执行的操作。
这条攻击链的完整路径是:
提示注入 → 智能体被操控 → 执行未授权的高权限动作 → 账户被接管 → 客户信任受损 → 品牌受损 → 营收影响
每一步都在系统层面自动发生。没有操作员,没有确认环节,没有任何检测机制被触发——如果这些机制从未被设计进去的话。
Instagram AI 客服事件是这条路径的一个公开案例。它之所以值得关注,不是因为它是孤例,而是因为它让一个此前在企业内部被忽略的问题变得可见。
真正的风险在哪一层
企业在评估 AI 客服方案时,通常会关注准确率、响应速度、集成复杂度。这些都是有意义的指标,但它们评估的是模型的能力,而不是部署的安全性。
两者之间有一个关键差距:
一个准确率 95% 的模型,每 20 次交互就会出错一次。如果每次出错都可能触发退款、账户变更或数据访问,而没有任何检测逻辑存在,那么这些错误就会以隐性损失的形式持续累积,直到某次客户投诉或审计才会浮出水面。
更危险的是,这种累积是无声的。没有异常告警,没有仪表盘变红,只有某一天突然出现的一批异常工单,或者一条社交媒体上的投诉截图。
从监管角度看,NIST 和 ISO/IEC 42001 已经明确:在客户场景中部署 AI 智能体的企业,承担相应的治理义务。缺乏生命周期管控不再是灰色地带——它是一个可被记录在案的合规漏洞。
三个结构性缺口
综合政府指引、标准框架与行业研究,失败的 AI 客服部署几乎都可以追溯到同样的三个缺口:
权限边界未定义。 AI 智能体在技术上能够执行哪些操作,与它被允许在何种条件下执行,是两件事。大多数企业只回答了第一个问题。集成接口开放了退款权限,但没有人写下"退款操作仅限于以下条件"。这不是技术配置问题,是决策层面的空缺。
升级逻辑基于置信度,而非风险。 目前大多数 AI 客服的人工介入触发条件是:AI 无法回答。正确的触发条件应该是:这次操作的出错后果超过了可接受阈值。两者截然不同。一个对账户操作高度自信但判断有误的智能体,不会触发任何升级——因为它从未表现出"不确定"。
中间决策不可观测。 企业通常监控的是结果层:客户满意度评分、工单解决率。但失败往往发生在结果产生之前——智能体如何理解意图、选择了哪个操作、调用了哪项权限。这些中间决策如果不被记录,沉默失效就永远不会被发现。
这是一个运营设计问题
这三个缺口不需要更换模型供应商来解决,也不是技术团队通过调参能够修复的。它们是运营架构层面的问题,需要由对客户关系负责的人来主导回答:
这个智能体被允许做什么?在什么条件下?谁来负责当它做错了的时候?
AI 部署的风险轮廓,不是在选择模型的时候确定的。它是在定义权限边界、设计升级策略、建立观测机制的时候确定的。
大多数企业跳过了这三步,直接上线了。
ZenAI 的 Shield 框架覆盖企业 AI 部署的治理层设计,包括权限边界定义、风险感知升级逻辑与中间决策可观测性建设。如需了解如何为您的客服 AI 搭建这一层,欢迎预约技术顾问。