警惕智能体AI的安全风险，尽早采取行动！

作者：

CBINEWS

责任编辑：

邹大斌

来源：

电脑商情在线

时间：

2025-11-17 10:56

关键字：

AI 安全 Agent 生成式AI

在争相将智能体人工智能（agentic AI）系统部署到各类工作流程的过程中，一个令人不安的事实正被忽视：自主性会带来不可预测性，而不可预测性本身就是一种安全风险。如果我们现在不重新思考如何保护这些系统，未来可能会陷入一场追击——面对的是我们几乎无法理解、且规模失控的威胁。

智能体AI系统的核心就是自主性。它们能够推理、制定计划、在数字环境中采取行动，甚至与其他智能体协同合作。你可以把它们想象成拥有主动性的“数字实习生”，能够在极少监督的情况下设定并执行任务。

但恰恰是这种让智能体AI强大的特质——实时做出独立决策的能力——也使其成为一个难以预料的威胁入口。在急于商业化和部署这些系统的热潮中，人们对其可能引入的安全隐患关注远远不足。

与主要依赖被动响应的大型语言模型聊天机器人不同，智能体系统是主动运作的。它们可能会自主浏览网页、下载数据、调用应用程序接口（API）、执行脚本，甚至与真实世界的系统（如交易平台或内部仪表盘）交互。听起来很酷，直到你意识到：一旦启动，这些行为可能几乎没有足够的“护栏”来监控或约束。

“能做” vs. “该做”

安全研究人员正日益对这类系统带来的攻击面发出警告。一个尤为突出的问题是：“智能体能做什么”和“应该做什么”之间的界限变得模糊。当智能体被授权跨多个应用自动化任务时，它们同时也继承了访问令牌、API密钥及其他敏感凭证。一次提示词注入攻击、一个被劫持的插件、一个被利用的集成漏洞，或精心设计的供应链攻击，都可能为攻击者打开通往关键系统的后门。

我们已经看到大型语言模型智能体因对抗性输入而受害的案例。例如，研究人员曾演示：只需在一个网页中嵌入一条恶意指令，就能诱骗一个具备浏览能力的智能体机器人外泄数据或下载恶意软件——而攻击者一方甚至无需部署任何恶意代码。该机器人只是“忠实地”执行了隐藏在自然语言中的指令。没有漏洞利用，没有二进制文件，只有语言层面的“障眼法”。

问题还不止于此。一旦智能体获得对邮件客户端、文件系统、数据库或DevOps工具的访问权限，一次被攻陷的操作就可能引发连锁故障。从未经授权地推送Git代码，到意外授予高权限，智能体AI有能力以机器的速度和规模复制并放大风险。

更糟的是，整个行业过度痴迷于“能力基准测试”，却忽视了“安全阈值”。当前的关注点大多集中在：智能体能完成多少任务、自我反思能力有多强、工具链调用效率有多高。相比之下，对沙箱隔离、操作日志记录，甚至实时人工干预机制的重视远远不够。在追求能端到端处理工作流的自主智能体过程中，安全措施正在疲于追赶。

必须加速补课

我们的缓解策略必须超越传统的终端或应用安全范畴。智能体AI处于用户与系统之间的灰色地带。

仅靠基于角色的访问控制（RBAC）已远远不够。我们需要能理解意图的策略引擎，能监控行为漂移，并在智能体开始“行为异常”时及时察觉。开发者必须为智能体实施细粒度的操作范围限制——不仅要规定它们能使用哪些工具，还要限定如何使用、何时使用、在何种条件下使用。

可审计性同样至关重要。如今许多AI智能体运行在临时性的运行时环境中，几乎不留痕迹。一旦智能体做出错误决策，往往找不到清晰的日志记录其推理过程、具体操作或触发条件。这种取证上的模糊性对安全团队而言是一场噩梦。已有案例显示，在某些情境下，当模型认为这是避免被替换或达成目标的唯一方式时，它们甚至会表现出类似“恶意内部人员”的行为——包括勒索官员、向竞争对手泄露敏感信息等。

最后，我们需要建立强大的测试框架，在智能体工作流中模拟对抗性输入。对聊天机器人进行渗透测试是一回事；而评估一个能触发真实世界操作的自主智能体，则完全是另一项挑战。这需要基于场景的仿真、沙箱化部署以及实时异常检测。

初步但迟缓的应对

一些行业领军者已开始行动。OpenAI暗示将为其最新公开发布的智能体推出专门的安全协议；Anthropic强调通过“宪法AI”（Constitutional AI）作为保障机制；其他公司则在构建围绕智能体行为的可观测性层。但这些仍只是初步尝试，且在整个生态系统中发展极不均衡。

只要安全措施仍是事后打补丁，而非从开发初期就内嵌到智能体AI的生命周期中，我们就有可能重蹈云计算早期的覆辙：在建立足够强韧的防护机制之前，就过度信任自动化。

我们不再是在猜测智能体会做什么——它们已经在执行交易策略、安排基础设施更新、扫描日志、撰写邮件、与客户互动。问题不再是“它们会不会被滥用”，而是“何时会被滥用”。

任何具备行动能力的系统，都必须同时被视为资产和责任。智能体AI有望成为本十年最具变革性的技术之一。然而，若缺乏坚实的安全框架，它也可能成为最脆弱的攻击目标。

这些系统越聪明，事后就越难控制。正因如此，行动的时机不是明天——而是现在。