读完这篇文章,你会带走什么?
有一个五项决策的框架,能区分那些真正能撑到生产环境的企业多代理 AI 项目,与那些最终沦为昂贵示范的项目。读完本文,你会掌握这个框架、知道评估任何 agentic AI 供应商时必须提出的问题,以及 2026 年香港企业最常踩中的三个失败模式。
多代理编排不是工具选择题,而是架构决策。一旦确定,未来两年的运营成本、治理姿态与整合债务都被锁死。这篇文章不会把你变成工程师,但会把你变成一个清醒的买家。
什么是 2026 年的多代理 AI 编排?
多代理 AI 编排,是指设计一套软件系统,由多个各自有专责角色的 AI 代理共同完成任务,并由一个控制器决定谁先行动、谁后行动,且共享同一份上下文。不再是要求单一大型语言模型包办所有工作,而是组建一支聚焦的小型代理团队,再加上一个负责协调的运行时。
这个转变之所以重要,是因为单代理 LLM 产品在处理复杂企业工作流程时已碰上天花板。一个被要求阅读 200 页招标文件、抽取风险条款、起草回应、再转交法务审阅的单一代理,必然会失败。但三、四个职能更窄、上方再加一个规划者的代理组合,却不会。
根据 2026 年 agentic AI 生态系统发布的多框架比较研究,目前主导企业部署的编排模式有三种:LangGraph 的图形化模型、CrewAI 的角色团队模式,以及 Microsoft Agent Framework 适合对话场景。Anthropic 的 Claude Agent SDK 是今年企业候选名单上几乎必出现的第四个名字。
多代理编排实际上如何运作?
编排层负责把每项任务分派给合适的代理、在代理之间传递结构化上下文、持久化状态使流程能暂停与重启,并在任何代理调用触及真实系统的工具之前套用防护机制。真正的重心是运行时,而不是模型。
典型的企业部署有四层架构。规划器决定下一个子任务由谁处理。各个专家代理(研究、起草、对账、升级)各自带着自己的提示词与工具权限。记忆层保存中间结果,使一个 40 步的流程不必塞进单一上下文窗口。防护层在任何外部动作(发送电邮、写入 CRM、转移资料)执行前进行审查。
这套架构与「用循环调用 ChatGPT」的差别在于可审计性。一个多代理流程结束时,操作员可以逐步阅读完整轨迹:规划器选了路径 A、研究代理获取了文件 X 与 Y、起草代理产生了回应、防护层阻挡了一封外发电邮等待人工批准。这份轨迹,就是让这套架构能在香港董事会或金管局面前站得住脚的关键。
为何香港企业现在采用多代理系统?
过去十二个月有三股力量同时汇流:代理运行时迈入生产级成熟度、前沿模型获得可靠的工具使用能力,而人力成本压力迫使财务总监要求工作流程能端到端完成,而不是只产出人工必须收尾的草稿片段。先行者的窗口正在迅速收窄。
麦肯锡 2025 年的 State of AI 报告记录了一个鲜明的转向:企业正在从一次性的生成式 AI 试点,迈向整合性的 agentic 工作流程,覆盖运营、财务与客户服务。同一份报告亦指出,早期采用者已开始录得可量化的生产力提升,而单代理试点往往只能交出「示范式胜利」。
就香港而言,金管局的 GenA.I. Sandbox 计划在 2026 年再度扩容,已明确邀请信贷运营、合规分流与争议处理的多代理应用案例。监管机构发出的信号清晰:多代理系统不是一个猎奇对象,而是香港金融机构被期望具备治理能力的下一类系统。
选择多代理架构的五项决策框架是什么?
五项决策分别是:编排模式、状态管理、通讯风格、治理姿态、整合范围。请在选工具之前先把这五项决定好,而不是反过来。工具是架构的下游。把这个顺序颠倒过来,未来几年都要为这个错误付账。
五项决策的白话版本:
1. 编排模式。图形化(LangGraph)能精准控制执行流程,是合规密集型工作流程的天然选择。角色团队式(CrewAI)建构速度快,阅读起来像一张组织图。对话式(Microsoft Agent Framework)适合面向客户的助理。请按主导约束来选,而不是按团队已熟悉的工具来选。
2. 状态管理。检查点式状态能在系统崩溃后恢复,并允许人在循环中暂停。短暂式状态较便宜,但不适合跨越数小时或数天的流程。对香港的金融服务与专业服务业而言,检查点式应是预设选项。
3. 通讯风格。移交(一个代理调用下一个)、共享记忆(所有代理读同一个工作区)、消息队列(事件触发代理)。移交最容易调试。共享记忆扩展性最差。消息队列最适合本身已在事件驱动架构上运作的组织。
4. 治理姿态。在部署前定义哪些动作必须由人工批准,而不是等第一次事故发生之后。答案应该写下来,并每季覆核一次。
5. 整合范围。代理会接触哪些工具、API 与数据源?每一项整合都是一项安全、延迟与审计义务。第一版请对范围非常严苛。
2026 年企业多代理部署成本是多少?
在香港,一个合理的首次生产部署,首十二个月成本介乎 40 万至 200 万港元之间,差距由整合范围与治理深度决定,而不是由模型费用决定。Token 费用很少是最大支出项。
2026 年的推理经济学文献在一点上意见一致:每一项业务任务,agentic 工作流程消耗的 token 是同等单次聊天机械人调用的 5 至 30 倍。这的确是真实成本。但根据我们看过的香港董事会层级成本核算,这笔费用通常排在内部工程时间、整合建构与治理审查流程之后。
主导成本驱动因素,依序为:探索与流程再造、整合建构、治理与安全审查、模型与基础设施费用、持续监控。试图在探索与流程再造阶段抄捷径的组织,几乎都会在后面四项上多花钱。
最常见的三个多代理失败模式是什么?
三个失败模式分别是:规划器漂移(规划器选错子任务)、工具滥用(代理以无人预期的方式调用 API)、上下文污染(一个代理把无关状态带到另一个代理的推理之中)。三者都可以透过架构设计避免,但前提是架构团队知道要去防它们。
规划器漂移表现为流程跑得完,但结果是错的。解法是受限规划:为每一个状态给规划器一份有限的有效下一步选单,而不是放任它自由选择。经过生产验证的团队,现在出品的规划器更像是有限状态机,而非开放式提示词。
工具滥用出现于代理被授予的权限多于任务所需。一个起草代理不应有发送权限。一个研究代理不应有写入 CRM 的权限。原则是最小权限,这是企业安全界三十年来的同一条规则,现在移植到代理运行时。
上下文污染呈现为自信但错误的答案。解方是结构化上下文:只把代理所需的那一片状态传给它,并将它与其他状态隔离。各框架在这方面的执行容易度差异很大。请把最坏情况的提示词注入情景写入验收测试来评估。
如何为香港合规环境治理一套多代理系统?
治理由三份文件启动:行动策略(界定哪个代理可以做什么)、日志契约(记录每一次工具调用及其载荷)、人工覆核路径(凡涉及金钱、客户资料或对外通讯的动作均须经人工)。没有这三份,你的系统不可审计。
香港《个人资料(私隐)条例》尚未为代理重写,但私隐专员 2026 年发布的「AI 在个人资料处理中的应用」指引立场清晰:资料当事人的权利不会因为处理者是人、模型还是代理而改变。这意味着:对代理触及过的任何记录,存取、更正与删除要求都必须有能力回应。请从第一日起,就把这项能力放进你的日志契约里。
对于金管局监管的机构,GenA.I. Sandbox 计划已开始发布参考治理模式。请把它当作底线而非天花板。2027 年动作最快的机构,是那些今天已经为尚未出现的代理建好治理的机构。
本季度应该做什么?
在承诺任何供应商或框架之前,请先进行一次为期六周的多代理就绪度评估。评估要回答三个问题:你的组织里哪两到三个工作流程真正具备代理化的形状?这些流程需要哪些整合范围?以及它们要求怎样的治理姿态?
评估本身的成本低,但选错供应商的代价并不低。2025 年底完成这项评估的香港企业,2026 年正在部署第二波代理并已掌握清晰的量度指标。跳过评估的企业,至今仍停留在首次试点、仍在争论 ROI、距离真正的生产系统还有六个月。
那些当初批准跳过评估的董事会,现在问的已经不是技术问题,而是组织问题。
结语
多代理编排,将会定义未来两年的企业 AI。决策的重点,不是要不要采用,而是如何采用而不烧掉预算、不烧掉团队的信任、也不耗尽监管机构的耐性。
这份五项决策框架不是经验的替代品,而是「靠猜」的替代品。懂AI的冷,更懂你的难 — UD 同行28年,让科技成为有温度的陪伴。在每一个科技周期里走过 28 年香港企业之后,我们相信:赢下下一个周期的,不是买得最多的那群人,而是在出手之前想得最清楚的那群人。
迈出下一步
你已经掌握了框架,下一步是厘清你的哪些工作流程真正适合代理化、哪些不适合。UD 团队手把手带你完成每一步,从代理就绪度评估、供应商选型,到部署与治理设计,28 年香港企业经验,全程陪你走。