那笔 Token 账单,问题不在你以为的地方
2026 年 State of FinOps 报告揭露了一个让每位财务总监措手不及的发现:在每年云端与 AI 开支超过 1 亿美元的企业中,AI 的单位成本大幅下跌,但整体 AI 支出的增速,却高过整体云端支出的增速。原因不在定价,而在用量。
Agentic 工作流程每项业务任务消耗的 token,是同等单次聊天机械人调用的 5 至 30 倍。十二个月前,这还无关痛痒,因为当时根本没有人在生产环境部署 agentic 流程。但 2026 年,那些真正部署了的组织正在眼睁睁地看着每月的推理账单每季翻倍,而没有人能解释原因。
这是 FinOps 问题,不是采购问题。谈一个更低的 token 单价,并不会把你救出来。看清楚每一个 token 究竟在做什么,才会。
什么是 2026 年的企业 AI 成本优化?
企业 AI 成本优化,是一门纪律:把每一次推理调用归因到某个功能、某个团队、某个业务成果,再把每一次调用路由到能达到品质门槛的最便宜模型。这就是把 FinOps 应用到 token,而不是计算时数,但有一项关键差异:以「每项成果的成本」取代「每次调用的成本」作为头条指标。
这套纪律建立在三个传统采购模式没有承认的前提之上。第一,你会使用多个模型,而不是一个。第二,能达到品质门槛的最便宜模型,未必是你的团队偏好的模型。第三,没有仪表化(instrumentation),你根本看不出哪个是哪个。
根据 FinOps Foundation 2026 年发布的数据,在每年云端开支超过 1 亿美元的组织中,约有 68% 已采用或正在试行 FOCUS 规范,而这套规范目前正在扩展以涵盖 AI 成本资料。它存在的原因,是行业已经达成共识:必须存在。
为何单位 Token 价格下跌,总 AI 支出仍在上升?
三股力量正在叠加:Agentic 工作流程使用的 token 远高于聊天机械人;那些比较小模型贵上十倍的前沿模型,被用在不需要它们的任务上;而大部分企业没有遥测能力可以侦测出这两种模式。三者都可以矫正,但前提是要先量得到。
2026 年发表的多份行业分析记录了路由问题的规模。同一项任务,若路由到前沿推理模型而不是一个快速的小模型,成本可以高出最多 190 倍,而业务成果却没有可量度的差异。这不是进位误差,这是今日企业 AI 最高杠杆的成本调节阀。
这支调节阀之所以闲置不用,原因在于组织。工程师偏好自己信任的模型。产品经理偏好示范表现最好的模型。采购偏好折扣最大的供应商。这些偏好没有错,但都不算是成本优化。优化需要证据。
什么是 Token 级归因?为何它重要?
Token 级归因,是指为每一次 API 调用标记功能、团队、客户分群,最理想是再加上它所服务的业务流程,使每月的推理成本能按任何一个维度即时切分。没有归因,优化就是靠猜。
实作本身并不困难。每一个现代模型供应商都支持 API 调用的自订元数据字段。难的是组织层面:要就分类法达成共识、为每一个调用点打桩、抗拒「内部」或「实验性」用例可以略过归因的诱惑。那些用例,恰恰就是六个月后会长成最大成本中心的那些。
对香港企业而言,归因在成本之外还有第二项好处。私隐专员公署 2026 年的 AI 指引要求个人资料处理必须可追溯。一个为 FinOps 设计的归因层,只需小幅扩充,就能同时满足《个人资料(私隐)条例》的归因要求。一次建好,两边满足。
模型路由如何削减 AI 成本?
模型路由是一层中介,检视每一个进来的请求,并把它派发给能达到该任务类别品质要求的最便宜模型。实作得当,能在不改变使用者可见品质的前提下,把总推理成本降低 30% 至 70%。
一套可运作的路由层包含三个元件。分类器检查请求并将其指派到一个任务类别(简单查询、结构化抽取、多步推理、程式码生成、创意写作等)。路由策略把每一个任务类别对应到一个主模型与一个备用模型。评估架构每月以替代模型重跑路由流量的样本,验证路由假设是否仍然成立。
第三个元件,是大多数企业会跳过的。没有它,你的路由策略会随模型进步而过时。一月份在摘要任务上输给前沿模型的小模型,到六月可能已经追平。节省存在,但只属于那些会重新量度的组织。
什么是每项成果的成本?应如何量度?
每项成果的成本(cost-per-output),等于总推理成本除以 AI 流程产出的业务成果数,而「成果」的定义必须是企业真正交付的价值单位,而不是 AI 完成的工作单位。这是唯一能在财务总监面前站得住脚的 AI 成本指标。
对客户服务 AI 而言,一个成果是「一张被解决的工单」,不是「一段被生成的回复」。对信贷分析 AI 而言,一个成果是「一笔有完整单据的已批贷款」,不是「一份草拟好的备忘」。对市场推广 AI 而言,一个成果是「达标的转换率广告活动」,不是「一段文案」。从「每次调用成本」转到「每项成果成本」,是香港财务总监能向数字转型团队提出的最有用的一次框架转换。
原因是:「每次调用成本」奖励活动量。「每项成果成本」奖励成果。同一套 AI 流程,按调用看可以便宜,按成果看可以昂贵,反之亦然。董事会只关心第二个数字。
一套成熟的 AI FinOps 计划长什么样?
成熟的计划推行四项实践:每一次调用均带标签归因、每月重新评估的自动化模型路由、与工程 KPI 并列呈现的每项成果成本仪表板,以及「自我融资纪律」,优化所节省下来的金额,必须明确用于资助下一波 AI 投资。「自我融资循环」是这套纪律得以持续的核心。
FinOps Foundation 2026 年的数据呈现出一个清晰模式:明确要求新一轮 AI 投资必须由 AI 优化节省下来的金额来资助的组织,比那些把 AI 视为无上限资本支出的组织,ROI 更快出现,预算波动性更低。纪律比较难,但数字比较好看。
对香港金融服务业与专业服务业企业而言,这种自我融资模式还顺带解决了一个董事会反覆出现的反对意见。董事会很少在原则上拒绝 AI 投资,他们拒绝的是「没有量度回路的、开口式的」AI 投资。自我融资正好闭合这个回路。
最常见的五个 AI 成本错误是什么?
最常见的五个错误分别是:预设使用最大的模型、失败重试没有断路器、系统提示词长过所需、开发环境跑在生产级模型上、从不抽样验证路由假设是否仍成立。每一项都可以在几天内修好,而不是几个月。
预设使用最大模型,是最主要的超支模式。前沿模型对某些任务是对的答案。对大多数任务是错的答案。修正方法是上文提到的路由。「失败重试没有断路器」是第二常见的模式:当激进的重试策略遇上一个出状况的上游模型,一个暂时性错误会被放大成一个成本尖峰。
系统提示词长度失控,是无声的超支模式。系统提示词每多一个 token,每一次调用都要付一次费用。一个团队若把 2,000 token 的系统提示词修剪到 800 token,基线成本一夜之间降低 60%,而品质没有任何影响。
开发工作负载跑在生产级别上,是浪费,但容易修。大多数供应商都为非生产流量提供更便宜的层级。请使用它们。最后,从不抽样验证路由流量是否仍然路由正确,是会随时间侵蚀节省的缓慢漂移。请每月抽样,每季重新评估。
未来九十天应该做什么?
未来九十天内,请完成三件事:为每一次 AI 调用加上归因仪表化、在你最高流量的用例上跑一周的路由实验、并为董事会建立单一的「每项成果成本」仪表板。三件小事,依序完成,就能重设整个对话。
归因工作是基础。没有它,其余都是表演。路由实验是证据点:它会产出一笔真实的、可量化的、可以拿给财务总监看的节省。仪表板是治理层:它把一次性的节省转化为一项永久的管理纪律。三项依序交付,就能回答董事会唯一关心的问题:这笔支出在不在产出价值。
结语
2026 年的企业 AI 成本危机,不是定价危机,而是量度危机。在 2026 年仍能保住预算的组织,是那些在上半年就建立 AI FinOps 的组织,而不是那些寄望 token 单价下跌速度能盖过用量增长的组织。
这套纪律本身并不复杂,但也不是免费的。它要求仪表化、组织共识,以及一份愿意以「每项成果成本」取代「每次调用成本」的决心。懂AI的冷,更懂你的难 — UD 同行28年,让科技成为有温度的陪伴。在每一个科技成本周期里走过 28 年香港企业之后,我们知道同一条教训再次适用:能清楚看见账单的领导者,才是守得住预算的人。
迈出下一步
你已经知道 AI 成本纪律的样貌,下一步是把它在你的组织里落地。UD 团队手把手带你完成每一步,从归因仪表化、路由层设计,到董事会可以读懂的每项成果成本报表,28 年香港企业经验,全程陪你走。