那筆 Token 帳單,問題不在你以為的地方
2026 年 State of FinOps 報告揭露了一個讓每位財務總監措手不及的發現:在每年雲端與 AI 開支超過 1 億美元的企業中,AI 的單位成本大幅下跌,但整體 AI 支出的增速,卻高過整體雲端支出的增速。原因不在定價,而在用量。
Agentic 工作流程每項業務任務消耗的 token,是同等單次聊天機械人呼叫的 5 至 30 倍。十二個月前,這還無關痛癢,因為當時根本沒有人在生產環境部署 agentic 流程。但 2026 年,那些真正部署了的組織正在眼睜睜地看著每月的推理帳單每季翻倍,而沒有人能解釋原因。
這是 FinOps 問題,不是採購問題。談一個更低的 token 單價,並不會把你救出來。看清楚每一個 token 究竟在做什麼,才會。
什麼是 2026 年的企業 AI 成本優化?
企業 AI 成本優化,是一門紀律:把每一次推理呼叫歸因到某個功能、某個團隊、某個業務成果,再把每一次呼叫路由到能達到品質門檻的最便宜模型。這就是把 FinOps 應用到 token,而不是計算時數,但有一項關鍵差異:以「每項成果的成本」取代「每次呼叫的成本」作為頭條指標。
這套紀律建立在三個傳統採購模式沒有承認的前提之上。第一,你會使用多個模型,而不是一個。第二,能達到品質門檻的最便宜模型,未必是你的團隊偏好的模型。第三,沒有儀表化(instrumentation),你根本看不出哪個是哪個。
根據 FinOps Foundation 2026 年發布的數據,在每年雲端開支超過 1 億美元的組織中,約有 68% 已採用或正在試行 FOCUS 規範,而這套規範目前正在擴展以涵蓋 AI 成本資料。它存在的原因,是行業已經達成共識:必須存在。
為何單位 Token 價格下跌,總 AI 支出仍在上升?
三股力量正在疊加:Agentic 工作流程使用的 token 遠高於聊天機械人;那些比較小模型貴上十倍的前沿模型,被用在不需要它們的任務上;而大部分企業沒有遙測能力可以偵測出這兩種模式。三者都可以矯正,但前提是要先量得到。
2026 年發表的多份行業分析記錄了路由問題的規模。同一項任務,若路由到前沿推理模型而不是一個快速的小模型,成本可以高出最多 190 倍,而業務成果卻沒有可量度的差異。這不是進位誤差,這是今日企業 AI 最高槓桿的成本調節閥。
這支調節閥之所以閒置不用,原因在於組織。工程師偏好自己信任的模型。產品經理偏好示範表現最好的模型。採購偏好折扣最大的供應商。這些偏好沒有錯,但都不算是成本優化。優化需要證據。
什麼是 Token 級歸因?為何它重要?
Token 級歸因,是指為每一次 API 呼叫標記功能、團隊、客戶分群,最理想是再加上它所服務的業務流程,使每月的推理成本能按任何一個維度即時切分。沒有歸因,優化就是靠猜。
實作本身並不困難。每一個現代模型供應商都支援 API 呼叫的自訂中繼資料欄位。難的是組織層面:要就分類法達成共識、為每一個呼叫點打樁、抗拒「內部」或「實驗性」用例可以略過歸因的誘惑。那些用例,恰恰就是六個月後會長成最大成本中心的那些。
對香港企業而言,歸因在成本之外還有第二項好處。私隱專員公署 2026 年的 AI 指引要求個人資料處理必須可追溯。一個為 FinOps 設計的歸因層,只需小幅擴充,就能同時滿足《個人資料(私隱)條例》的歸因要求。一次建好,兩邊滿足。
模型路由如何削減 AI 成本?
模型路由是一層中介,檢視每一個進來的請求,並把它派發給能達到該任務類別品質要求的最便宜模型。實作得當,能在不改變使用者可見品質的前提下,把總推理成本降低 30% 至 70%。
一套可運作的路由層包含三個元件。分類器檢查請求並將其指派到一個任務類別(簡單查詢、結構化抽取、多步推理、程式碼生成、創意寫作等)。路由策略把每一個任務類別對應到一個主模型與一個備用模型。評估架構每月以替代模型重跑路由流量的樣本,驗證路由假設是否仍然成立。
第三個元件,是大多數企業會跳過的。沒有它,你的路由策略會隨模型進步而過時。一月份在摘要任務上輸給前沿模型的小模型,到六月可能已經追平。節省存在,但只屬於那些會重新量度的組織。
什麼是每項成果的成本?應如何量度?
每項成果的成本(cost-per-output),等於總推理成本除以 AI 流程產出的業務成果數,而「成果」的定義必須是企業真正交付的價值單位,而不是 AI 完成的工作單位。這是唯一能在財務總監面前站得住腳的 AI 成本指標。
對客戶服務 AI 而言,一個成果是「一張被解決的工單」,不是「一段被生成的回覆」。對信貸分析 AI 而言,一個成果是「一筆有完整單據的已批貸款」,不是「一份草擬好的備忘」。對市場推廣 AI 而言,一個成果是「達標的轉換率廣告活動」,不是「一段文案」。從「每次呼叫成本」轉到「每項成果成本」,是香港財務總監能向數碼轉型團隊提出的最有用的一次框架轉換。
原因是:「每次呼叫成本」獎勵活動量。「每項成果成本」獎勵成果。同一套 AI 流程,按呼叫看可以便宜,按成果看可以昂貴,反之亦然。董事會只關心第二個數字。
一套成熟的 AI FinOps 計劃長什麼樣?
成熟的計劃推行四項實踐:每一次呼叫均帶標籤歸因、每月重新評估的自動化模型路由、與工程 KPI 並列呈現的每項成果成本儀表板,以及「自我融資紀律」,優化所節省下來的金額,必須明確用於資助下一波 AI 投資。「自我融資循環」是這套紀律得以持續的核心。
FinOps Foundation 2026 年的數據呈現出一個清晰模式:明確要求新一輪 AI 投資必須由 AI 優化節省下來的金額來資助的組織,比那些把 AI 視為無上限資本支出的組織,ROI 更快出現,預算波動性更低。紀律比較難,但數字比較好看。
對香港金融服務業與專業服務業企業而言,這種自我融資模式還順帶解決了一個董事會反覆出現的反對意見。董事會很少在原則上拒絕 AI 投資,他們拒絕的是「沒有量度迴路的、開口式的」AI 投資。自我融資正好閉合這個迴路。
最常見的五個 AI 成本錯誤是什麼?
最常見的五個錯誤分別是:預設使用最大的模型、失敗重試沒有斷路器、系統提示詞長過所需、開發環境跑在生產級模型上、從不抽樣驗證路由假設是否仍成立。每一項都可以在幾天內修好,而不是幾個月。
預設使用最大模型,是最主要的超支模式。前沿模型對某些任務是對的答案。對大多數任務是錯的答案。修正方法是上文提到的路由。「失敗重試沒有斷路器」是第二常見的模式:當激進的重試策略遇上一個出狀況的上游模型,一個暫時性錯誤會被放大成一個成本尖峰。
系統提示詞長度失控,是無聲的超支模式。系統提示詞每多一個 token,每一次呼叫都要付一次費用。一個團隊若把 2,000 token 的系統提示詞修剪到 800 token,基線成本一夜之間降低 60%,而品質沒有任何影響。
開發工作負載跑在生產級別上,是浪費,但容易修。大多數供應商都為非生產流量提供更便宜的層級。請使用它們。最後,從不抽樣驗證路由流量是否仍然路由正確,是會隨時間侵蝕節省的緩慢漂移。請每月抽樣,每季重新評估。
未來九十天應該做什麼?
未來九十天內,請完成三件事:為每一次 AI 呼叫加上歸因儀表化、在你最高流量的用例上跑一週的路由實驗、並為董事會建立單一的「每項成果成本」儀表板。三件小事,依序完成,就能重設整個對話。
歸因工作是基礎。沒有它,其餘都是表演。路由實驗是證據點:它會產出一筆真實的、可量化的、可以拿給財務總監看的節省。儀表板是治理層:它把一次性的節省轉化為一項永久的管理紀律。三項依序交付,就能回答董事會唯一關心的問題:這筆支出在不在產出價值。
結語
2026 年的企業 AI 成本危機,不是定價危機,而是量度危機。在 2026 年仍能保住預算的組織,是那些在上半年就建立 AI FinOps 的組織,而不是那些寄望 token 單價下跌速度能蓋過用量增長的組織。
這套紀律本身並不複雜,但也不是免費的。它要求儀表化、組織共識,以及一份願意以「每項成果成本」取代「每次呼叫成本」的決心。懂AI的冷,更懂你的難 — UD 同行28年,讓科技成為有溫度的陪伴。在每一個科技成本週期裡走過 28 年香港企業之後,我們知道同一條教訓再次適用:能清楚看見帳單的領導者,才是守得住預算的人。
邁出下一步
你已經知道 AI 成本紀律的樣貌,下一步是把它在你的組織裡落地。UD 團隊手把手帶你完成每一步,從歸因儀表化、路由層設計,到董事會可以讀懂的每項成果成本報表,28 年香港企業經驗,全程陪你走。