你真正要做的决定是什么
你正在抉择:是把企业AI建基于从你自己系统中即时撷取的文件之上、为模型在你自己的专属数据上做微调,还是两者并用。这个决定,会直接影响你的token账单、你的数据治理姿态、上线到生产所需的时间,以及你需要招募的人才类型。
本文不会告诉你哪一个比较好,因为问题本身就问错了。本文会给你一套决策框架,从四个维度为这个选择评分:成本、针对你自己数据的准确度、治理适配度,以及上线速度。
读完之后,你应该能判断在你眼前这个具体用例上,RAG、微调,还是两者并用的混合架构最为合适,以及在投入预算前,要先在试点中验证些什么。
什么是RAG(检索增强生成)?
检索增强生成(RAG)是一种架构模式:一个通用的大型语言模型,在每次查询时,被授予存取你自己文件的权限。系统会从向量数据库中撷取与问题最相关的段落,然后要求模型「只能」根据这些段落作为脉络来回答。
结果是:AI引用的是你的合约、你的产品手册、你的政策文件库,或你的客户历史纪录,而不再单靠模型训练时的数据来生成回答。
RAG是2026年企业最常见的架构模式,因为它同时解决了「时效性问题」(你可以在几分钟内更新文件索引)与「引用问题」(每一个回答都可以指向一个来源)。
什么是微调?
微调是一种架构模式:你以一个预训练好的大型语言模型为基础,继续以你自己的数据对它进行训练。模型内部的权重会被改变,因此最终得到的模型,就算没有外部脉络,也会以你的语气说话、以你的格式输出、以你领域的惯例运作。
现代的参数高效方法,例如LoRA(低秩适配)与QLoRA,自2024年以来已把微调成本压低一个数量级。根据Hugging Face 2026年3月发表的业界报告,针对一个70亿参数模型、一个用例做完整微调的中位成本,在过去18个月内由约8万美元跌至8,000美元以下。
当「行为」是要求,而非「知识」是要求时,微调才是合适的工具。它教会模型「该怎样回答」,而不是「该知道什么」。
RAG与微调在实际运作中有何分别?
RAG改变的是「模型看到什么」。微调改变的是「模型本身是什么」。RAG属于松耦合:下个季度你想换掉底层模型,撷取流水线仍可继续运作。微调属于紧耦合:换掉基底模型,就等于要重新做一次微调。
这种运营差异很关键。RAG较容易更新知识、较容易审计(每个回答都附来源),上线也较快。微调较难更新、较难审计(你不易看出模型为什么这样回答),但对于格式、语气、决策逻辑这些行为模式,输出会比RAG更稳定一致。
根据IDC于2026年发表的企业AI架构调查,香港已上线企业中有64%把RAG作为主要架构。纯微调仅占11%,其余25%采用混合架构。
2026年RAG与微调的成本如何比较?
RAG建置成本较低,但运行成本较高。微调建置成本较高,但运行成本较低。两者的成本交叉点,取决于查询量。
对于每月10万次查询的典型企业部署,RAG的成本主要由推理(每个查询都会把撷取到的脉络塞入提示词,导致token数量上升)与向量数据库的托管费用所主导。根据a16z于2026年发表的企业AI成本分析,这个规模下RAG基础设施的月度开销,大约落在3,000至8,000美元之间。
微调则把成本前置。你只付一次5,000至15,000美元做微调,之后每次查询的token数量较低(提示词中没有撷取脉络)。对于每月查询超过50万次的高量用例,微调通常在六个月内就会变得比RAG便宜。
对你自己的数据,哪一种架构在准确度上胜出?
准确度的答案,完全取决于你最不能容忍的失败模式是什么。如果你的业务无法容忍模型「编造事实」(引用、价格、政策条文),RAG胜出,因为每一个回答都能基于撷取到的来源,并向使用者展示。
如果你的业务无法容忍格式不一致或品牌语气不对(受监管的对外沟通、结构化的法律输出、标准化的报告),微调胜出,因为这些行为模式已被编码进模型本身。
根据Stanford HAI于2025年12月发表的企业AI部署评估,相对于纯提示词的基准,采用RAG的系统能把事实层级的幻觉率降低60%至80%。而经过微调的系统,在相同数据上把格式与语气错误降低了70%至90%。
两种架构对数据治理与个人资料条例分别意味着什么?
RAG把敏感数据留在你的向量数据库中,只在实际查询需要时才被撷取。这种「分离」使它更容易满足香港个人资料私隐专员公署的「数据最少化原则」,也更容易在收到客户删除请求时履行义务,因为你只需把该客户的文件从索引中移除即可。
微调则把训练数据中的模式「烧进」模型权重。你无法简单地让模型「遗忘」某一份特定文件,除非重新训练。对于受个人资料条例规管的数据,这就创造出「被遗忘权」的复杂难题,必须在设计时就审慎处理。
PCPD于2025年更新的《人工智能:个人资料保障模范框架》明确处理了这一点:使用个人资料进行微调的机构,必须能够示范如何移除个别记录,这通常代表需要保留原始训练数据集,并定期重新微调。
什么是混合架构?什么时候应该采用?
混合架构:以微调训练模型的「行为模式」(如何回答、什么格式、什么语气),同时以RAG注入模型回答所需的「即时事实」(今天什么是真的)。在生产等级的企业系统中,多数会在第二年自然收敛到这个架构。
根据Gartner于2026年发表的架构报告,能在上线后撑过18个月的企业AI系统中,有53%在第24个月时已转为混合架构,即使它们最初是纯RAG或纯微调。
当你「两者都需要」时,请采用混合:稳定一致的行为(微调),加上具引用价值的最新事实(RAG)。代价是运营复杂度:你会同时管理两条流水线,团队需要同时具备数据工程师与机器学习工程师。
决策框架:用四条问题为每个用例评分
为每一个候选用例,按以下四条问题评分。第一:底层知识多久更新一次?若是每周或更频繁,选RAG。若是每月或更慢,两者皆可。
第二:失败模式是事实错误,还是格式错误?事实错误代表RAG,格式错误代表微调,两者都有则代表混合。
第三:查询量是多少?每月低于10万次,选RAG。每月高于50万次且行为稳定,微调在经济上开始具吸引力。介于两者之间,请同时建模并以三年总拥有成本为准。
第四:个人资料的监管暴露有多重?涉及个人资料条例或金融规管数据,预设倾向RAG,因为删除与审计都更容易。
三个香港企业情境
一家香港专业服务公司,要部署内部合约审阅助手,应该选RAG。知识会频繁更新(每天有新合约进来),失败模式是事实错误(条款引用错误),查询量不高,且数据是客户机密。四个维度上RAG都胜出。
一家地区物流业者,要以三种语言生成货件状态通讯,应该选微调。知识相对静态(物流网络不会每天变动),失败模式是格式与语气(面向监管机构的沟通),查询量极高(每月数百万次通知),而且数据属于运营性质而非个人资料。
一家零售银行,要部署面向客户的金融问答助手,应该选混合架构。它需要RAG为答案接驳当前的产品条款与客户的账户数据,也需要微调以执行金管局负责任银行指引所要求的特定语言模式。
在投入前,应该在试点中验证什么?
在签下任何多年合约之前,请执行一个结构化的八周试点。第一至二周:以书面形式定义哪些「失败模式」会令这个项目在生产中失败。第三至四周:在最小范围内,同时建立一个RAG版本与一个微调版本的同一用例。
第五至六周:对200条真实问题的保留测试集,盲评两个版本的输出,由实际使用者进行评分。第七至八周:为两个版本建模三年的总拥有成本,包含基础设施、模型授权与工程团队成本。
试点的最终产出,是「一页纸」:包含计分卡与决定。如果无法压缩在一页之内,你还没有真正做完这个决定。
结语:从「架构辩论」转向「架构决定」
RAG对微调的辩论,是一个错误的框架。两者都是工具。正确的问题是:在你眼前这个用例的失败模式、查询量与监管姿态下,哪一个工具(或哪一个组合)最合适。
2026年能准时把AI推上生产的企业,并不是挑选了当下最流行架构的那些,而是进行了结构化八周试点、对两个选项在四个维度上评过分、并向董事会提出可被辩护的决策的那些。
懂AI的冷,更懂你的难 — UD 同行28年,让科技成为有温度的陪伴。
下一步:用预建的AI员工,测试最适合你的架构
你不需要从零开始建构这个架构决定。UD的AI Employee Hub让你可以透过已就绪部署的市场部、人力资源部、客户服务与财务AI员工,分别试点RAG、微调与混合架构,架构决策已预先做好并经过验证。我们手把手带你完成每一步,由「为你的数据挑选正确架构」到「以董事会能接受的方式量度成效」。