为什么 AI 输出一开始就如此不稳定?
AI 输出感觉不稳定,是因为大型语言模型本质上是概率式的,而非确定性的。同一个提示执行两次,可能会产生不同的措辞、结构,甚至不同的事实。这不是需要修正的错误,而是需要控制的特性。四个杠杆决定输出会偏移多少:系统提示、temperature、输入范例、随机种子。
好消息是,这四个杠杆并非隐藏的技术魔法。它们是你今天就能在 Claude.ai、ChatGPT、Gemini 与大多数第三方 AI 工具中调整的设定。问题在于,大多数中阶使用者只调整其中一项,所以他们的输出才会在周一还很出色、周二就变成垃圾。
本文以白话逐一解析每个杠杆、各自真正派上用场的时机,并在最后附上一份可直接复制的范本,让 AI 在数百次输出中维持一致的声音。
什么是系统提示?为何它最关键?
系统提示是 AI 在你每次发送讯息前都会先读一次的指令集。它定义角色、语调、格式、规则。在 Claude.ai 中,它存放于「设定自定指令」或某个 Project 内。在 ChatGPT 中,它存放于个人化面板或 Custom GPT 内。在 Gemini 中,它存放于「储存的资讯」内。
单单这一项设定,就决定了实际工作流程中约七至八成的一致性。没有系统提示,每次对话都从中性基线开始。有强而有力的系统提示,每次对话都已经与你的声音、受众、输出格式对齐。
大多数人犯的错,是写了一份过于模糊的系统提示。「做一个有用的市场推广助手」几乎没给模型任何资讯。有用的系统提示会明确指定受众、语调、格式、限制,并至少给一个「好的输出长什么样」的范例。
解方是花二十分钟写一份详细的系统提示,然后一个月内不要再改它。一致性来自于稳定,不是每周二都重写指令。
Temperature 究竟如何改变输出?
Temperature 控制模型挑选低概率字词的意愿。在 temperature 0 时,模型每次都挑最有可能的下一个 token,产生最可预测的输出。在 temperature 1 时,模型从宽广的分布中自由取样,产生有创意但较不一致的结果。
事实性工作、摘要、结构化资料抽取、任何你希望重复执行都看起来一样的任务,将 temperature 设为 0 或 0.2。脑力激荡、小说创作、灵感生成,将 temperature 设为 0.7 或 0.9。大多数聊天界面的预设值约为 0.7,这就是为何你的「草拟一封邮件」任务每次感觉都不同。
Temperature 在 API 调用中可以直接设定,许多第三方平台如 Cursor、Bolt、OpenRouter 也允许调整。Claude.ai 与 ChatGPT.com 的消费级聊天界面则没有开放此设定。你可以在提示开头加上「以最可预测、最保守的方式回复」来模拟低 temperature,但 API 设定才是唯一可靠的杠杆。
什么是少样本提示?什么时候该用?
少样本提示是在请求模型执行真正任务之前,先给它两到三组完整的范例。范例透过示范教模型输入到输出的对应模式,而不是用描述。这一直是可靠性提升幅度最高的技术之一。
如果任务是「把客户反馈改写成行动项目」,就给模型两个范例:先是客户反馈原文,后是你会写的行动项目。然后再交给它新的反馈。模型依照刚刚看到的模式去执行,远比按你口头描述的模式去执行可靠得多。
少样本提示适用于几乎所有结构化任务:从邮件中抽取资料、分类客服工单、撰写产品描述、写会议摘要、生成社群媒体变体。如果你能拿出两个范例,第三个大概就能自动化。
它的极限是在范例变得不切实际时,例如真正的创意工作,或每次输入都和上次截然不同的任务。这种情况下,把心力放在系统提示上,并跳过范例。
什么是 seed?你需要关心它吗?
Seed 是用来初始化模型随机取样过程的数字。如果你固定 seed 并将 temperature 设为 0,同一个提示每次执行都能得到相同的输出。这是可重现 AI 工作流程的基础。
Seed 在 OpenAI 的 API、Google Gemini API、以及大多数第三方编排工具中都可以设定。Anthropic 的 Claude API 在 2026 年并未开放面向使用者的 seed,但即使没有 seed,它在 temperature 0 时的输出也已经非常稳定。消费级聊天界面则完全没有 seed 选项。
大多数日常工作其实不需要 seed。它真正有用的时机是当你在测试工作流程的变动,需要区分输出差异是来自你的提示修改、还是纯粹随机。锁定 seed、改动一处、比对结果。其他情况请放着不管,依靠另外三个杠杆就足够。
试试这个范本:一致性优先的提示
以下是一份完整、可直接复制的系统提示范本,同时运用了四个杠杆。把它贴进 Claude Project、Custom GPT 或 Gemini「储存的资讯」内。把它当作任何需要一致性多于新意的重复任务的起点。
试试这个提示:
角色。你是一家香港 B2B SaaS 公司的资深内容编辑。你使用英式英文书写,采用主动语态,除非受众明确要求,否则避免行话。
受众。员工人数 20 至 200 人的中小企的市场推广主管与运营主管。他们聪明、时间有限、会先快速浏览再细读。
语调。直接、实用、同侪对话。永远不要用「在当今数码时代」。永远不要把 leverage 当动词用。一个形容词够用时不要写五个。
格式。输出永远采用三种形状之一:简短回答(少于 80 字)、有子标题的结构化回答、编号清单。每次回应都在开头注明你采用了哪一种形状。
范例 1。输入:「为新定价页面起草一条 Slack 讯息。」输出:「简短回答。团队,新定价页面已上线:example.com/pricing。三个方案、更少功能勾选框、更清楚的文案。这周和一位潜在客户分享,告诉我他们问了什么。」
范例 2。输入:「将这篇 800 字的产品更新整理成周报摘要。」输出:「结构化回答。变动了什么:[三点]。为何重要:[两句]。客户该怎么做:[一句加连结]。」
限制。若你对某项事实没有把握,请在旁边写「需要核实」。永远不要捏造网址、价格、人名或统计数据。
遇到模糊时的行为。若我的请求不清楚,先问一个有针对性的问题再开始写。不要先写一份草稿然后再问。先问。
怎么知道一致性是否真的改善了?
最简单的测试是同一个提示在一周内执行五次,然后比较输出。没有系统提示、预设 temperature 的情况下,你会看到结构、长度、用字明显波动。套用上述范本后,输出应该看起来像同一位作者在同一天写的。
更严格的测试是把提示交给同事,让他在没有你的情况下产出。如果你的提示真的承担了该承担的工作,他的输出会与你的相符。如果他的输出偏移,代表你的提示太依赖只活在你脑袋里的脉络。
一致性是工作流程的属性,不是个人特质。把四个杠杆调对、写下来一次,整个月你都能享受真正属于你的输出。懂AI的冷,更懂你的难 — UD 同行28年,让科技成为有温度的陪伴。
先确认你的 AI 技能实际停在哪一级
在你再花一个月与不稳定的输出搏斗之前,先找出真正卡住你的是哪一个杠杆。UD 的免费 AI IQ 测试只需七分钟,会清楚分析你目前的提示能力、你还缺哪些技术、以及下一步该学的工作流程。UD 团队手把手带你完成每一步,从解读测试结果、挑选合适的系统提示范本、到建立你第一个可重复的 AI 工作流程。