
同一个模型,同一套任务,从全部失败到全部通过,中间只差提示词和工作流。
这不是段子,是Anthropic两周前官方讲座《The Prompting Playbook》的实测结果。
一、小模型也能逆袭
Anthropic用Sonnet 4.6做了一组零售排班测试。
第一轮,最基础的提示词,推理能力明显不够,测试几乎全挂。
中间几轮不断优化提示词,部分开始通过,但token上限带来新问题。
第五轮,搭了一个"生成、评价、修复"的循环,所有测试全部通过,token反而更少,延迟更低。
同一个小模型,差距全在提示词。
二、四个关键原则
第一,靠系统化的评估来验证每次改动,凭感觉改不算数。
第二,保持提示词"卫生",清理冗余,用XML标签区分结构。
第三,别用纯指令弥补能力缺口,该上工具就上工具。
第四,复杂任务别堆一个超长提示词,搭多提示词协作的工作流,更高效也更便宜。
三、一个反直觉的真相
很多人觉得写提示词浪费时间,随手敲一句话就开干。
但现实是:一句短提示词省了几秒写的时间,后面却要追加四五轮补充,前后搭进去10分钟。
反过来,花1到2分钟写一个结构完整的提示词,生成结果5分钟,总时间反而更短。
四、有人把它做成了工具
有开发者看完这期讲座,用Codex做了一个全局提示词优化器。
在任意页面选中文本,按一个快捷键,10秒内自动优化成完整提示词框架。
包含任务背景、约束条件、输出格式,甚至让AI自己做质量复查。
开源在GitHub上,推荐用DeepSeek V4 Flash跑,便宜够快。
五、最核心的一句话
别迷信一个面面俱到的超强提示词。该让AI自己思考的就放手,该信任的地方信任,不该信任的地方让它老实承认哪些信息还不到位。
提示词不是模型弱时的拐杖,而是让任何模型发挥最大能力的杠杆。
你平时写提示词,是一句话硬刚,还是先花两分钟搭框架?
AI Pin失败不到两年,苹果OpenAI Meta集体"复活"脖挂硬件!
用了30个AI工具后,真正留下来的只有这6个|别再收藏了
天机智能完成10亿融资估值近百亿,具身力控双臂量产领跑全球!
SaaS-Bench实测23个真系统:最强AI Agent仅完整通过4个任务!
GPT-5.5被实锤"降智":200美元买的旗舰模型,背后偷偷换成了mini!
Tianfu Agent:200+工具让AI术数推理逼近人类大师水平!
李飞飞亲自下场:世界模型到底是什么?一句话说清楚了
面壁智能三值量化突破:6倍省显存,600亿参数模型装进手机!
字节腾讯大疆团队创业,打造全球首款单板滑雪AI教练!
微软叫停内部Claude Code:一场"用不起"背后的三重困境!