
从零开始的补课
5月中旬,DeepSeek同步在官网、小红书、X放出招聘信息,目标明确:组建Harness团队,从零构建对标Claude Code的代码智能体产品。官方JD开头就写着一句公式:Model + Harness = Agent。除模型本身以外的所有工作,都属于Harness的范畴。
同一个模型,Harness决定成败
以Claude Opus 4.5为例,放进Claude Code的Harness能达到95%准确率,换成朴素配置只剩42%。同样的权重,Harness拉开53个百分点。Terminal Bench上头部清一色用Claude Opus 4.6,拼的已经不是模型,而是谁的Harness更好。
Harness是什么?
Harness负责组织代码库、控制迭代次数、把模型决策转成shell命令和文件编辑,再把测试失败和日志喂回模型。现代coding agent跑的不是一次性问答,而是"思考—行动—反馈—修正"的长循环。这个循环能不能跑稳,靠的就是Harness。
Claude Code的飞轮效应
Claude Code一年前连bash命令都写不好,现在几乎整个产品都由Claude Code自己写出来。每次模型升级都伴随Harness同步进化,真实使用数据反哺模型训练,形成飞轮。Anthropic内部27%的任务是开发者没有这个工具时原本不会尝试的——AI编程的价值从"省时间"转向"扩大人能做什么"。
DeepSeek的机会与挑战
DeepSeek已有足够强的模型和开发者认同,但模型本身不会自动变成Claude Code。真正难的是建立长时运行闭环:让模型在真实代码库里工作,记录失败原因,把失败变成产品和模型训练的输入。如果只做模型,永远会被包在别人的工具里;跑通模型和Harness共同演化的循环,才能长出自己的Claude Code。
Bintrail为MySQL补齐时间旅行查询短板,无需改代码即可回溯历史数据!
DeepSeek对标Claude Code组建Harness团队:模型之外,控制层决胜!
Oracle XStream CDC实测:37000 TPS下性能影响全面评估!
华为具身大脑一号位创业,用认知神经科学重做机器人大脑!
C++之父直言AI代码难验证:资深开发者宁愿退休也不愿接盘!
面壁智能三值量化突破:6倍省显存,600亿参数模型装进手机!
微软叫停内部Claude Code:一场"用不起"背后的三重困境!
30天烧60万亿token,扎克伯格没进前250:大厂AI沦为KPI游戏!
前小米员工抢先苹果,造出带摄像头的AI耳机,1999元已开卖!
SaaS-Bench实测23个真系统:最强AI Agent仅完整通过4个任务!