
主流大模型在中国传统术数选择题上集体"翻车",准确率仅23%-40%,几乎接近随机猜测。但Tianfu Agent系统一举将准确率提升至50%,逼近人类Top20选手的53.5%。
该系统的核心在于将Coding Agent的工具化范式引入术数领域。面对200多个专业工具,团队设计了四级可见性控制机制,按"可理解性"和"可穷举性"动态管理工具集,避免模型选择过载。
针对术数规则繁杂且流派矛盾的问题,系统将每条规则封装为带元数据的可调用函数,模型从"记规则的考生"变成"调规则的工程师"。
在缺乏单元测试的困境下,系统引入三层不确定性量化:工具输出层、Sub-Agent层、多流派合参层,让AI"知道自己有多不确定"。
这一实践证明:在规则密集、语料稀缺的垂直领域,工具化范式能有效弥补模型知识盲区,"知识即接口"比"知识即提示词"更可靠。