美团LongCat 团队发了篇Paper 并发了一个配套的skill，用一个比较简单的办法来提升agent在数学、代码和可验证推理任务上的表现

美团LongCat 团队发了篇Paper 并发了一个配套的skill，用一个比较简单的办法来提升agent在数学、代码和可验证推理任务上的表现。| hugging face

现在 Agent 框架越来越复杂了，很多系统通过多智能体、记忆、技能和工具调用来提升模型表现。但作者认为真正起作用的可能并不是这堆复杂的东西，而是模型在推理时进行“更重、更充分思考”的能力。

论文提出的 HeavySkill，就是把这种能力封装成一个可复用的 skill：先让模型从多个角度独立推理，再对这些推理过程进行综合、比较和判断。实验结果显示，这种“多路探索 + 综合反思”的方式，通常比简单多次采样或多数投票更有效，尤其在数学、代码和可验证推理任务上提升明显。