Item: Learning from Peers in Reasoning Models
Rating: 50.4
Author: GitHub Roast

Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung et al.

50.40/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 50.4 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出“前缀主导陷阱”现象，设计同伴学习推理框架LeaP，通过多路径中间总结共享提升推理性能，微调小模型后在数学推理benchmark上可超越更大基座模型

#前缀陷阱观察#多路径推理交互#小模型微调优化#数学推理涨点#prefix trap observation#multi-path reasoning int#small model optimization#math reasoning boost

维度评分

创新性5.0 / 10

严谨性5.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性8.0 / 10

🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。