Learning from Peers in Reasoning Models
Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung et al.
50.40/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 50.4 · 引用加成 +0.0 · 暂无引用数据
💡 本文提出“前缀主导陷阱”现象,设计同伴学习推理框架LeaP,通过多路径中间总结共享提升推理性能,微调小模型后在数学推理benchmark上可超越更大基座模型
#前缀陷阱观察#多路径推理交互#小模型微调优化#数学推理涨点#prefix trap observation#multi-path reasoning int#small model optimization#math reasoning boost
维度评分
创新性5.0 / 10
严谨性5.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性8.0 / 10
这个语气还没生成 —— 去重新评测一次 即可生成。