Item: GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning
Rating: 47.6
Author: GitHub Roast

← 返回论文榜

GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning

Jiale Fu, Yaqing Wang, Simeng Han, Jiaming Fan et al.

47.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 47.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出GraphIC，通过构建显式建模推理步骤依赖的有向属性图，设计针对性相似度度量，实现面向多步推理的ICL示例检索，在数学推理、代码生成等任务上优于10种基线方法

#ICL检索优化#推理图建模#多步推理增强#LLM小技巧#In-Context Learning Retr#Reasoning Graph Modeling#Multi-Step Reasoning#LLM Reasoning Boost

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性5.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性4.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性：这是一篇找准ICL多步推理痛点的结构导向改进工作，思路有一定新意但实验深度和可复现性严重拉胯，完成度仅停留在方向验证阶段，离合格论文还有明显差距。

创新点/贡献

别家ICL检索还在卷embedding模型换皮、改排序规则的细枝末节，这篇好歹抓到了多步推理的核心是步骤依赖而非表层语义相似：把候选示例和查询的推理过程抽成有向属性图显式建模步骤依赖，还专门设计了适配这种图的非对称相似度度量，思路是冲着问题本质去的，比纯trick堆叠的灌水文强不少。

问题与水分

最大的硬伤是实验完全撑不起结论：三个任务、10个基线就敢标“comprehensive”，消融实验完全缺失——图结构到底贡献了多少提升？相似度度量的各个组件有没有实际作用？统计显著性检验做了吗？提升幅度是高了2%还是20%？完全没提，模糊表述充满过度宣称的嫌疑。方法细节更是语焉不详，thought graph怎么构建、节点属性怎么定义、相似度公式是什么半个字都不说，代码、数据全无公开迹象，读者看完除了知道“它好像有用”之外啥都复现不了，可复现性直接归零。基线选择有没有覆盖最新的ICL检索工作也没说明，存疑。

维度简评

创新性6分：思路有区分度但不算开创性；严谨性5分：实验覆盖任务多但深度不足，缺乏归因支撑；意义7分：解决的问题是领域真实痛点，应用潜力明确；清晰度8分：摘要逻辑通顺表述清晰；可复现性4分：核心实现完全黑箱，无复现可能。

总评

这篇工作提供了一个有价值的尝试方向，但当前的工作厚度远不够支撑一篇合格的一区论文，后续补全消融、归因分析和开源材料后才有讨论发表的价值。