Item: d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching
Rating: 65.97
Author: GitHub Roast

← 返回论文榜

d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

Yuchu Jiang, Yue Cai, Xiangzhong Luo, Jiale Fu et al.

65.97/100

📘 能读

合格之作 · 有可取之处

内容分 62.4 · 引用加成 +3.6 · 20 次引用

💡 针对扩散大语言模型双向注意力无法复用标准KV缓存的痛点，提出无需训练的双自适应缓存框架，通过两阶段细粒度选择token自适应更新KV并缓存其余状态，实现推理加速与生成质量双重提升。

#扩散LLM推理加速#无训练缓存优化#KV缓存创新#双向注意力适配#生成质量提升#Diffusion LLM Inference #Training-free Cache Opti#KV Cache Innovation#Bidirectional Attention #Generation Quality Impro

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性7.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一份精准击中扩散大语言模型（dLLM）推理效率核心痛点的实用型工作，没搞换皮trick，实打实解决了领域真问题，但离顶尖工作还差临门一脚。

创新点/贡献

核心贡献是提出首个针对dLLM的无训练双自适应KV缓存框架，跳出自回归模型KV缓存思路，通过两阶段细粒度token选择策略，动态决定KV更新/缓存对象，既打破了dLLM因双向注意力无法复用标准KV缓存的瓶颈，还意外获得缓解序列尾部token过早过自信的附加收益，在提升生成质量的同时实现可观加速，且无需额外训练，落地成本极低。

问题与水分

理论分析几乎空白，连缓存选择策略的误差边界、加速上限都懒得证明，合理性全靠实验硬撑；实验仅覆盖LLaDA、Dream两个模型，未验证更大规模dLLM、长文本/代码等不同任务的泛化性，通用性全靠脑补；未与其他dLLM专属加速方案（蒸馏、投机解码等）做头对头对比，加速优势全靠裸奔基线衬托；更绝的是对缓存显存开销只字不提，缓存比例高了显存炸了比不加速还慢，这坑直接留给复现的读者踩。

维度简评

创新性7分：细分领域有效创新，非换皮堆砌，但未达范式级突破；严谨性7分：主流模型实验结果一致，但缺消融、理论证明和全面baseline；意义8分：直击dLLM落地最大瓶颈，方法通用性高；清晰度9分：逻辑清晰，问题-方法-收益表述一目了然；可复现性9分：代码开源，无黑箱。

一句总评

比九成以上的灌水缓存工作强十个量级，但理论短板和实验的“缩水”让它离顶会还差一口气，补全理论证明和大规模验证后会是篇扎实佳作。