🔥 毒舌 GitHub
← 返回论文榜
d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching
Yuchu Jiang, Yue Cai, Xiangzhong Luo, Jiale Fu et al.
65.97/100
📘 能读
合格之作 · 有可取之处
内容分 62.4 · 引用加成 +3.6 · 20 次引用

💡 针对扩散大语言模型双向注意力无法复用标准KV缓存的痛点,提出无需训练的双自适应缓存框架,通过两阶段细粒度选择token自适应更新KV并缓存其余状态,实现推理加速与生成质量双重提升。

#扩散LLM推理加速#无训练缓存优化#KV缓存创新#双向注意力适配#生成质量提升#Diffusion LLM Inference #Training-free Cache Opti#KV Cache Innovation#Bidirectional Attention #Generation Quality Impro

维度评分

创新性7.0 / 10
严谨性7.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10

一句话定性

这是一份精准击中扩散大语言模型(dLLM)推理效率核心痛点的实用型工作,没搞换皮trick,实打实解决了领域真问题,但离顶尖工作还差临门一脚。

创新点/贡献

核心贡献是提出首个针对dLLM的无训练双自适应KV缓存框架,跳出自回归模型KV缓存思路,通过两阶段细粒度token选择策略,动态决定KV更新/缓存对象,既打破了dLLM因双向注意力无法复用标准KV缓存的瓶颈,还意外获得缓解序列尾部token过早过自信的附加收益,在提升生成质量的同时实现可观加速,且无需额外训练,落地成本极低。

问题与水分

理论分析几乎空白,连缓存选择策略的误差边界、加速上限都懒得证明,合理性全靠实验硬撑;实验仅覆盖LLaDA、Dream两个模型,未验证更大规模dLLM、长文本/代码等不同任务的泛化性,通用性全靠脑补;未与其他dLLM专属加速方案(蒸馏、投机解码等)做头对头对比,加速优势全靠裸奔基线衬托;更绝的是对缓存显存开销只字不提,缓存比例高了显存炸了比不加速还慢,这坑直接留给复现的读者踩。

维度简评

创新性7分:细分领域有效创新,非换皮堆砌,但未达范式级突破;严谨性7分:主流模型实验结果一致,但缺消融、理论证明和全面baseline;意义8分:直击dLLM落地最大瓶颈,方法通用性高;清晰度9分:逻辑清晰,问题-方法-收益表述一目了然;可复现性9分:代码开源,无黑箱。

一句总评

比九成以上的灌水缓存工作强十个量级,但理论短板和实验的“缩水”让它离顶会还差一口气,补全理论证明和大规模验证后会是篇扎实佳作。