🔥 毒舌 GitHub
← 返回论文榜
Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval
Pascal Notin, Mafalda Dias, Jonathan Frazer, Javier Marchena-Hurtado et al.
65.60/100
📘 能读
合格之作 · 有可取之处
内容分 65.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出结合推理时同源序列检索的自回归Transformer Tranception,在蛋白适应度预测任务上达SOTA,同时发布大规模基准ProteinGym推动领域评测标准化。

#蛋白适应度预测#推理时检索#蛋白语言模型#病毒突变克星#基准卷王#protein fitness predicti#inference-time retrieval#protein language model#viral mutation buster#benchmark builder

维度评分

创新性7.0 / 10
严谨性9.0 / 10
意义9.0 / 10
清晰度8.0 / 10
可复现性8.0 / 10

这篇2022年的工作堪称蛋白语言模型应用落地的高质量范本,没有搞花里胡哨的trick堆叠,实打实解决了领域核心痛点,不像现在一堆灌水论文上来就堆模块claim SOTA,审稿人看了都想给作者递烟。

核心贡献有二:一是把推理时同源序列检索和自回归蛋白Transformer结合,既发挥预训练蛋白大模型的泛化能力,又用检索补上了小蛋白家族/浅对齐场景的性能短板,还首次实现了对插入缺失(indel)变异的适应度预测,直接拓宽应用边界;二是开源ProteinGym基准,把零散的蛋白变异效应评测整合成标准化大规模测试集,相当于给领域发了统一“考试卷”,后续大量相关工作评测都绕不开它,影响力拉满。 要说水分几乎找不到,唯一小瑕疵是刚发布时代码和基准未完全公开,初期复现门槛稍高,但完全不影响工作扎实度,无过度宣称,所有SOTA结论都有充分对照实验支撑。 维度简评:创新性7分,非开天辟地的范式突破,但思路巧妙针对性强,是少有的“解决问题型”工作;严谨性9分,实验覆盖多突变、浅对齐、indel等核心场景,对照组包含所有主流基线,结论牢不可破;意义9分,直接推动蛋白适应度预测从学术玩具走向生物医药实际应用,基准建设惠及全领域;清晰度8分,写作逻辑通顺问题定义明确,少量技术细节可更展开;可复现性8分,方法描述完整,后续公开的代码、基准、预训练模型极大降低了复现门槛。 总评:这是少见的扎实工业级学术工作,没有灌水花架子,每个贡献都精准打在领域痛点上,后续引用和影响力实至名归,要是所有论文都能有这个水准,审稿人做梦都能笑醒。