🔥 毒舌 GitHub
← 返回论文榜
Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval
Pascal Notin, Mafalda Dias, Jonathan Frazer, Javier Marchena-Hurtado et al.
65.60/100
📘 能读
合格之作 · 有可取之处
内容分 65.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出结合推理时同源序列检索的自回归Transformer Tranception,在蛋白适应度预测任务上达SOTA,同时发布大规模基准ProteinGym推动领域评测标准化。

#蛋白适应度预测#推理时检索#蛋白语言模型#病毒突变克星#基准卷王#protein fitness predicti#inference-time retrieval#protein language model#viral mutation buster#benchmark builder

维度评分

创新性7.0 / 10
严谨性9.0 / 10
意义9.0 / 10
清晰度8.0 / 10
可复现性8.0 / 10

评审结论

这是一篇在蛋白质序列功能预测领域兼具方法创新与生态价值的扎实工作,成功将检索增强范式与蛋白质预训练模型结合,同时填补了领域大规模标准化基准的空白。

创新点与贡献

核心创新为提出Tranception架构,将自回归蛋白质语言模型与推理阶段的同源序列检索深度融合,绕开了传统MSA方法对深度多序列比对的强依赖,在单点、多点突变预测及移码indel评分上均达到当时SOTA;配套发布的ProteinGym基准大幅拓展了模型测试的蛋白质家族覆盖范围,为领域提供了统一的 rigorous 评估标尺,解决了此前基准规模小、多样性不足的痛点。

问题与水分

方法创新属于对现有检索增强范式的合理领域适配,架构本身的范式突破性有限;ProteinGym部分 assays 的批次效应控制与数据质量校验仍有优化空间,且未充分覆盖极端稀有、难以获取实验数据的蛋白质家族。

维度简评

新颖性7分:检索增强思路在蛋白质领域应用巧妙,但并非从零到一的范式突破;严谨性9分:实验设计全面,消融实验充分验证各模块有效性;重要性9分:SOTA性能与公开基准的双重贡献对领域推动显著;清晰度8分:写作逻辑通顺,方法描述易懂;可复现性8分:代码、模型与基准均已公开,仅部分实验超参数细节可进一步补充。

总评

是蛋白质功能预测领域不可多得的“方法+生态”双贡献优质工作,为后续蛋白质语言模型在功能建模方向的应用树立了扎实标杆。