🏆 Hall of Fame

🏆 Hall of Fame 💧 Filler board

1
Attention Is All You Need
Ashish Vaswani, Noam Shazeer, Niki Parmar · #Transformer seminal work
🥇 80.00
2
Deep Residual Learning for Image Recognition
Kaiming He, Xiangyu Zhang, Shaoqing Ren · #Residual Skip
🥇 80.00
3
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
Chaoyou Fu, Peixian Chen, Yunhang Shen · #MLLM Exam
📘 78.81
4
Denoising Diffusion Probabilistic Models
Jonathan Ho, Ajay Jain, Pieter Abbeel · #diffusion model origin
📘 75.60
5
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Andrew Zhao, Yiran Wu, Yang Yue · #zero-data RL
📘 73.95
6
Mean Flows for One-step Generative Modeling
Zhengyang Geng, Mingyang Deng, Xingjian Bai · #one-shot gen
📘 71.43
7
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore
Junchao Wu, Runzhe Zhan, Derek F. Wong · #LLM-generated text detec
📘 71.20
8
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
Tianbao Xie, Danyang Zhang, Jixuan Chen · #GUI Agent Benchmark
📘 70.00
9
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios
Junchao Wu, Runzhe Zhan, Derek F. Wong · #LLM Detection Benchmark
📘 69.87
10
WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
Shuangrui Ding, Xuanlang Dai, Long Xing · #Sandbox Debunker
📘 68.83
11
StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
Junming Lin, Zheng Fang, Chi Chen · #streaming video understa
📘 68.64
12
d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching
Yuchu Jiang, Yue Cai, Xiangzhong Luo · #Diffusion LLM Inference
📘 65.97
13
Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval
Pascal Notin, Mafalda Dias, Jonathan Frazer · #protein fitness predicti
📘 65.60
14
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Yifan Yang, Ziyang Gong, Weiquan Huang · #agent skill alchemy
🫥 64.80
15
NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
Jingzhe Ding, Shengda Long, Changxin Pu · #coding agent truth serum
🫥 63.60
16
VideoRoPE: What Makes for Good Video Rotary Position Embedding?
Xilin Wei, Xiaoran Liu, Yuhang Zang · #video positional encodin
🫥 63.20
17
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO
Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin · #GRPO aggregation mystery
🫥 63.20
18
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing
Xiangyu Zhao, Peiyuan Zhang, Kexian Tang · #Visual Editing Benchmark
🫥 62.40
19
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
Zhaowei Wang, Wenhao Yu, Xiyu Ren · #long-context multimodal
🫥 62.40
20
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games
Shengyuan Ding, Xilin Wei, Xinyu Fang · #MLLM evaluation
🫥 62.00
21
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Zhaowei Wang, Lishu Luo, Haodong Duan · #long-context LVLM
🫥 62.00
22
SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction
Zhixiong Zhang, Yizhuo Li, Shuangrui Ding · #LVLM finally knows multi
🫥 60.80
23
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
Tongxu Luo, Rongsheng Wang, Jiaxi Bi · #game generation benchmar
🫥 60.40
24
DetectRL-X: Towards Reliable Multilingual and Real-World LLM-Generated Text Detection
Junchao Wu, Yefeng Liu, Chenyu Zhu · #multilingual text detect
🫥 59.60
25
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara · #MLLM eye-brain separatio
🫥 58.00
26
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
Wenyu Du, Tongxu Luo, Zihan Qiu · #practical model growth g
🫥 57.20
27
Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances
Yi Yu, Botao Ren, Peiyuan Zhang · #point-supervised OOD
🫥 56.40
28
SeHDR: Single-Exposure HDR Novel View Synthesis via 3D Gaussian Bracketing
Yiyu Li, Haoyuan Wang, Ke Xu · #single-exposure HDR
🫥 55.60
29
Agentifying Patient Dynamics within LLMs through Interacting with Clinical World Model
Minghao Wu, Yuting Yan, Zhenyang Cai · #sepsis decision making
🫥 55.60
30
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
Shengyuan Ding, Xinyu Fang, Ziyu Liu · #multimodal reward model
🫥 54.40
31
Knowledge Index of Noah's Ark
Sheng Jin, Minghao Liu, Yunze Xiao · #LLM Knowledge Evaluation
🫥 54.40
32
GenExam: A Multidisciplinary Text-to-Image Exam
Zhaokai Wang, Penghao Yin, Xiangyu Zhao · #text-to-image evaluation
🫥 54.40
33
OneRec Technical Report
Guorui Zhou, Jiaxin Deng, Jinghao Zhang · #industrial recommender s
🫥 53.60
34
The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
Qiguang Chen, Yantao Du, Ziniu Li · #Long CoT analysis
🫥 53.20
35
Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It
Yupu Hao, Zhuoran Jin, Huanxuan Liao · #Tool-use RL
🫥 52.40
36
SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote Sensing Image Classification
Junyan Lin, Feng Gao, Xiaocheng Shi · #Remote Sensing Classific
🫥 52.40
37
Fast Large Language Model Collaborative Decoding via Speculation
Jiale Fu, Yuchu Jiang, Junkai Chen · #LLM Acceleration
🫥 52.40
38
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
Xiangyu Zhao, Peiyuan Zhang, Junming Lin · #Reward Model Dehallucina
🫥 52.40
39
DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning in the Debiasing Perspective
Pu Miao, Zeyao Du, Junlin Zhang · #Sentence Embedding Debia
🫥 52.40
40
RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns
Xin Chen, Junchao Wu, Shu Yang · #AI-generated text detect
🫥 51.20
41
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
Zhaoyang Wang, Canwen Xu, Boyi Liu · #agent-env-savior
🫥 50.40
42
Learning from Peers in Reasoning Models
Tongxu Luo, Wenyu Du, Jiaxi Bi · #prefix trap observation
🫥 50.40
43
Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices
Junyan Lin, Haoran Chen, Yue Fan · #Multimodal LLM
🫥 50.40
44
Qwen-AgentWorld: Language World Models for General Agents
Yuxin Zuo, Zikai Xiao, Li Sheng · #world model training
🫥 50.00
45
Kwai Keye-VL-2.0 Technical Report
Kwai Keye Team, Bin Wen, Changyi Liu · #Long-video Understanding
🫥 50.00
46
Generative Modeling via Drifting
Mingyang Deng, He Li, Tianhong Li · #one-step generation
🫥 50.00
47
DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors
Runqi Wang, Yang Chen, Sijie Xu · #face swapping
🫥 49.60
48
MM-IFEngine: Towards Multimodal Instruction Following
Shengyuan Ding, Shenxi Wu, Xiangyu Zhao · #Multimodal LLM
🫥 49.60
49
MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
Xiangyu Zhao, Junming Lin, Tianhao Liang · #Multimodal LLMs
🫥 49.44
50
Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
Zhixue Song, Boyan Han, Yiwei Wang · #multimodal safety
🫥 48.00