Item: DetectRL-X: Towards Reliable Multilingual and Real-World LLM-Generated Text Detection
Rating: 59.6
Author: GitHub Roast

← 返回论文榜

DetectRL-X: Towards Reliable Multilingual and Real-World LLM-Generated Text Detection

Junchao Wu, Yefeng Liu, Chenyu Zhu, Hao Zhang et al.

59.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 59.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出多语言真实场景LLM生成文本检测基准DetectRL-X，覆盖8种商用常用语言、6个高滥用风险领域与8个评估维度，纳入真实AI辅助写作操作与多语言扰动攻击框架，可系统评估现有检测器的性能边界与多语言适配性

#多语言文本检测#LLM内容治理#真实场景基准#扰动攻击框架#跨语言NLP#multilingual text detect#LLM content governance#real-world benchmark#perturbation attack fram#cross-lingual NLP

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义8.0 / 10

清晰度8.0 / 10

可复现性6.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

评审报告

一句话定性

这是一篇典型的场景堆料型基准工作，精准踩中了现有LLM生成文本检测多语言、真实场景评估不足的痛点，但无核心创新，属于食之无味弃之可惜的平庸工具型产出，离顶尖硬核工作差距明显。

创新点/贡献

一是构建了覆盖8语种、6个LLM滥用高发领域的多语言检测基准，纳入润色、扩写等真实AI辅助写作场景文本，比现有单语言/通用场景基准更贴合落地需求；二是设计了多语言扰动攻击框架，可模拟不同语言下的人工修改与写作噪声，实现对检测器的压力测试；三是系统性分析了领域、生成模型、攻击策略等8个维度对现有SOTA检测器多语言性能的影响，揭示了当前检测器的能力短板。

问题与水分

创新性严重注水，本质是单语言检测基准的多语言复刻，无任何新检测算法、攻击范式或评估指标， novelty 拿7分都是抬举；未与现有同类多语言检测基准做充分对比，所谓“填补空白”有过度宣称之嫌；可复现性仅6分，大概率未公开核心扰动代码、标注规则不透明，说白了就是把现有 paraphrase 方法做了多语言适配就敢当核心贡献吹。

维度简评

novelty 7/10：纯场景拓展型工作，无核心方法创新，上限极低；
rigor 8/10：实验维度设计全面，分析逻辑清晰，实验设置严谨；
significance 8/10：确实填补了多语言真实场景LLM检测评估的空白，对后续研发有实际参考价值；
clarity 8/10：写作逻辑清晰，基准设计、实验设置、结果分析都表述明确；
reproducibility 6/10：核心代码未公开，标注细节缺失，复现成本较高。

总评

整体是份无硬伤但无亮点的平庸工具型工作，属于“做了该做的事”的水平，59.6分的打分非常合理，没有任何虚高，离世界级过硬成果的门槛还差了十个SOTA检测器的性能差距。