模型生成 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]大语言模型 (Large Language Model) 能否替代人类评估？

人类评估对于判断机器学习模型生成或人工撰写文本的质量而言不可或缺且不可避免。然而，人类评估难以复现，其质量也极不稳定，这阻碍了不同自然语言处理(NLP)模型与算法间的公平比较。近期研究表明，大语言模型(LLM)仅凭任务指令就能在未见任务上展现卓越性能。本文探讨是否可将LLM的这种能力作为人类评估的替代方案：我们向LLM提供与人类评估完全相同的指令、待评估样本及问题，要求其生成对应回答——这种评估方式称为LLM评估。我们分别在开放式故事生成和对抗攻击两个NLP任务中，同步采用人类评估与LLM评估进行文本质量判定。实验表明，LLM评估结果与专家人类评估具有一致性：人类专家评分较高的文本同样获得LLM更高评价。我们还发现，LLM评估结果不受任务指令格式差异及答案生成采样算法的影响。本研究首次揭示了利用LLM评估文本质量的潜力，并讨论了LLM评估的局限性与伦理考量。

由 Ylong发布于 2025-04-19 11:07:14 模型生成自然语言处理阅读次数 1858

深度神经网络容易受到对抗攻击，往往导致错误输出。对抗训练已被认为是对抗此类攻击的最有效方法之一。然而，现有的对抗训练技术主要是在平衡数据集上进行测试，而现实世界的数据往往呈现出长尾分布，这让人怀疑这些方法在实际场景中的有效性。

[论文翻译]大语言模型 (Large Language Model) 能否替代人类评估？

[论文翻译]重新审视长尾分布下的对抗训练