• [论文翻译]大语言模型 (Large Language Model) 能否替代人类评估?

    人类评估对于判断机器学习模型生成或人工撰写文本的质量而言不可或缺且不可避免。然而,人类评估难以复现,其质量也极不稳定,这阻碍了不同自然语言处理(NLP)模型与算法间的公平比较。近期研究表明,大语言模型(LLM)仅凭任务指令就能在未见任务上展现卓越性能。本文探讨是否可将LLM的这种能力作为人类评估的替代方案:我们向LLM提供与人类评估完全相同的指令、待评估样本及问题,要求其生成对应回答——这种评估方式称为LLM评估。我们分别在开放式故事生成和对抗攻击两个NLP任务中,同步采用人类评估与LLM评估进行文本质量判定。实验表明,LLM评估结果与专家人类评估具有一致性:人类专家评分较高的文本同样获得LLM更高评价。我们还发现,LLM评估结果不受任务指令格式差异及答案生成采样算法的影响。本研究首次揭示了利用LLM评估文本质量的潜力,并讨论了LLM评估的局限性与伦理考量。
  • [论文翻译]重新审视长尾分布下的对抗训练

    深度神经网络容易受到对抗攻击,往往导致错误输出。对抗训练已被认为是对抗此类攻击的最有效方法之一。然而,现有的对抗训练技术主要是在平衡数据集上进行测试,而现实世界的数据往往呈现出长尾分布,这让人怀疑这些方法在实际场景中的有效性。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理