[论文翻译]GPTScore: 按需评估

生成式人工智能 (Generative AI) 通过利用大型预训练模型，已能开发出可产出高质量文本、图像等内容的复杂模型。然而，评估生成内容的质量比生成本身更为艰巨，这一问题近期未获足够重视。本文提出新型评估框架 GPTSCORE，利用生成式预训练模型的涌现能力 (如零样本指令) 对生成文本进行评分。研究探索了 19 个预训练模型，规模从 80M (如 FLAN-T5-small) 到 175B (如 GPT3) 不等。在4项文本生成任务、22个评估维度及对应37个数据集上的实验结果表明，该方法仅需自然语言指令即可有效实现文本的定制化评估。这一特性帮助我们克服了文本评估中长期存在的挑战——如何在无需标注样本的情况下实现定制化、多维度评估。代码已开源。[1]