封闭式评估与基准测试
许多 NLP 任务是“封闭式”的,这意味着潜在答案数量有限1,通常只有一个或少数几个正确答案。
例子包括:情感分类(例如情感标签)和抽取式问答(文档中包含答案的部分)。
封闭式任务的特点是便于自动评估,这与通常的机器学习评估方法相似。
单任务基准测试专注于评估模型在特定任务上的表现:情感分析:SST, IMDB;蕴涵关系判断 (Entailment):SNLI, MultiNLI;问答 (QA):SQuAD, NaturalQuestions;
多任务基准测试则试图衡量模型的“通用语言能力”:SuperGLUE 是一个多任务基准测试2,包含多种不同的任务2,例如:阅读理解 (reading texts):BoolQ, MultiRC2;蕴涵关系判断 (Entailment):CB, RTE2;因果关系 (cause and effect):COPA3;问答与推理 (QA+reasoning):ReCoRD3;词义判断 (meaning of words):WiC3;共指消解 (coreference):WSC3
[Read More]