Core scenarios

The scenarios where we evaluate all the models.

  1. Mean win rate

  2. MMLU - EM

  3. BoolQ - EM

  4. NarrativeQA - F1

  5. NaturalQuestions (closed-book) - F1

  6. NaturalQuestions (open-book) - F1

  7. QuAC - F1

  8. HellaSwag - EM

  9. OpenbookQA - EM

  10. TruthfulQA - EM

  11. MS MARCO (regular) - RR@10

  12. MS MARCO (TREC) - NDCG@10

  13. CNN/DailyMail - ROUGE-2

  14. XSUM - ROUGE-2

  15. IMDB - EM

  16. CivilComments - EM

  17. RAFT - EM