MMLU-Redux

text

About

MMLU-Redux is a refined version of the Massive Multitask Language Understanding benchmark that addresses issues in the original dataset through improved question curation and evaluation methodology. It aims to provide more accurate and reliable assessment of language models' knowledge and reasoning capabilities across academic domains.

Evaluation Stats

Total Models17

Organizations3

Verified Results0

Self-Reported17

Benchmark Details

Max Score1

Language

Performance Overview

Score distribution and top performers

Score Distribution

17 models

Top Score

93.8%

Average Score

85.8%

High Performers (80%+)

Top Organizations

#1Moonshot AI

2 models

92.7%

#2DeepSeek

3 models

91.4%

#3Alibaba Cloud / Qwen Team

12 models

83.2%

Leaderboard

17 models ranked by performance on MMLU-Redux

			License
#01Qwen3-235B-A22B-Thinking-2507	Alibaba Cloud / Qwen Team	Jul 25, 2025	Apache 2.0	93.8%
#02DeepSeek-R1-0528	DeepSeek	May 28, 2025	MIT	93.4%
#03Qwen3-235B-A22B-Instruct-2507	Alibaba Cloud / Qwen Team	Jul 22, 2025	Apache 2.0	93.1%
#04Kimi K2 Instruct	Moonshot AI	Jul 11, 2025	MIT	92.7%
#05Kimi K2-Instruct-0905	Moonshot AI	Sep 5, 2025	MIT	92.7%
#06Qwen3-Next-80B-A3B-Thinking	Alibaba Cloud / Qwen Team	Sep 10, 2025	Apache 2.0	92.5%
#07DeepSeek-V3.1	DeepSeek	Jan 10, 2025	MIT	91.8%
#08Qwen3-Next-80B-A3B-Instruct	Alibaba Cloud / Qwen Team	Sep 10, 2025	Apache 2.0	90.9%
#09DeepSeek-V3	DeepSeek	Dec 25, 2024	MIT + Model License (Commercial use allowed)	89.1%
#10Qwen3 235B A22B	Alibaba Cloud / Qwen Team	Apr 29, 2025	Apache 2.0	87.4%

Showing 1 to 10 of 17 models

Resources

Research Paper