MultiPL-E

Multilingual

text

About

MultiPL-E is a comprehensive multilingual programming benchmark for evaluating code generation performance of large language models across multiple programming languages. It extends existing code benchmarks to cover diverse programming languages, testing models' ability to generate syntactically correct and functionally accurate code in various programming paradigms and language ecosystems.

Evaluation Stats

Total Models12

Organizations2

Verified Results0

Self-Reported12

Benchmark Details

Max Score1

Language

Performance Overview

Score distribution and top performers

Score Distribution

12 models

Top Score

87.9%

Average Score

75.1%

High Performers (80%+)

Top Organizations

#1Moonshot AI

2 models

85.7%

#2Alibaba Cloud / Qwen Team

10 models

72.9%

Leaderboard

12 models ranked by performance on MultiPL-E

			License
#01Qwen3-235B-A22B-Instruct-2507	Alibaba Cloud / Qwen Team	Jul 22, 2025	Apache 2.0	87.9%
#02Qwen3-Next-80B-A3B-Instruct	Alibaba Cloud / Qwen Team	Sep 10, 2025	Apache 2.0	87.8%
#03Kimi K2 Instruct	Moonshot AI	Jul 11, 2025	MIT	85.7%
#04Kimi K2-Instruct-0905	Moonshot AI	Sep 5, 2025	MIT	85.7%
#05Qwen2.5 32B Instruct	Alibaba Cloud / Qwen Team	Sep 19, 2024	Apache 2.0	75.4%
#06Qwen2.5 72B Instruct	Alibaba Cloud / Qwen Team	Sep 19, 2024	Qwen	75.1%
#07Qwen2.5 14B Instruct	Alibaba Cloud / Qwen Team	Sep 19, 2024	Apache 2.0	72.8%
#08Qwen2.5 7B Instruct	Alibaba Cloud / Qwen Team	Sep 19, 2024	Apache 2.0	70.4%
#09Qwen2 72B Instruct	Alibaba Cloud / Qwen Team	Jul 23, 2024	tongyi-qianwen	69.2%
#10Qwen3 235B A22B	Alibaba Cloud / Qwen Team	Apr 29, 2025	Apache 2.0	65.9%

Showing 1 to 10 of 12 models

Resources

Research Paper