OJBench

text

About

OJBench is a competition-level code benchmark comprising 232 challenging programming problems designed to assess large language models' code reasoning abilities in competitive programming contexts. It evaluates models' capacity to solve complex algorithmic problems, implement efficient solutions, and demonstrate advanced programming skills at the level required for programming competitions.

Evaluation Stats

Total Models4

Organizations2

Verified Results0

Self-Reported4

Benchmark Details

Max Score1

Language

Performance Overview

Score distribution and top performers

Score Distribution

4 models

Top Score

32.5%

Average Score

29.1%

High Performers (80%+)

Top Organizations

#1Alibaba Cloud / Qwen Team

2 models

31.1%

#2Moonshot AI

2 models

27.1%

Leaderboard

4 models ranked by performance on OJBench

			License
#01Qwen3-235B-A22B-Thinking-2507	Alibaba Cloud / Qwen Team	Jul 25, 2025	Apache 2.0	32.5%
#02Qwen3-Next-80B-A3B-Thinking	Alibaba Cloud / Qwen Team	Sep 10, 2025	Apache 2.0	29.7%
#03Kimi K2 Instruct	Moonshot AI	Jul 11, 2025	MIT	27.1%
#04Kimi K2-Instruct-0905	Moonshot AI	Sep 5, 2025	MIT	27.1%

Resources

Research Paper