Benchmark Explorer

Explore AI benchmarks and see how organizations rank across categories.

Last updated: Feb 1, 2026

Benchmarks Tracked

Data Points

Categories

Chatbot Arena ELO↗ELO

Language & Knowledge

Crowdsourced human-preference ELO from blind pairwise comparison

No data yet

MMLU-Pro↗%

Language & Knowledge

Broad knowledge across 57 subjects with 10-option multiple choice

No data yet

GPQA Diamond↗%

Language & Knowledge

PhD-level science questions (198 expert-validated)

No data yet

SimpleQA↗%

Language & Knowledge

Short-form factual accuracy (4,326 questions)

No data yet

Humanity's Last Exam↗%

Language & Knowledge

Frontier human knowledge across dozens of academic subjects

No data yet

IFEval↗%

Language & Knowledge

Verifiable instruction-following evaluation

No data yet

SWE-bench Verified↗%

Coding

Real-world software engineering — resolving GitHub issues

No data yet

HumanEval+↗%

Coding

Functional code correctness from docstrings (164 problems)

No data yet

LiveCodeBench↗%

Coding

Contamination-free coding evaluation with fresh problems

No data yet

Aider Polyglot↗%

Coding

Multi-language coding (225 exercises across 6 languages)

No data yet

BigCodeBench↗%

Coding

Practical programming tasks (1,140 tasks)

No data yet

MATH-500↗%

Reasoning & Math

Competition-level mathematics across 6 domains

No data yet

AIME 2025↗%

Reasoning & Math

American Invitational Mathematics Examination (30 problems)

No data yet

ARC-AGI-2↗%

Reasoning & Math

Abstract visual reasoning and fluid intelligence

No data yet

FrontierMath↗%

Reasoning & Math

Frontier-level mathematics (350 problems, 4 tiers)

No data yet

Image Arena ELO↗ELO

Image Generation

Human preference ELO for text-to-image generators

No data yet

AA Image Arena ELO↗ELO

Image Generation

Artificial Analysis image quality ELO via blind votes

No data yet

Video Arena ELO↗ELO

Video Generation

Human preference ELO for text-to-video generators

No data yet

AA Video Arena ELO↗ELO

Video Generation

Artificial Analysis video quality ELO via blind votes

No data yet

MMMU↗%

Multimodal

College-level multimodal understanding (11.5K questions)

No data yet

Video-MME↗%

Multimodal

Multimodal video analysis across 6 visual domains

No data yet

GAIA↗%

Multimodal

General AI assistant capabilities requiring reasoning & tools

No data yet

TAU2-bench↗%

Agents & Tools

Conversational AI agent task completion (retail, airline, telecom)

No data yet

WebArena↗%

Agents & Tools

Web interaction tasks in realistic simulated environments

No data yet

Terminal-Bench↗%

Agents & Tools

AI agent CLI task completion in sandboxed Docker environments

No data yet

Category Leaderboards

Best at Language & Knowledge Best at Coding Best at Reasoning & Math Best at Image Generation Best at Video Generation Best at Multimodal Best at Agents & Tools