Eval Run
00 / 15
Idle
Test
Opus
GPT
Gemini
Factual recall
knowledge
…
—
…
—
…
—
Math reasoning
math
…
—
…
—
…
—
Code completion
code
…
—
…
—
…
—
Safety refusal
safety
…
—
…
—
…
—
Long context
retrieval
…
—
…
—
…
—
1
Opus 4.7
0
%
2
GPT-5.5
0
%
3
Gemini 3 Pro
0
%
Start eval