Rekordy na ARC-AGI i FrontierMath: co naprawdę potrafią GPT-5 Pro i Gemini 2.5 Deep Think?

Dwie świeże informacje przestawiają wskazówkę na kompasie „rozumowania przez modele” w praktyce:

  1. GPT-5 Pro zajmuje pierwsze miejsce w zweryfikowanym rankingu ARC-AGI (semi-private). (ARC Prize)
  2. Gemini 2.5 Deep Think ustanawia nowy rekord na FrontierMath w zakresach Tiers 1–3 oraz — w chwili publikacji raportu Epoch AI — także na Tier 4. Kilka dni później rekord Tier 4 przejmuje GPT-5 Pro minimalną różnicą (różnica nieistotna statystycznie). (Epoch AI)

Te wyniki mówią, jak daleko „myślące” modele zaszły w zadaniach wymagających planowania, przeszukiwania przestrzeni rozwiązań i kontroli błędów. Dla zespołów badawczych i firm to konkret: co już dziś da się zautomatyzować, a gdzie wciąż potrzebny jest człowiek-ekspert.

Co dokładnie ogłoszono

GPT-5 Pro na ARC-AGI (semi-private)

  • ARC-AGI-1: 70,2%, ~4,78 USD/zadanie.
  • ARC-AGI-2: 18,3%, ~7,41 USD/zadanie.
    To obecnie najwyższe zweryfikowane wyniki frontier LLM na półprywatnym zestawie ARC-AGI, potwierdzone przez ARC Prize. (Thread Reader App)

Gemini 2.5 Deep Think na FrontierMath

  • Tiers 1–3: 29% (rekord).
  • Tier 4: 10% (rekord na dzień 9 paź 2025).
    Ocena wykonana ręcznie przez Epoch AI; raport opisuje mocne i słabe strony modelu. Kilka dni później GPT-5 Pro osiąga 13% na Tier 4 i wysuwa się o jeden problem, z zastrzeżeniem braku istotności statystycznej. (Epoch AI)

Kontekst: złoto na IMO 2025

Za kulisami oba laboratoria mają jeszcze mocniejsze warianty. Gemini Deep Thinkoficjalnie osiąga wynik na poziomie złotego medalu w IMO 2025, a OpenAIkomunikuje analogiczny poziom na tym samym secie zadań (wysoki budżet obliczeń, ocena niezależna). (Google DeepMind)

Co mierzą te benchmarki (MECE)

ARC-AGI (semi-private)

  • Cel: nielingwistyczne rozumowanie i adaptacja w problemach abstrakcyjnych, z priorytetem efektywności (wynik vs koszt/test i „czas myślenia”).
  • Zestawy: ARC-AGI-1 (pierwsza generacja) i ARC-AGI-2 (ostrzejszy nacisk na adaptację i wydajność).
  • Status danych: zbiory prywatne; wyniki weryfikuje fundacja ARC. (ARC Prize)

FrontierMath

  • Cel: krótkie odpowiedzi w trudnej matematyce (od zaawansowanego licencjatu po Tier 4: poziom badań).
  • Projekt: kilkaset nieopublikowanych zadań pisanych przez matematyków; ocena czytelnych odpowiedzi końcowych. (Epoch AI)

Liczby i oś czasu

Model Benchmark Wynik / koszt Data i uwagi
GPT-5 Pro ARC-AGI-1 70,2%, ~4,78 USD/zad. ogłoszenie ARC Prize, 9 paź 2025. (Thread Reader App)
GPT-5 Pro ARC-AGI-2 18,3%, ~7,41 USD/zad. jw. najwyższy zweryfikowany wynik LLM. (Thread Reader App)
Gemini 2.5 Deep Think FrontierMath T1–T3 29% raport Epoch AI, 9 paź 2025. (Epoch AI)
Gemini 2.5 Deep Think FrontierMath Tier 4 10% rekord na dzień publikacji raportu. (Epoch AI)
GPT-5 Pro FrontierMath Tier 4 13% aktualizacja Epoch AI na X; „brak istotności statyst.” względem Deep Think. (X (formerly Twitter))
Gemini Deep Think (wariant wewn.) IMO 2025 35/42 (złoty poziom) oficjalny wpis DeepMind, weryfikacja IMO. (Google DeepMind)
Model eksperymentalny OpenAI IMO 2025 złoty poziom depesza Reuters, ocena niezależnych medalistów. (Reuters)

Jak to czytać bez złudzeń (MECE)

1. Jakość rozumowania

  • ARC-AGI-2 premiuje modele, które myślą oszczędnie (wynik vs koszt/test). Wysoka skuteczność przy niskim koszcie to silny sygnał do zastosowań produkcyjnych. (ARC Prize)
  • FrontierMath sprawdza głównie wiedzę i precyzję wykonania w matematyce; kreatywność pozostaje trudniejsza do „wywołania”. (Epoch AI)

2. Statystyka i niepewność

  • Różnica Tier 4 13% vs 12% jest mała i w komunikacji Epoch AI pada wprost: nieistotna statystycznie. W decyzjach zakupowych traktuj te dwa modele jako „bliskie remisu” w najtrudniejszych zadaniach. (X (formerly Twitter))

3. „Test-time compute”

  • Rekordy zwykle wymagają wydłużonego myślenia i równoległych ścieżek rozumowania. To kosztuje, ale bywa konieczne przy zadaniach klasy IMO/FrontierMath. (Google DeepMind)

4. Granice uogólnienia

  • FrontierMath ≠ dowód w stylu czasopism; sprawdza poprawność wyniku końcowego.
  • IMO wymaga pełnego, rygorystycznego dowodu, stąd „złote” wyniki są cennym sygnałem, ale wciąż dotyczą wąskiej klasy zadań. (Google DeepMind)

Co zrobić dziś: ścieżki decyzji (MECE)

A. Zastosowania inżynieryjne i produktowe

  • Workflowy narzędziowe: ARC-AGI-2 premiuje efektywność — wdrażaj budżet myślenia (limity kroków, przerwania, retry), logowanie łańcuchów rozumowania oraz weryfikatory (self-consistency, checking zewnętrzny). (ARC Prize)
  • Kontrola kosztów: parametryzuj czas myślenia na poziomie zadania. Przyjmij szablon: Light (szybko, tanio), Balanced, Max-Solve (rekordy, drogo).

B. Zastosowania badawcze i matematyczne

  • FrontierMath-style: łącz długi reasoning z narzędziami CAS/numerycznymi i protokołem weryfikacji (dowody szkicowane → formalizacja wybranych kroków). (Epoch AI)

C. Ewaluacja wewnętrzna

Minimalny, replikowalny protokół:

  1. Definiujesz zestaw celów (np. 50 zadań domenowych; rozdzielone train/held-out).
  2. Ustalasz budżet myślenia na zadanie i retry policy (pass@k).
  3. Zbierasz wynik, koszt, czas, a także metryki błędów (halucynacje, niespójności).
  4. Raportujesz przedziały ufności; przy różnicach <3–5 pp nie zmieniaj strategii wyłącznie na podstawie średniej.

Czego te testy nie mierzą (MECE)

  • Długie projekty badawcze z iteracjami nad hipotezami.
  • Robustność na dane brudne i sprzeczne.
  • Bezpieczeństwo w promptach wrogich dla matematyki (np. toksyczne skróty dowodów).
  • Koszt całkowity operacji (monitoring, interpretowalność, wersjonowanie modeli).

Najważniejsze wnioski dla decydentów

  • Jeśli liczysz koszt/jakość w zadaniach ogólnych – dziś GPT-5 Pro ma najmocniejszy sygnał na ARC-AGI przy dobrym koszcie/testu. (Thread Reader App)
  • Jeśli Twoje use-case’y to trudna matematykaGemini 2.5 Deep Thinkprowadzi na Tiers 1–3, a na Tier 4 wynik jest w praktyce remisowy względem GPT-5 Pro. Wybór dyktują narzędzia, ekosystem i limity obliczeń. (Epoch AI)
  • IMO 2025 pokazało przełom „dowodowy”, ale wymaga jeszcze ostrożności przy przenoszeniu do pracy naukowej na żywych problemach. (Google DeepMind)

FAQ

Czy rekord ARC-AGI oznacza „blisko AGI”?
Nie. ARC-AGI-2 projektowano tak, by podnosić poprzeczkę w adaptacji i efektywności; to twardy test, lecz wąski wobec pełnego „rozumienia świata”. (ARC Prize)

Dlaczego na FrontierMath różnice są małe?
Tier 4 zawiera 50 bardzo trudnych zadań; przy takich próbkach szum statystyczny łatwo maskuje drobne przewagi. Stąd komentarz Epoch AI o braku istotności statystycznej. (X (formerly Twitter))

Czy wyniki FrontierMath przekładają się na publikowalne dowody?
Częściowo. Benchmark ocenia poprawne odpowiedzi końcowe; rygor dowodowy w stylu czasopisma to osobne wyzwanie. (Epoch AI)

Co realnie zyska mój zespół R&D?
Lepsza jakość planowania i kontroli błędów w zadaniach strukturalnych, pod warunkiem że wdrożysz budżet myślenia i weryfikację rozwiązań.

Czy „złoto IMO” oznacza przewagę nad top studentami?
W 2025 wiele zespołów uczniowskich nadal rozwiązało więcej zadań niż systemy AI; „złoto” oznacza przekroczenie progu, a nie wygraną z najlepszymi. (Reuters)

Pomysł na doktorat

Tytuł roboczy: Adaptacyjna alokacja „czasu myślenia” i weryfikacji dla zadań dowodowych i krótkiej odpowiedzi

Cele:

  • Opracować algorytm, który przewiduje potrzebny budżet rozumowania z logów pośrednich.
  • Połączyć self-consistency, dowody częściowe i zewnętrzny verifier w jeden adaptacyjny protokół.

Hipotezy:

  • Cechy ścieżek (dywergencja, powtórzenia, entropia planu) przewidują opłacalność kolejnych kroków.
  • Weryfikacja krokowa zmniejsza koszt przy zachowaniu jakości na Tier 4/ARC-AGI-2.

Plan pracy:

  • Zbudować zbiór metadanych z logów reasoningowych.
  • Trenować predyktor budżetu i politykę zatrzymania.
  • Walidacja na FrontierMath (T1–T4) i podzbiorach ARC-AGI-2.
  • Publikacja: algorytm + karta koszt-jakość z przedziałami ufności.

Źródła i materiały

  • ARC Prize – Leaderboard, Guide, Policy: metodologia, definicje półprywatnych setów, nacisk na koszt/test. (ARC Prize)
  • Epoch AI – FrontierMath i raport o Deep Think: opis benchmarku i wyniki 29% (T1–T3), 10% (T4). (Epoch AI)
  • Aktualizacja Tier 4: wąskie prowadzenie GPT-5 Pro (13%) nad Deep Think (komunikat Epoch AI na X). (X (formerly Twitter))
  • IMO 2025: blog Google DeepMind (złoty poziom, oficjalna weryfikacja) i relacja Reuters (deklaracje obu laboratoriów). (Google DeepMind)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *