Dwie świeże informacje przestawiają wskazówkę na kompasie „rozumowania przez modele” w praktyce:
- GPT-5 Pro zajmuje pierwsze miejsce w zweryfikowanym rankingu ARC-AGI (semi-private). (ARC Prize)
- Gemini 2.5 Deep Think ustanawia nowy rekord na FrontierMath w zakresach Tiers 1–3 oraz — w chwili publikacji raportu Epoch AI — także na Tier 4. Kilka dni później rekord Tier 4 przejmuje GPT-5 Pro minimalną różnicą (różnica nieistotna statystycznie). (Epoch AI)
Te wyniki mówią, jak daleko „myślące” modele zaszły w zadaniach wymagających planowania, przeszukiwania przestrzeni rozwiązań i kontroli błędów. Dla zespołów badawczych i firm to konkret: co już dziś da się zautomatyzować, a gdzie wciąż potrzebny jest człowiek-ekspert.
Co dokładnie ogłoszono
GPT-5 Pro na ARC-AGI (semi-private)
- ARC-AGI-1: 70,2%, ~4,78 USD/zadanie.
- ARC-AGI-2: 18,3%, ~7,41 USD/zadanie.
To obecnie najwyższe zweryfikowane wyniki frontier LLM na półprywatnym zestawie ARC-AGI, potwierdzone przez ARC Prize. (Thread Reader App)
Gemini 2.5 Deep Think na FrontierMath
- Tiers 1–3: 29% (rekord).
- Tier 4: 10% (rekord na dzień 9 paź 2025).
Ocena wykonana ręcznie przez Epoch AI; raport opisuje mocne i słabe strony modelu. Kilka dni później GPT-5 Pro osiąga 13% na Tier 4 i wysuwa się o jeden problem, z zastrzeżeniem braku istotności statystycznej. (Epoch AI)
Kontekst: złoto na IMO 2025
Za kulisami oba laboratoria mają jeszcze mocniejsze warianty. Gemini Deep Thinkoficjalnie osiąga wynik na poziomie złotego medalu w IMO 2025, a OpenAIkomunikuje analogiczny poziom na tym samym secie zadań (wysoki budżet obliczeń, ocena niezależna). (Google DeepMind)
Co mierzą te benchmarki (MECE)
ARC-AGI (semi-private)
- Cel: nielingwistyczne rozumowanie i adaptacja w problemach abstrakcyjnych, z priorytetem efektywności (wynik vs koszt/test i „czas myślenia”).
- Zestawy: ARC-AGI-1 (pierwsza generacja) i ARC-AGI-2 (ostrzejszy nacisk na adaptację i wydajność).
- Status danych: zbiory prywatne; wyniki weryfikuje fundacja ARC. (ARC Prize)
FrontierMath
- Cel: krótkie odpowiedzi w trudnej matematyce (od zaawansowanego licencjatu po Tier 4: poziom badań).
- Projekt: kilkaset nieopublikowanych zadań pisanych przez matematyków; ocena czytelnych odpowiedzi końcowych. (Epoch AI)
Liczby i oś czasu
| Model | Benchmark | Wynik / koszt | Data i uwagi |
|---|---|---|---|
| GPT-5 Pro | ARC-AGI-1 | 70,2%, ~4,78 USD/zad. | ogłoszenie ARC Prize, 9 paź 2025. (Thread Reader App) |
| GPT-5 Pro | ARC-AGI-2 | 18,3%, ~7,41 USD/zad. | jw. najwyższy zweryfikowany wynik LLM. (Thread Reader App) |
| Gemini 2.5 Deep Think | FrontierMath T1–T3 | 29% | raport Epoch AI, 9 paź 2025. (Epoch AI) |
| Gemini 2.5 Deep Think | FrontierMath Tier 4 | 10% | rekord na dzień publikacji raportu. (Epoch AI) |
| GPT-5 Pro | FrontierMath Tier 4 | 13% | aktualizacja Epoch AI na X; „brak istotności statyst.” względem Deep Think. (X (formerly Twitter)) |
| Gemini Deep Think (wariant wewn.) | IMO 2025 | 35/42 (złoty poziom) | oficjalny wpis DeepMind, weryfikacja IMO. (Google DeepMind) |
| Model eksperymentalny OpenAI | IMO 2025 | złoty poziom | depesza Reuters, ocena niezależnych medalistów. (Reuters) |
Jak to czytać bez złudzeń (MECE)
1. Jakość rozumowania
- ARC-AGI-2 premiuje modele, które myślą oszczędnie (wynik vs koszt/test). Wysoka skuteczność przy niskim koszcie to silny sygnał do zastosowań produkcyjnych. (ARC Prize)
- FrontierMath sprawdza głównie wiedzę i precyzję wykonania w matematyce; kreatywność pozostaje trudniejsza do „wywołania”. (Epoch AI)
2. Statystyka i niepewność
- Różnica Tier 4 13% vs 12% jest mała i w komunikacji Epoch AI pada wprost: nieistotna statystycznie. W decyzjach zakupowych traktuj te dwa modele jako „bliskie remisu” w najtrudniejszych zadaniach. (X (formerly Twitter))
3. „Test-time compute”
- Rekordy zwykle wymagają wydłużonego myślenia i równoległych ścieżek rozumowania. To kosztuje, ale bywa konieczne przy zadaniach klasy IMO/FrontierMath. (Google DeepMind)
4. Granice uogólnienia
- FrontierMath ≠ dowód w stylu czasopism; sprawdza poprawność wyniku końcowego.
- IMO wymaga pełnego, rygorystycznego dowodu, stąd „złote” wyniki są cennym sygnałem, ale wciąż dotyczą wąskiej klasy zadań. (Google DeepMind)
Co zrobić dziś: ścieżki decyzji (MECE)
A. Zastosowania inżynieryjne i produktowe
- Workflowy narzędziowe: ARC-AGI-2 premiuje efektywność — wdrażaj budżet myślenia (limity kroków, przerwania, retry), logowanie łańcuchów rozumowania oraz weryfikatory (self-consistency, checking zewnętrzny). (ARC Prize)
- Kontrola kosztów: parametryzuj czas myślenia na poziomie zadania. Przyjmij szablon: Light (szybko, tanio), Balanced, Max-Solve (rekordy, drogo).
B. Zastosowania badawcze i matematyczne
- FrontierMath-style: łącz długi reasoning z narzędziami CAS/numerycznymi i protokołem weryfikacji (dowody szkicowane → formalizacja wybranych kroków). (Epoch AI)
C. Ewaluacja wewnętrzna
Minimalny, replikowalny protokół:
- Definiujesz zestaw celów (np. 50 zadań domenowych; rozdzielone train/held-out).
- Ustalasz budżet myślenia na zadanie i retry policy (pass@k).
- Zbierasz wynik, koszt, czas, a także metryki błędów (halucynacje, niespójności).
- Raportujesz przedziały ufności; przy różnicach <3–5 pp nie zmieniaj strategii wyłącznie na podstawie średniej.
Czego te testy nie mierzą (MECE)
- Długie projekty badawcze z iteracjami nad hipotezami.
- Robustność na dane brudne i sprzeczne.
- Bezpieczeństwo w promptach wrogich dla matematyki (np. toksyczne skróty dowodów).
- Koszt całkowity operacji (monitoring, interpretowalność, wersjonowanie modeli).
Najważniejsze wnioski dla decydentów
- Jeśli liczysz koszt/jakość w zadaniach ogólnych – dziś GPT-5 Pro ma najmocniejszy sygnał na ARC-AGI przy dobrym koszcie/testu. (Thread Reader App)
- Jeśli Twoje use-case’y to trudna matematyka – Gemini 2.5 Deep Thinkprowadzi na Tiers 1–3, a na Tier 4 wynik jest w praktyce remisowy względem GPT-5 Pro. Wybór dyktują narzędzia, ekosystem i limity obliczeń. (Epoch AI)
- IMO 2025 pokazało przełom „dowodowy”, ale wymaga jeszcze ostrożności przy przenoszeniu do pracy naukowej na żywych problemach. (Google DeepMind)
FAQ
Czy rekord ARC-AGI oznacza „blisko AGI”?
Nie. ARC-AGI-2 projektowano tak, by podnosić poprzeczkę w adaptacji i efektywności; to twardy test, lecz wąski wobec pełnego „rozumienia świata”. (ARC Prize)
Dlaczego na FrontierMath różnice są małe?
Tier 4 zawiera 50 bardzo trudnych zadań; przy takich próbkach szum statystyczny łatwo maskuje drobne przewagi. Stąd komentarz Epoch AI o braku istotności statystycznej. (X (formerly Twitter))
Czy wyniki FrontierMath przekładają się na publikowalne dowody?
Częściowo. Benchmark ocenia poprawne odpowiedzi końcowe; rygor dowodowy w stylu czasopisma to osobne wyzwanie. (Epoch AI)
Co realnie zyska mój zespół R&D?
Lepsza jakość planowania i kontroli błędów w zadaniach strukturalnych, pod warunkiem że wdrożysz budżet myślenia i weryfikację rozwiązań.
Czy „złoto IMO” oznacza przewagę nad top studentami?
W 2025 wiele zespołów uczniowskich nadal rozwiązało więcej zadań niż systemy AI; „złoto” oznacza przekroczenie progu, a nie wygraną z najlepszymi. (Reuters)
Pomysł na doktorat
Tytuł roboczy: Adaptacyjna alokacja „czasu myślenia” i weryfikacji dla zadań dowodowych i krótkiej odpowiedzi
Cele:
- Opracować algorytm, który przewiduje potrzebny budżet rozumowania z logów pośrednich.
- Połączyć self-consistency, dowody częściowe i zewnętrzny verifier w jeden adaptacyjny protokół.
Hipotezy:
- Cechy ścieżek (dywergencja, powtórzenia, entropia planu) przewidują opłacalność kolejnych kroków.
- Weryfikacja krokowa zmniejsza koszt przy zachowaniu jakości na Tier 4/ARC-AGI-2.
Plan pracy:
- Zbudować zbiór metadanych z logów reasoningowych.
- Trenować predyktor budżetu i politykę zatrzymania.
- Walidacja na FrontierMath (T1–T4) i podzbiorach ARC-AGI-2.
- Publikacja: algorytm + karta koszt-jakość z przedziałami ufności.
Źródła i materiały
- ARC Prize – Leaderboard, Guide, Policy: metodologia, definicje półprywatnych setów, nacisk na koszt/test. (ARC Prize)
- Epoch AI – FrontierMath i raport o Deep Think: opis benchmarku i wyniki 29% (T1–T3), 10% (T4). (Epoch AI)
- Aktualizacja Tier 4: wąskie prowadzenie GPT-5 Pro (13%) nad Deep Think (komunikat Epoch AI na X). (X (formerly Twitter))
- IMO 2025: blog Google DeepMind (złoty poziom, oficjalna weryfikacja) i relacja Reuters (deklaracje obu laboratoriów). (Google DeepMind)