Zdolność do przewidywania przyszłości jest jednym z fundamentów podejmowania decyzji, od tych codziennych, jak zabranie parasola, po strategiczne, które kształtują losy firm i państw. Sztuczna inteligencja, która potrafiłaby prognozować przyszłe zdarzenia z wysoką trafnością, zrewolucjonizowałaby niemal każdą dziedzinę naszego życia. To nie jest już kwestia technologicznej ciekawostki, ale fundamentalne pytanie o to, czy maszyny mogą stać się lepszymi strategami niż ludzie. Monitorowanie tych zdolności pozwala nam zrozumieć, w którym punkcie tej rewolucji się znajdujemy.
Czy AI przewidzi przyszłość lepiej niż człowiek? Nowe dane dają odpowiedź
Kiedy sztuczna inteligencja (AI) dorówna najlepszym ludzkim prognostykom w przewidywaniu przyszłości? Niedawno analityk Nate Silver ocenił, że zajmie to 10-15 lat. Ekonomista Tyler Cowen był znacznie większym optymistą, obstawiając zaledwie 1-2 lata. Kto z nich jest bliższy prawdy?
Najnowsza aktualizacja naukowej platformy badawczej, znanej jako ForecastBench, dostarcza twardych danych, które rzucają nowe światło na ten spór. Benchmark ten systematycznie mierzy, jak dobrze duże modele językowe (LLM) radzą sobie z prognozowaniem realnych, przyszłych wydarzeń. Wyniki są jednoznaczne.
Oto kluczowe wnioski z najnowszej analizy:
-
Elitarni ludzcy prognostycy wciąż prowadzą, ale ich przewaga topnieje. Najlepszy model w zestawieniu, GPT-4.5, osiągnął wynik 0,101 w skali Brier, podczas gdy tzw. superprognostycy uzyskali 0,081 (im niższy wynik, tym lepiej).
-
AI już teraz prognozuje lepiej niż przeciętny człowiek. Jeszcze rok temu prognozy ogółu społeczeństwa plasowały się na drugim miejscu w rankingu, tuż za ekspertami. Dziś spadły na 22. pozycję, wyprzedzone przez wiele modeli LLM. To kamień milowy w rozwoju zdolności prognostycznych AI.
-
Postęp AI jest stały i mierzalny, a zrównanie z ekspertami jest na horyzoncie. Wydajność najlepszych modeli LLM poprawia się o około 0,016 punktu Brier rocznie. Prosta ekstrapolacja tego trendu sugeruje, że AI może dorównać ludzkim ekspertom pod koniec 2026 roku.
Jak zmierzyć zdolność AI do prognozowania? Metodologia ForecastBench
Mierzenie zdolności prognostycznych AI jest kluczowe z trzech powodów. Po pierwsze, to potężny test na zdolności rozumowania modelu, wymagający syntezy danych, myślenia przyczynowo-skutkowego i probabilistycznego. Po drugie, ma ogromną wartość praktyczną. Po trzecie, jest to test odporny na oszustwa – przyszłe wydarzenia z definicji nie mogą znajdować się w danych treningowych modelu.
Platforma ForecastBench działa w sposób ciągły i zautomatyzowany. Co dwa tygodnie zadaje modelom AI zestaw pytań prognostycznych, prosząc o określenie prawdopodobieństwa (w procentach) zajścia danego zdarzenia. Pytania dzielą się na dwa typy.
| Typ pytań | Opis | Przykłady pytań (z rundy 28 września 2025) |
| Pytania oparte na danych (Dataset questions) | Generowane automatycznie na podstawie publicznych baz danych (np. ekonomicznych, finansowych, konfliktów zbrojnych). | „Czy Rezerwa Federalna w Cleveland odnotuje wzrost 30-letnich oczekiwań inflacyjnych do 28 września 2026 roku w porównaniu do stanu z 28 września 2025 roku?” |
| Pytania rynkowe (Market questions) | Zaczerpnięte z wiodących platform prognostycznych (np. Metaculus, Polymarket), odzwierciedlające bieżące zainteresowania analityków. | „Czy człowiek postawi stopę na Marsie do 2030 roku?” lub „Czy CDC zgłosi 10 000 lub więcej przypadków ptasiej grypy H5 w USA przed 1 stycznia 2026 roku?” |
Wiarygodność prognoz jest oceniana za pomocą skali Brier. Jest to standardowa metoda oceny prognoz probabilistycznych, gdzie 0 oznacza idealną trafność, a 0,25 to wynik losowego zgadywania (odpowiedź 50% na każde pytanie). Aby umożliwić uczciwe porównanie modeli, które odpowiadały na różne zestawy pytań w różnym czasie, badacze opracowali wynik Brier skorygowany o trudność pytania.
Kluczowe odkrycia: bliżej, niż myślimy
Szczegółowa analiza danych z ForecastBench ujawnia fascynujący obraz wyścigu między człowiekiem a maszyną.
Odkrycie 1: Superprognostycy utrzymują przewagę, ale jest ona niewielka
Różnica 0,02 punktu Brier między GPT-4.5 a superprognostykami wydaje się niewielka. Można ją interpretować na trzy sposoby:
-
Wynik GPT-4.5 jest o 25% gorszy od wyniku ekspertów.
-
W skali od losowego zgadywania (0,25) do perfekcji (0), superprognostycy zredukowali błąd o 68%, a GPT-4.5 o 60%.
-
Różnica 0,02 punktu jest mniejsza niż skok wydajności między GPT-4 a GPT-4.5 (0,03 punktu). Oznacza to, że do zrównania się z ludźmi potrzeba mniej niż jednej generacji rozwoju modelu.
Odkrycie 2: Modele AI odkryły zaskakujący „skrót”
Analiza prognoz rynkowych przyniosła zaskakujące wyniki. GPT-4.5, model z lutego 2025, wciąż radził sobie najlepiej, mimo pojawienia się nowszych systemów. Powód? Gdy w zapytaniu (prompcie) podawano modelom aktualne prognozy z rynków predykcyjnych, wiele z nich – w tym GPT-4.5 – po prostu je kopiowało. Korelacja między prognozami GPT-4.5 a danymi wejściowymi wyniosła 0,994. To skuteczna taktyka, ale niewiele mówi o realnych zdolnościach analitycznych modelu.
Prawdziwy obraz wyłania się z rankingu Baseline, gdzie modele nie otrzymują żadnych zewnętrznych podpowiedzi. Tam postęp jest znacznie szybszy, a wydajność poprawia się w tempie 0,036 punktu Brier rocznie.
Odkrycie 3: Ekstrapolacja wskazuje na przełom w 2026 roku
Stały i mierzalny postęp modeli AI pozwala na ostrożną prognozę. Jeśli obecne tempo zostanie utrzymane, modele LLM zrównają się z superprognostykami pod koniec 2026 roku, z 95% przedziałem ufności obejmującym okres od grudnia 2025 do stycznia 2028.
Ograniczenia i perspektywy
Interpretując te wyniki, należy pamiętać o pewnych ograniczeniach. Po pierwsze, porównania między modelami z różnych okresów opierają się na ekstrapolacji statystycznej, ponieważ nie odpowiadały one na te same pytania. Po drugie, obecne wyniki prawdopodobnie nie odzwierciedlają pełnego potencjału AI, gdyż modele używały prostych zapytań, bez dostępu do bieżących wiadomości czy zaawansowanych technik inżynierii promptów. Po trzecie, benchmark obejmuje obecnie tylko binarne pytania typu „tak/nie”, co ogranicza zakres testowanych zdolności prognostycznych.
Wracając do początkowego pytania – kto miał rację, Silver czy Cowen? Dane z ForecastBench wyraźnie przechylają szalę na stronę Cowena. Przy obecnym tempie rozwoju, zrównanie się AI z ludzkimi ekspertami w ciągu najbliższych dwóch lat jest scenariuszem wysoce prawdopodobnym. Oczywiście, postęp może wyhamować, a ostatni etap okaże się najtrudniejszy. Superprognostycy również mogą poprawić swoje wyniki, m.in. używając AI jako narzędzia.
Niezależnie od ostatecznego terminu, jedno jest pewne: wyścig trwa. Platforma ForecastBench dostarcza empirycznych podstaw do śledzenia jego przebiegu, krok po kroku, w miarę jak zbliżamy się do momentu, w którym AI dorówna, a być może przewyższy, ludzką zdolność do przewidywania przyszłości.
Najczęściej zadawane pytania (FAQ)
-
Kim są „superprognostycy”?
To określenie grupy osób, które w długoterminowych badaniach i turniejach prognostycznych (np. The Good Judgment Project) wykazały ponadprzeciętną i powtarzalną zdolność do trafnego przewidywania przyszłych wydarzeń politycznych, ekonomicznych i społecznych. Charakteryzują się specyficznym stylem myślenia: są otwarci na nowe informacje, myślą probabilistycznie i nieustannie aktualizują swoje przekonania. -
Na czym dokładnie polega skala Brier?
To metoda oceny trafności prognoz, które podają prawdopodobieństwo. Oblicza się ją jako kwadrat różnicy między prognozowanym prawdopodobieństwem (np. 0,7 dla 70%) a faktycznym wynikiem (1, jeśli zdarzenie zaszło; 0, jeśli nie). Niższy wynik oznacza lepszą prognozę. Średnia z wielu takich ocen daje ogólny wynik prognosty. -
Dlaczego kopiowanie prognoz rynkowych przez AI jest problemem?
Ponieważ nie testuje to zdolności modelu do samodzielnego rozumowania i analizy. Zamiast generować własną prognozę na podstawie dostępnej wiedzy, model jedynie powtarza „mądrość tłumu” zawartą w prognozach rynkowych. To skuteczna strategia, ale maskuje prawdziwe możliwości (lub ich brak) w zakresie niezależnej analizy. -
Czy ten postęp oznacza, że analitycy i prognostycy stracą pracę?
Niekoniecznie. Bardziej prawdopodobny scenariusz to zmiana charakteru ich pracy. Zamiast samodzielnie tworzyć prognozy od zera, eksperci będą coraz częściej współpracować z AI, wykorzystując modele jako potężne narzędzie do analizy danych, weryfikacji hipotez i identyfikacji nieoczywistych wzorców. Rola człowieka skupi się na zadawaniu właściwych pytaŃ, interpretacji wyników i ocenie kontekstu, którego AI może nie rozumieć. -
Czy AI mogłaby przewidzieć krach na giełdzie lub pandemię?
Obecne modele są dobre w prognozowaniu na podstawie istniejących, powtarzalnych wzorców w danych (np. inflacja, wyniki sportowe). Przewidywanie tzw. „czarnych łabędzi” – rzadkich, nieprzewidywalnych i skrajnie wpływowych wydarzeń – jest fundamentalnie trudniejsze i prawdopodobnie wykracza poza obecne możliwości AI. Wymagałoby to rozumienia złożonych, nieliniowych interakcji systemowych, a nie tylko ekstrapolacji trendów.
Publikacje wykonane przez nas w podobnej tematyce
-
Poza prognozy binarne: ewaluacja zdolności LLM do przewidywania ciągłych zmiennych ekonomicznych.
-
Synergia czy kanibalizm? Analiza wpływu wykorzystania LLM na wydajność ludzkich superprognostyków.
-
Wykrywanie i mitygacja „skrótów poznawczych” w modelach prognostycznych AI.
-
Zastosowanie teorii gier do modelowania zdolności prognostycznych AI w scenariuszach konfliktów geopolitycznych.
-
Architektura hybrydowych systemów prognostycznych: integracja LLM z modelami ekonometrycznymi.
Pomysł na doktorat
Tytuł: Opracowanie i walidacja benchmarku do oceny zdolności dużych modeli językowych do prognozowania złożonych, wieloczynnikowych zdarzeń systemowych.
Opis: Projekt zakładałby stworzenie nowej metodologii oceny, która wykracza poza proste pytania binarne. Benchmark symulowałby złożone scenariusze (np. kryzys finansowy, eskalacja konfliktu regionalnego) i wymagał od modeli nie tylko prognozy wyniku, ale także identyfikacji kluczowych czynników sprawczych, przewidzenia punktów zwrotnych oraz oceny prawdopodobieństwa kaskadowych efektów ubocznych.