Rekordy na ARC-AGI i FrontierMath: co naprawdę potrafią GPT-5 Pro i Gemini 2.5 Deep Think?

Rekordy na ARC-AGI i FrontierMath: co naprawdę potrafią GPT-5 Pro i Gemini 2.5 Deep Think?

Dwie świeże informacje przestawiają wskazówkę na kompasie „rozumowania przez modele” w praktyce: GPT-5 Pro zajmuje pierwsze miejsce w zweryfikowanym rankingu ARC-AGI (semi-private). (ARC Prize) Gemini 2.5 Deep Think ustanawia nowy rekord na FrontierMath w zakresach Tiers 1–3 oraz — w … Continue reading