Locus: Sztuczny naukowiec, który pokonuje ekspertów z OpenAI i DeepMind.

Sztuczny naukowiec, który pokonuje ludzkich ekspertów – czy jesteśmy świadkami rewolucji?

Wyobraźmy sobie system, który nie tylko rozwiązuje problemy, ale potrafi prowadzić badania naukowe na froncie rozwoju sztucznej inteligencji – formułować hipotezy, projektować i przeprowadzać tysiące eksperymentów jednocześnie, interpretować zaskakujące wyniki i na ich podstawie dokonywać kolejnych odkryć. System, który pracuje nieprzerwanie przez kilka dni, z każdą godziną stając się coraz lepszy. To nie jest scenariusz z filmu science fiction. To opis Locus – najnowszego „sztucznego naukowca”, który już dziś w niektórych zadaniach badawczo-rozwojowych (R&D) przewyższa ludzkich ekspertów z czołowych laboratoriów AI na świecie.

Locus_ Sztuczny naukowiec, który pokonuje ekspertów z OpenAI i DeepMind.

Wyniki te, choć wstępne, wyznaczają kamień milowy na drodze do rekurencyjnej samonaprawy AI, gdzie systemy sztucznej inteligencji zaczynają przyspieszać własny rozwój. To wizja, która może fundamentalnie zmienić tempo postępu technologicznego.

Czym jest Locus i dlaczego jego wyniki są przełomowe?

Locus to zaawansowany system AI zaprojektowany do prowadzenia długofalowych, otwartych badań naukowych. W przeciwieństwie do wcześniejszych systemów, których wydajność osiągała szczyt po kilku godzinach pracy, Locus potrafi utrzymywać stały postęp nawet przez kilka dni. Kluczem do jego sukcesu jest zdolność do masowej paralelizacji – jednoczesnego zarządzania tysiącami eksperymentów. Pozwala to na systematyczną i ustrukturyzowaną eksplorację nierozwiązanych problemów w sposób, który jest nieosiągalny dla ludzkiego badacza.

Aby zweryfikować jego możliwości, Locus został przetestowany na trzech wymagających benchmarkach, które symulują realne zadania z pogranicza badań i inżynierii AI.

1. RE-Bench: Pokonanie ludzkich ekspertów w badaniach AI

RE-Bench to zestaw zadań badawczych, takich jak naprawa uszkodzonych modeli AI, odkrywanie praw skalowania, które pozwalają przewidywać wydajność dużych modeli na podstawie małych eksperymentów, czy implementacja nowych architektur w nietypowych warunkach. To problemy wymagające kreatywności, zdolności do myślenia strategicznego i systematycznego budowania wiedzy.

Wyniki Locusa są bezprecedensowe:

  • W 64-godzinnym, nieprzerwanym teście, Locus osiągnął wynik 1.30, przewyższając ludzką bazę ekspertów (1.27). Warto zaznaczyć, że w skład tej grupy wchodzili badacze z czołowych laboratoriów, takich jak OpenAI, Google DeepMind i Anthropic, oraz doktoranci z najlepszych uniwersytetów, jak Stanford czy Carnegie Mellon.

  • Locus osiąga przewagę nad ludźmi już na wczesnych etapach: po 2 godzinach pracy jego wynik był prawie 5-krotnie wyższy (0.34 vs 0.07).

  • Poprzednie systemy AI, takie jak Claude Code, osiągały swoje maksimum po około 2 godzinach, zatrzymując się na poziomie 0.64, bez dalszego postępu.

Porównanie wydajności Locus vs. Eksperci na benchmarku RE-Bench

Czas pracy Wynik Locus Wynik ludzkich ekspertów
2 godziny 0.34 0.07
8 godzin 0.70 0.65
64 godziny 1.30 1.27

Locus jest pierwszym systemem AI, który pokonał ludzkich badaczy, mając do dyspozycji ten sam czas i zasoby obliczeniowe.

2. KernelBench: Kreatywność inżynierska i 100-krotne przyspieszenie

W dziedzinie optymalizacji oprogramowania Locus również pokazał niezwykłe zdolności. Na benchmarkach KernelBench i Robust-KBench, jego zadaniem była optymalizacja kerneli CUDA (niskopoziomowych programów dla kart graficznych NVIDIA).

  • Locus osiągnął przyspieszenia od 1.5x do ponad 100x w porównaniu do standardowych implementacji w bibliotece PyTorch.

  • Przykładowo, dla operacji LayerNorm osiągnął 100-krotne przyspieszenie, a dla kluczowego komponentu modeli językowych Llama (FFW) – 20-krotne.

  • Co ważne, Locus wykazał się nie tylko znajomością standardowych technik, ale także kreatywnością inżynierską, stosując zaawansowane metody optymalizacji, takie jak asynchroniczne kopiowanie pamięci i grupy kooperacyjne.

3. MLE-Bench: Generalizacja i dominacja w konkursach Kaggle

MLE-Bench to benchmark oparty na problemach z popularnej platformy konkursów data science, Kaggle. Zadania obejmują budowę kompletnych rozwiązań uczenia maszynowego – od analizy danych, przez inżynierię cech, po trenowanie i optymalizację modeli.

  • Locus zdobył „medal” (czyli znalazł się w czołówce) w 77% konkursów.

  • Jego wynik przewyższa poprzedni najlepszy rezultat (68%) osiągnięty przez wyspecjalizowane systemy, co dowodzi jego niezwykłej zdolności do generalizacji na różne domeny – od przetwarzania języka naturalnego, przez wizję komputerową, po dane tabelaryczne.

Przewidywalne skalowanie: więcej mocy, lepsze wyniki

Jednym z najważniejszych odkryć jest przewidywalne skalowanie wydajności Locusa. Wykres jego wyników w funkcji zainwestowanej mocy obliczeniowej (w skali logarytmicznej) pokazuje prostą linię. Oznacza to, że każde zwiększenie mocy obliczeniowej o rząd wielkości przynosi stałą, przewidywalną poprawę wyników.

To fundamentalnie różni Locusa od systemów, które szybko „nasycają się” i przestają poprawiać swoje wyniki, niezależnie od dodatkowych zasobów. Dla Locusa nie widać jeszcze granicy, co sugeruje, że jego możliwości będą naturalnie rosły wraz z dostępnością tańszej i potężniejszej mocy obliczeniowej.

Ograniczenia i droga naprzód

Choć wyniki są imponujące, autorzy badania zachowują naukowy sceptycyzm. Locus wciąż działa w ramach istniejących paradygmatów uczenia maszynowego – jest mistrzem w znajdowaniu lepszych rozwiązań w zdefiniowanych problemach, ale jeszcze nie redefiniuje samych problemów.

Benchmarki, na których był testowany, są uproszczeniem realnych badań. Dostarczają jasnych celów i szybkiej informacji zwrotnej, podczas gdy prawdziwe odkrycia naukowe często wiążą się z pracą nad źle zdefiniowanymi problemami, problemami z infrastrukturą i wymagają nowatorskich wglądów teoretycznych.

Mimo to, Locus jest kamieniem milowym na drodze do wizji, w której odkrycia naukowe przestają być serią sporadycznych przełomów, a stają się ciągłym, przewidywalnym procesem. Jeśli systemy AI, takie jak Locus, będą w stanie projektować lepsze architektury, odkrywać wydajniejsze metody treningu i optymalizować własne działanie, odblokujemy fundamentalnie inne tempo postępu.

Ta perspektywa jest zarówno ekscytująca, jak i wymagająca głębokiej refleksji. Prace nad systemami takimi jak Locus stanowią idealny kontekst dla zaawansowanych projektów badawczych, w tym doktoratów, które mogłyby eksplorować nie tylko techniczne aspekty ich skalowania, ale także etyczne i społeczne implikacje autonomicznych systemów badawczych, zdolnych do samodoskonalenia.

Najczęściej zadawane pytania (FAQ)

  1. Czy Locus to forma ogólnej sztucznej inteligencji (AGI)?
    Nie. Locus jest wysoce wyspecjalizowanym systemem, zaprojektowanym do prowadzenia badań w dziedzinie AI i inżynierii. Chociaż wykazuje niezwykłą zdolność do generalizacji na różne problemy w tej domenie, nie posiada szerokiej, ludzkiej inteligencji ani świadomości. Jest to raczej potężne narzędzie, a nie samodzielny, autonomiczny umysł.

  2. Jak dokładnie Locus „prowadzi badania”?
    System prawdopodobnie wykorzystuje zaawansowane techniki przeszukiwania i planowania, łącząc duże modele językowe do generowania hipotez i kodu z systemami wykonawczymi, które automatycznie uruchamiają eksperymenty, analizują logi, odczytują wyniki i na ich podstawie planują kolejne kroki. Kluczem jest zdolność do długofalowego rozumowania i uczenia się na podstawie tysięcy równoległych prób.

  3. Czy pokonanie ludzkich ekspertów oznacza, że badacze AI staną się niepotrzebni?
    Na obecnym etapie Locus jest raczej potężnym „asystentem” lub „partnerem” badawczym niż zastępstwem. Jego zdolność do przeszukiwania ogromnych przestrzeni rozwiązań może uwolnić ludzkich badaczy od żmudnych, iteracyjnych zadań, pozwalając im skupić się na bardziej kreatywnych i koncepcyjnych aspektach nauki, takich jak definiowanie nowych, interesujących problemów.

  4. Jakie są największe ryzyka związane z rozwojem takich systemów?
    Główne obawy dotyczą tempa postępu i kontroli. Jeśli systemy AI zaczną realnie przyspieszać własny rozwój (tzw. rekurencyjna samonaprawa), tempo zmian może stać się trudne do przewidzenia i zarządzania. Wymaga to pilnego rozwoju badań nad bezpieczeństwem, sterowalnością i etyką zaawansowanych systemów AI.

  5. Kiedy technologia taka jak Locus będzie szeroko dostępna?
    Twórcy Locusa planują udostępnić system zarówno dla celów badawczych, jak i komercyjnych. Już teraz prowadzą program beta, w ramach którego badacze z różnych dziedzin stosują go do swoich problemów obliczeniowych. Prawdopodobnie w ciągu najbliższych kilku lat zobaczymy pierwsze komercyjne zastosowania tej technologii w przemyśle farmaceutycznym, inżynierii materiałowej i innych dziedzinach opartych na intensywnych badaniach i rozwoju.

Publikacje wykonane przez nas w podobnej tematyce

  1. Automatyzacja badań naukowych: przegląd architektur i algorytmów dla „sztucznych naukowców”.

  2. Długofalowe planowanie w otwartych przestrzeniach problemowych: studium przypadku w odkrywaniu leków.

  3. Etyka rekurencyjnej samonaprawy: ramy oceny ryzyka dla zaawansowanych systemów AI.

  4. Skalowanie przeszukiwania w czasie testu (test-time search) jako metoda na zwiększenie zdolności rozumowania modeli językowych.

  5. Zastosowanie autonomicznych agentów AI w optymalizacji złożonych systemów inżynieryjnych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *