Kod niepewności

Doświadczeni programiści open source spodziewali się, że AI przyspieszy ich pracę. Wyniki najnowszego badania pokazują nieco inna perspektywę – narzędzia oparte na sztucznej inteligencji mogą spowalniać.

Loading the Elevenlabs Text to Speech AudioNative Player…

Na papierze wszystko wyglądało obiecująco. Cursor Pro, Claude 3.5, Claude 3.7 Sonnet – najnowsze narzędzia AI miały zrewolucjonizować pracę doświadczonych programistów. Zespół badawczy METR (Model Evaluation & Threat Research) postanowił sprawdzić, jak wygląda ta rewolucja w praktyce.

Zbyt piękne, by było szybkie

W lipcu 2025 roku opublikowano wyniki precyzyjnie zaprojektowanego eksperymentu: 16 senior developerów, średnio 5 lat doświadczenia w konkretnych repozytoriach, 246 realistycznych zadań, randomizowana próba kontrolowana. Część zadań wykonywana była z pomocą AI, część – bez niej. Przed rozpoczęciem uczestnicy przewidywali, że AI przyspieszy ich pracę o 24%. Po zakończeniu oceniali, że realny zysk wynosi 20%.

Dane mówiły co innego. Czas realizacji z AI był… dłuższy. Średnio o 19%.

Kod nie pisze się sam

143 godziny nagrań ekranów, logi z systemów kontroli wersji, wywiady, ankiety – wszystko to pokazało zaskakującą dynamikę pracy. Zamiast kodować, programiści spędzali więcej czasu na formułowaniu promptów, oczekiwaniu na odpowiedzi i poprawianiu błędów wygenerowanych przez AI. Tylko 44% fragmentów kodu zaakceptowano bez większych modyfikacji. Pozostałe – trzeba było przepisać. A czasem porzucić.

Deweloperzy zderzali się ze ścianą: AI nie radziło sobie z dużymi, skomplikowanymi repozytoriami (średnio ponad milion linii kodu), nie uwzględniało kontekstu projektu, nie znało historii kodu, nie „czuło” architektury. Tam, gdzie ludzie korzystali z wiedzy ukrytej, AI kluczyło.

Nadzieja na drugie podejście

Eksperyment nie był jednak całkowicie pesymistyczny. W przypadku uczestników, którzy mieli za sobą ponad 50 godzin pracy z Cursor Pro, widać było oznaki przyspieszenia. To sugeruje, że doświadczenie z konkretnym narzędziem może mieć kluczowe znaczenie – podobnie jak jego dalszy rozwój. AI nie skompiluje złożonego systemu bez kontekstu, ale może być pomocna, gdy człowiek wie, jak ją okiełznać.

To też mocny sygnał dla twórców benchmarków AI – laboratoria testujące modele muszą wyjść poza syntetyczne dane. Prawdziwa praca programisty to więcej niż „rozwiąż zadanie X”: to znajomość kodu, współpraca z innymi, przeszłość repozytorium i tysiące drobnych decyzji, których nie da się zasymulować.

Wnioski: mniej magii, więcej realizmu

Badanie METR pokazuje, że entuzjazm wokół AI warto temperować empirycznymi danymi. W dojrzałym środowisku open source, gdzie kod to nie tylko ciąg instrukcji, ale też historia i kultura – AI może być balastem. Może być też potencjałem, ale pod warunkiem, że potraktujemy ją nie jak czarodzieja, ale jak narzędzie. I nauczymy się z niej korzystać z równie dużą precyzją, z jaką debugujemy kod.

Podziel się

Może Cię zainteresować