Twój koszyk jest obecnie pusty!
Firma Anthropic zaprezentowała swój najnowszy model – Claude Sonnet 4.5. Według zapowiedzi ma on wyznaczać nowy standard w zadaniach związanych z programowaniem, przechodząc od roli asystenta do autonomicznego narzędzia zdolnego tworzyć gotowe do wdrożenia aplikacje. Premiera odbywa się w momencie rosnącej konkurencji, zwłaszcza ze strony OpenAI, i jest odpowiedzią na rosnące wymagania osób programujących oraz firm technologicznych.
Wydajność w praktyce. Co potrafi Sonnet 4.5?
Głównym argumentem Anthropic ma być surowa wydajność. Firma informuje, że Sonnet 4.5 osiąga czołowe wyniki w benchmarku SWE-Bench Verified, który mierzy zdolność AI do rozwiązywania realnych problemów programistycznych.

Przedstawiciele firmy, jak badacz David Hershey, podkreślają jednak, że testy nie oddają pełni możliwości modelu. W trakcie wewnętrznych prób Sonnet 4.5 miał pracować autonomicznie nad jednym, złożonym zadaniem przez ponad 30 godzin. W tym czasie nie tylko napisał kod aplikacji, ale również skonfigurował niezbędne bazy danych, zakupił domenę i przeprowadził audyt bezpieczeństwa SOC 2.
Takie zdolności mają bezpośrednie przełożenie na biznes. Pierwsi partnerzy, którzy mieli dostęp do modelu, potwierdzają jego potencjał. Michael Truell, CEO firmy Cursor, ocenia, że Sonnet 4.5 zapewnia „najwyższy poziom wydajności w kodowaniu, zwłaszcza przy długotrwałych zadaniach”. Podobne zdanie wyraża Jeff Wang z Windsurf, nazywając go „nową generacją modeli do programowania”.
Szersze horyzonty: nie tylko dla programistów
Zdolności modelu nie ograniczają się do kodu. Anthropic wskazuje na znaczący postęp w zakresie rozumowania logicznego i matematyki. Co więcej, z wczesnych testów z udziałem ekspertów z dziedzin takich jak finanse, prawo, medycyna czy nauki ścisłe (STEM) wynika, że Sonnet 4.5 wykazuje znacznie lepszą wiedzę dziedzinową i zdolności analityczne w porównaniu do poprzednich wersji. To sygnalizuje ambicje firmy, by stworzyć narzędzie o wszechstronnym zastosowaniu w różnych sektorach profesjonalnych.
Ekosystem narzędzi dla deweloperów
Wraz z premierą modelu, Anthropic udostępnia pakiet narzędzi, który ma ułatwić tworzenie zaawansowanych rozwiązań. Centralnym punktem jest Claude Agent SDK, czyli zestaw do budowy własnych, autonomicznych agentów AI. Firma przekonuje, że to ta sama infrastruktura, która napędza jej flagowe produkty.
Aktualizacji doczekały się także istniejące usługi. W środowisku Claude Code wprowadzono funkcję punktów kontrolnych (checkpoints), pozwalającą zapisywać stan pracy i cofać zmiany. Pojawiło się także oficjalne rozszerzenie do edytora VS Code oraz opcja tworzenia plików biurowych – arkuszy, dokumentów i prezentacji – bezpośrednio w oknie czatu.
Kwestia bezpieczeństwa i kontroli
Anthropic podkreśla, że Sonnet 4.5 jest ich „najlepiej dostrojonym” modelem pod kątem bezpieczeństwa. Firma twierdzi, że udało się znacznie zredukować niepożądane zachowania, takie jak generowanie fałszywych informacji, tendencje do oszukiwania czy uleganie szkodliwym poleceniom. Zwiększono także odporność na ataki typu „prompt injection”, co jest bardzo istotne w kontekście tworzenia bezpiecznych aplikacji. Poniższe dane pokazują, jak model wypada na tle konkurencji pod względem tzw. „niepożądanych zachowań”.

Model funkcjonuje w ramach firmowych standardów bezpieczeństwa ASL-3 (AI Safety Level 3). Oznacza to, że wbudowane filtry starają się blokować próby generowania treści niebezpiecznych, np. związanych z bronią masowego rażenia. Anthropic przyznaje, że mechanizm nie jest doskonały i może prowadzić do błędnego oflagowania bezpiecznych zapytań, ale zapewnia, że liczba fałszywych alarmów została dziesięciokrotnie zredukowana od czasu wprowadzenia tej technologii.
Podsumowując, premiera Claude Sonnet 4.5 to strategiczne posunięcie Anthropic w zaciętym wyścigu technologicznym. Firma nie tylko prezentuje narzędzie o imponujących, zweryfikowanych w testach możliwościach, ale również stara się budować wokół niego cały ekosystem, jednocześnie głośno komunikując swoje podejście do kwestii bezpieczeństwa. Utrzymanie cen na dotychczasowym poziomie może być czynnikiem, który przyciągnie deweloperów i firmy szukające wydajnej, ale przewidywalnej kosztowo alternatywy. Najbliższe miesiące pokażą, czy Sonnet 4.5 faktycznie stanie się pierwszym wyborem dla profesjonalistów z branży IT.