Anthropic prezentuje Claude Sonnet 4.5

Anthropic wprowadza Claude Sonnet 4.5, model AI, który ma nie tylko pisać kod, ale tworzyć całe aplikacje. Firma chwali się rekordowymi wynikami i udostępnia deweloperom nowe narzędzia.

Karolina Ceroń

1 paź 2025

Firma Anthropic zaprezentowała swój najnowszy model – Claude Sonnet 4.5. Według zapowiedzi ma on wyznaczać nowy standard w zadaniach związanych z programowaniem, przechodząc od roli asystenta do autonomicznego narzędzia zdolnego tworzyć gotowe do wdrożenia aplikacje. Premiera odbywa się w momencie rosnącej konkurencji, zwłaszcza ze strony OpenAI, i jest odpowiedzią na rosnące wymagania osób programujących oraz firm technologicznych.

Wydajność w praktyce. Co potrafi Sonnet 4.5?

Głównym argumentem Anthropic ma być surowa wydajność. Firma informuje, że Sonnet 4.5 osiąga czołowe wyniki w benchmarku SWE-Bench Verified, który mierzy zdolność AI do rozwiązywania realnych problemów programistycznych.

Przedstawiciele firmy, jak badacz David Hershey, podkreślają jednak, że testy nie oddają pełni możliwości modelu. W trakcie wewnętrznych prób Sonnet 4.5 miał pracować autonomicznie nad jednym, złożonym zadaniem przez ponad 30 godzin. W tym czasie nie tylko napisał kod aplikacji, ale również skonfigurował niezbędne bazy danych, zakupił domenę i przeprowadził audyt bezpieczeństwa SOC 2.

Takie zdolności mają bezpośrednie przełożenie na biznes. Pierwsi partnerzy, którzy mieli dostęp do modelu, potwierdzają jego potencjał. Michael Truell, CEO firmy Cursor, ocenia, że Sonnet 4.5 zapewnia „najwyższy poziom wydajności w kodowaniu, zwłaszcza przy długotrwałych zadaniach”. Podobne zdanie wyraża Jeff Wang z Windsurf, nazywając go „nową generacją modeli do programowania”.

Szersze horyzonty: nie tylko dla programistów

Zdolności modelu nie ograniczają się do kodu. Anthropic wskazuje na znaczący postęp w zakresie rozumowania logicznego i matematyki. Co więcej, z wczesnych testów z udziałem ekspertów z dziedzin takich jak finanse, prawo, medycyna czy nauki ścisłe (STEM) wynika, że Sonnet 4.5 wykazuje znacznie lepszą wiedzę dziedzinową i zdolności analityczne w porównaniu do poprzednich wersji. To sygnalizuje ambicje firmy, by stworzyć narzędzie o wszechstronnym zastosowaniu w różnych sektorach profesjonalnych.

Ekosystem narzędzi dla deweloperów

Wraz z premierą modelu, Anthropic udostępnia pakiet narzędzi, który ma ułatwić tworzenie zaawansowanych rozwiązań. Centralnym punktem jest Claude Agent SDK, czyli zestaw do budowy własnych, autonomicznych agentów AI. Firma przekonuje, że to ta sama infrastruktura, która napędza jej flagowe produkty.

Aktualizacji doczekały się także istniejące usługi. W środowisku Claude Code wprowadzono funkcję punktów kontrolnych (checkpoints), pozwalającą zapisywać stan pracy i cofać zmiany. Pojawiło się także oficjalne rozszerzenie do edytora VS Code oraz opcja tworzenia plików biurowych – arkuszy, dokumentów i prezentacji – bezpośrednio w oknie czatu.

Kwestia bezpieczeństwa i kontroli

Anthropic podkreśla, że Sonnet 4.5 jest ich „najlepiej dostrojonym” modelem pod kątem bezpieczeństwa. Firma twierdzi, że udało się znacznie zredukować niepożądane zachowania, takie jak generowanie fałszywych informacji, tendencje do oszukiwania czy uleganie szkodliwym poleceniom. Zwiększono także odporność na ataki typu „prompt injection”, co jest bardzo istotne w kontekście tworzenia bezpiecznych aplikacji. Poniższe dane pokazują, jak model wypada na tle konkurencji pod względem tzw. „niepożądanych zachowań”.

Model funkcjonuje w ramach firmowych standardów bezpieczeństwa ASL-3 (AI Safety Level 3). Oznacza to, że wbudowane filtry starają się blokować próby generowania treści niebezpiecznych, np. związanych z bronią masowego rażenia. Anthropic przyznaje, że mechanizm nie jest doskonały i może prowadzić do błędnego oflagowania bezpiecznych zapytań, ale zapewnia, że liczba fałszywych alarmów została dziesięciokrotnie zredukowana od czasu wprowadzenia tej technologii.

Podsumowując, premiera Claude Sonnet 4.5 to strategiczne posunięcie Anthropic w zaciętym wyścigu technologicznym. Firma nie tylko prezentuje narzędzie o imponujących, zweryfikowanych w testach możliwościach, ale również stara się budować wokół niego cały ekosystem, jednocześnie głośno komunikując swoje podejście do kwestii bezpieczeństwa. Utrzymanie cen na dotychczasowym poziomie może być czynnikiem, który przyciągnie deweloperów i firmy szukające wydajnej, ale przewidywalnej kosztowo alternatywy. Najbliższe miesiące pokażą, czy Sonnet 4.5 faktycznie stanie się pierwszym wyborem dla profesjonalistów z branży IT.

Karolina Ceroń

Współtwórczyni newslettera AI Flash, studentka psychologii i pasjonatka sztucznej inteligencji. Interesuję się wpływem nowych technologii na człowieka, a w wolnych chwilach eksperymentuję z generatywną grafiką w Midjourney.

Podziel się

AI, Anthropic, claude

Podziel się

Może Cię zainteresować

Karolina Ceroń

Premiera GPT-5.2. Nowa seria modeli do zadań specjalnych

OpenAI udostępnia serię GPT-5.2, stworzoną z myślą o profesjonalnej pracy. Według deklaracji twórców, nowe modele mają lepiej radzić sobie z kodowaniem, analizą danych i długimi dokumentami, popełniając przy tym znacznie mniej błędów.

12.12
Karolina Ceroń

Mistral 3: Premiera nowej generacji modeli open-weight

Mistral AI prezentuje rodzinę modeli Mistral 3. Obejmuje ona wariant Large w architekturze MoE oraz serię Ministral na urządzenia lokalne. Wszystkie modele udostępniono na licencji Apache 2.0.

04.12
Karolina Ceroń

Claude Opus 4.5 : nowa jakość w kodowaniu?

Anthropic prezentuje Opus 4.5 – model, który ma przewyższać inżynierów w testach technicznych, kosztując przy tym ułamek ceny poprzednika.

27.11
Karolina Ceroń

Nano Banana Pro: Precyzja, tekst i weryfikacja

Google wprowadza Nano Banana Pro – model oparty na architekturze Gemini 3 Pro. Nowe rozwiązanie oferuje zaawansowaną obsługę tekstu, kontrolę nad oświetleniem oraz wbudowaną weryfikację SynthID.

21.11