🔒 DeepSeek – przyczajony tygrys

Najnowszy model DeepSeek oferuje zaawansowane możliwości rozumowania, porównywalne z czołowymi modelami, takimi jak GPT-4, przy znacznie niższych kosztach i mniejszym zużyciu zasobów obliczeniowych.

Loading the Elevenlabs Text to Speech AudioNative Player…

DeepSeek to chińska firma, która niedawno opublikowała serię modeli językowych w wersji open-source, w tym model DeepSeek-V3 oraz dwie wersje modelu ukierunkowanego na rozumowanie: DeepSeek-R1-Zero (trenowany wyłącznie poprzez uczenie ze wzmocnieniem) oraz DeepSeek-R1 (który wykorzystuje wieloetapowe podejście do treningu). I choć codziennie gdzieś na świecie publikuje się nowe modele, to właśnie ten konkretny zestaw na chwilę dosłownie wstrząsnął światem technologii i biznesu i to tak, że zawrzało na giełdzie. Dlaczego?

Oryginalny schemat z artykułu o DeepSeek-V3

Transformer z… twistem?

Architektura DeepSeek bazuje na klasycznej architekturze typu transformer (omówionej szczegółowo w „hAI Magazine” nr 1/2024), z tą kluczową różnicą, że standardowe warstwy feed-forward zostały zastąpione warstwami MoE (Mixture of Experts). W warstwach MoE zamiast jednej sieci feed-forward, mamy zestaw ekspertów (również sieci feed-forward) oraz zaawansowany system ich wyboru, który decyduje, którzy eksperci będą przetwarzać dany token. Takie podejście pozwala modelowi osiągać wyniki porównywalne z wiodącymi modelami zamkniętymi, przy równoczesnym zachowaniu efektywności obliczeniowej.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Autorka zbiorów danych, prac naukowych i publikacji, Senior AI Engineer w start-upie Chaptr. Pracę doktorską na temat wykrywania i zmniejszania wpływu błędów w danych i modelach AI obroniła na Politechnice Gdańskiej. W wolnym czasie organizatorka, aktywnie udziela się w środowisku naukowym – prowadzi m.in. projekty AI4Good.

Podziel się

Może Cię zainteresować