Metoda spadku gradientu

Większość współcześnie stosowanych algorytmów uczenia maszynowego trenuje się na przykładach uczących, na podstawie których algorytm stara się wykryć zależności (wzorce) w danych pozwalające na wykonywanie określonych zadań.

Norbert Ryciak

8 lis 2024

W szczególności modele językowe to narzędzia oparte na sztucznych sieciach neuronowych, które, mówiąc w uproszczeniu, zostały nauczone, jak generować tekst. Uczenie takich sieci polega na znajdowaniu konkretnych liczb – wartości wag (parametrów) przypisanych do połączeń pomiędzy jej neuronami, dla których jakość wygenerowanych tekstów, mierzona pewną funkcją straty (zob. artykuł Funkcja straty w nr 1 „hAI Magazine”), jest możliwie największa. Jak znaleźć odpowiednie wartości? Czyli jak optymalizować tę funkcję straty? No i tu kłania się metoda spadku gradientu, która jest fundamentem uczenia współczesnych sztucznych sieci neuronowych.

Pochodna

Pochodna funkcji opisuje jej zmienność, a precyzując: pochodna w konkretnym punkcie to wielkość opisująca nachylenie wykresu funkcji w tym punkcie. Abstrahując od formalnego wzoru, pochodną najłatwiej opisać geometrycznie. Jeżeli spojrzymy na wykres rozważanej funkcji, to pytanie, na które musimy odpowiedzieć, brzmi: jak opisać nachylenie tej linii (tego wykresu) w konkretnym punkcie? Aby na nie odpowiedzieć, posłużymy się linią prostą stykającą się z wykresem funkcji w danym punkcie, którą nazywa się po prostu „styczną”. Wówczas nachylenie tej prostej odzwierciedla nachylenie całego wykresu w tym konkretnym punkcie styku i jest to po prostu współczynnik kierunkowy tej linii (w równaniu funkcji = ax+b jest to opisane literą „a”).

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Zaloguj Pakiety

Norbert Ryciak

Data scientist z zawodu, pasji i wykształcenia. Lubi dzielić się wiedzą i angażuje się w różnorodne formy nauczania

Podziel się

Może Cię zainteresować

Norbert Ryciak

Sieci neuronowe od podstaw

Sztuczna inteligencja jaka jest, każdy widzi. Rzadko kiedy zastanawiamy się jednak, jak naprawdę działa.

31.03
Norbert Ryciak

Współczynniki to potęgi klucz, czyli czym jest wiedza algorytmów AI

Wzory matematyczne wykorzystuje się do opisywania świata w różnych jego kontekstach. Mogą one opisywać prawa fizyczne, które rządzą naszą przestrzenią, mechanizmy ekonomiczne, a w pewnych aspektach nawet stan zdrowia (np. wzór na…

17.12
Norbert Ryciak

Funkcja straty

Co oznacza, jak działa i dlaczego jest tak ważna w uczeniu modeli?

29.08

Metoda spadku gradientu

Pochodna

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Podziel się

Podziel się

Może Cię zainteresować

Sieci neuronowe od podstaw

Współczynniki to potęgi klucz, czyli czym jest wiedza algorytmów AI

Funkcja straty