🔒 Metoda spadku gradientu

Większość współcześnie stosowanych algorytmów uczenia maszynowego trenuje się na przykładach uczących, na podstawie których algorytm stara się wykryć zależności (wzorce) w danych pozwalające na wykonywanie określonych zadań.

W szczególności modele językowe to narzędzia oparte na sztucznych sieciach neuronowych, które, mówiąc w uproszczeniu, zostały nauczone, jak generować tekst. Uczenie takich sieci polega na znajdowaniu konkretnych liczb – wartości wag (parametrów) przypisanych do połączeń pomiędzy jej neuronami, dla których jakość wygenerowanych tekstów, mierzona pewną funkcją straty (zob. artykuł Funkcja straty w nr 1 „hAI Magazine”), jest możliwie największa. Jak znaleźć odpowiednie wartości? Czyli jak optymalizować tę funkcję straty? No i tu kłania się metoda spadku gradientu, która jest fundamentem uczenia współczesnych sztucznych sieci neuronowych.

Pochodna

Pochodna funkcji opisuje jej zmienność, a precyzując: pochodna w konkretnym punkcie to wielkość opisująca nachylenie wykresu funkcji w tym punkcie. Abstrahując od formalnego wzoru, pochodną najłatwiej opisać geometrycznie. Jeżeli spojrzymy na wykres rozważanej funkcji, to pytanie, na które musimy odpowiedzieć, brzmi: jak opisać nachylenie tej linii (tego wykresu) w konkretnym punkcie? Aby na nie odpowiedzieć, posłużymy się linią prostą stykającą się z wykresem funkcji w danym punkcie, którą nazywa się po prostu „styczną”. Wówczas nachylenie tej prostej odzwierciedla nachylenie całego wykresu w tym konkretnym punkcie styku i jest to po prostu współczynnik kierunkowy tej linii (w równaniu funkcji = ax+b jest to opisane literą „a”).

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Norbert Ryciak

Data scientist z zawodu, pasji i wykształcenia. Lubi dzielić się wiedzą i angażuje się w różnorodne formy nauczania

Podziel się

Może Cię zainteresować