Twój koszyk jest obecnie pusty!
W szczególności modele językowe to narzędzia oparte na sztucznych sieciach neuronowych, które, mówiąc w uproszczeniu, zostały nauczone, jak generować tekst. Uczenie takich sieci polega na znajdowaniu konkretnych liczb – wartości wag (parametrów) przypisanych do połączeń pomiędzy jej neuronami, dla których jakość wygenerowanych tekstów, mierzona pewną funkcją straty (zob. artykuł Funkcja straty w nr 1 „hAI Magazine”), jest możliwie największa. Jak znaleźć odpowiednie wartości? Czyli jak optymalizować tę funkcję straty? No i tu kłania się metoda spadku gradientu, która jest fundamentem uczenia współczesnych sztucznych sieci neuronowych.
Pochodna
Pochodna funkcji opisuje jej zmienność, a precyzując: pochodna w konkretnym punkcie to wielkość opisująca nachylenie wykresu funkcji w tym punkcie. Abstrahując od formalnego wzoru, pochodną najłatwiej opisać geometrycznie. Jeżeli spojrzymy na wykres rozważanej funkcji, to pytanie, na które musimy odpowiedzieć, brzmi: jak opisać nachylenie tej linii (tego wykresu) w konkretnym punkcie? Aby na nie odpowiedzieć, posłużymy się linią prostą stykającą się z wykresem funkcji w danym punkcie, którą nazywa się po prostu „styczną”. Wówczas nachylenie tej prostej odzwierciedla nachylenie całego wykresu w tym konkretnym punkcie styku i jest to po prostu współczynnik kierunkowy tej linii (w równaniu funkcji = ax+b jest to opisane literą „a”).