{"id":9450,"date":"2025-03-31T10:00:00","date_gmt":"2025-03-31T08:00:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=9450"},"modified":"2025-06-18T10:35:23","modified_gmt":"2025-06-18T08:35:23","slug":"jak-rozsuplac-neurony-czyli-co-sie-kryje-w-duzych-modelach-jezykowych","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/numer-4\/jak-rozsuplac-neurony-czyli-co-sie-kryje-w-duzych-modelach-jezykowych\/","title":{"rendered":"\ud83d\udd12 Jak rozsup\u0142a\u0107 neurony? Czyli co si\u0119 kryje w du\u017cych modelach j\u0119zykowych"},"content":{"rendered":"<p class=\"wp-block-paragraph\">Na \u0142amach \u201ehAI Magazine\u201d (nr 3\/2024) Micha\u0142 Karpowicz wyja\u015bnia\u0142 hipotez\u0119 superpozycji w sieciach neuronowych. W uproszczeniu zak\u0142ada ona, \u017ce neurony w takich modelach s\u0105 cz\u0119sto <strong>polisemantyczne <\/strong>(wieloznaczne) \u2013 nie odpowiadaj\u0105 za jeden konkretny koncept, lecz za wiele jednocze\u015bnie. Dlaczego tak si\u0119 dzieje? Liczba koncept\u00f3w, kt\u00f3re model musi \u201ezrozumie\u0107\u201d podczas realizacji zadania, znacznie przewy\u017csza liczb\u0119 dost\u0119pnych neuron\u00f3w. W efekcie neurony odgrywaj\u0105 rol\u0119 \u201ewielozadaniowych\u201d jednostek, co sprawia, \u017ce ich interpretacja staje si\u0119 wyj\u0105tkowo trudna. Ka\u017cdy neuron bierze udzia\u0142 w przetwarzaniu wielu nak\u0142adaj\u0105cych si\u0119 na siebie w\u0105tk\u00f3w, tworz\u0105c swoist\u0105 \u201esie\u0107 spl\u0105tania\u201d koncept\u00f3w i znacze\u0144.<\/p><p class=\"wp-block-paragraph\">Badacze opracowali metod\u0119 umo\u017cliwiaj\u0105c\u0105 rozpl\u0105tywanie tych ukrytych w neuronach zale\u017cno\u015bci. Wykorzystali do tego rzadkie autoenkodery (<em>sparse autoencoders, <\/em>SAE). Co ciekawe, takie modele nie s\u0105 nowe \u2013 pojawi\u0142y si\u0119 w \u015bwiecie uczenia maszynowego ju\u017c znacznie wcze\u015bniej, ale w\u00f3wczas nie zyska\u0142y wi\u0119kszej popularno\u015bci. Dopiero niedawno, po tym, jak wykorzystano je do analizy modeli j\u0119zykowych, badacze zn\u00f3w si\u0119 nimi zainteresowali. To doskona\u0142y przyk\u0142ad na to, \u017ce stare metody mog\u0105 powr\u00f3ci\u0107 do \u0142ask, je\u015bli znajdzie si\u0119 dla nich nowe, praktyczne zastosowanie.&nbsp;<\/p><h4 class=\"wp-block-heading\"><strong>Czym s\u0105 rzadkie autoenkodery?<\/strong>&nbsp;<\/h4><p class=\"wp-block-paragraph\">Autoenkodery najcz\u0119\u015bciej kojarzone s\u0105 z technikami pretreningu sieci neuronowych. Podstawow\u0105 funkcj\u0105 autoenkodera jest kompresja danych wej\u015bciowych w enkoderze i ich p\u00f3\u017aniejsze odtworzenie za pomoc\u0105 dekodera. Kluczowe w tym procesie jest zachowanie wszystkich istotnych informacji w skompresowanej reprezentacji. Aby to osi\u0105gn\u0105\u0107, klasyczne autoenkodery maj\u0105 tzw. przew\u0119\u017cenie (<em>bottleneck<\/em>) \u2013 \u201ew\u0105skie gard\u0142o\u201d mi\u0119dzy enkoderem a dekoderem, kt\u00f3re wymusza minimaln\u0105 pod wzgl\u0119dem liczby cech, ale informacyjnie bogat\u0105 reprezentacj\u0119 danych.<\/p><p class=\"has-text-align-center wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"384\" class=\"wp-image-9868\" style=\"width: 600px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/139_2.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/139_2.png 459w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/139_2-300x192.png 300w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/p><p class=\"wp-block-paragraph\">Rzadkie autoenkodery dzia\u0142aj\u0105 jednak nieco inaczej. W przeciwie\u0144stwie do klasycznych, ich warstwa ukryta jest wi\u0119ksza ni\u017c rozmiar danych wej\u015bciowych. W teorii mog\u0142oby to prowadzi\u0107 do sytuacji, w kt\u00f3rej model po prostu odwzorowywa\u0142by dane 1:1, trac\u0105c zdolno\u015b\u0107 do wyodr\u0119bniania istotnych wzorc\u00f3w. Aby temu zapobiec, wprowadza si\u0119 wym\u00f3g rzadko\u015bci, tak aby wi\u0119kszo\u015b\u0107 warto\u015bci w reprezentacji ukrytej by\u0142a r\u00f3wna zeru. Dzi\u0119ki temu rzadkie autoenkodery mog\u0105 \u201erozsup\u0142ywa\u0107\u201d poszczeg\u00f3lne koncepty z g\u0119sto spl\u0105tanej siatki zale\u017cno\u015bci w du\u017cych modelach j\u0119zykowych, u\u0142atwiaj\u0105c ich interpretacj\u0119 i kontrol\u0119.<\/p><p class=\"has-text-align-center wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"398\" class=\"wp-image-9870\" style=\"width: 600px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/139_3.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/139_3.png 446w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/139_3-300x199.png 300w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/p><h4 class=\"wp-block-heading\"><strong>Jak przebiega trening rzadkiego autoenkodera?<\/strong><\/h4><p class=\"wp-block-paragraph\">Proces rozpoczyna si\u0119 od wykorzystania ju\u017c wytrenowanego du\u017cego modelu j\u0119zykowego, kt\u00f3ry dzia\u0142a w trybie inferencji. Z wybranej warstwy modelu ekstrahuje si\u0119 aktywacje \u2013 czyli wewn\u0119trzne reprezentacje danych \u2013 kt\u00f3re nast\u0119pnie s\u0142u\u017c\u0105 jako dane wej\u015bciowe do rzadkiego autoenkodera (SAE). Najcz\u0119\u015bciej ekstrakcja aktywacji odbywa si\u0119 ze strumienia rezydualnego (<em>residual stream<\/em>), kt\u00f3ry odgrywa rol\u0119 centralnego zasobu pami\u0119ci w transformerach. To w\u0142a\u015bnie do niego dodawane s\u0105 wyniki operacji mechanizmu atencji i warstw g\u0119stych, co umo\u017cliwia efektywne przep\u0142ywanie informacji mi\u0119dzy warstwami modelu.<\/p><p class=\"wp-block-paragraph\">Trening SAE polega na minimalizacji b\u0142\u0119du rekonstrukcji \u2013 model uczy si\u0119 odwzorowywa\u0107 dane jak najdok\u0142adniej \u2013 ale jednocze\u015bnie stosuje mechanizmy regularyzacji, kt\u00f3re ograniczaj\u0105 liczb\u0119 aktywnych neuron\u00f3w w warstwie ukrytej. W efekcie tylko niewielka cz\u0119\u015b\u0107 neuron\u00f3w aktywuje si\u0119 dla konkretnego wej\u015bcia, co sprawia, \u017ce autoenkoder jest \u201erzadki\u201d (<em>sparse<\/em>).<\/p><p class=\"wp-block-paragraph\">Co istotne, dla r\u00f3\u017cnych zda\u0144 wprowadzanych do modelu j\u0119zykowego aktywuj\u0105 si\u0119 inne zestawy neuron\u00f3w w warstwie ukrytej SAE. Dzi\u0119ki zastosowanej regularyzacji neurony te zyskuj\u0105 selektywno\u015b\u0107 \u2013 uaktywniaj\u0105 si\u0119 jedynie w odpowiedzi na specyficzne koncepty. To sprawia, \u017ce rzadkie autoenkodery mog\u0105 skutecznie identyfikowa\u0107 i rozdziela\u0107 poszczeg\u00f3lne znaczenia, kt\u00f3re pozostaj\u0105 spl\u0105tane w aktywacjach poszczeg\u00f3lnych warstw du\u017cych modeli j\u0119zykowych.<\/p><h4 class=\"wp-block-heading\"><strong>Co mo\u017cna \u201ewyczyta\u0107\u201d z SAE?<\/strong><\/h4><p class=\"wp-block-paragraph\">Po zako\u0144czeniu treningu rzadkiego autoenkodera (SAE) mo\u017cliwa staje si\u0119 inspekcja reprezentacji ukrytych. Oczekuje si\u0119, \u017ce neurony w warstwie ukrytej b\u0119d\u0105 <strong>monosemantyczne<\/strong> \u2013 ka\u017cdy z nich powinien odpowiada\u0107 pojedynczemu konceptowi. Kluczowym wyzwaniem pozostaje jednak efektywna identyfikacja i etykietowanie tych neuron\u00f3w, aby okre\u015bli\u0107, jakie poj\u0119cia reprezentuj\u0105.<\/p><p class=\"wp-block-paragraph\">Proces etykietowania rozpoczyna si\u0119 od przeprowadzenia inferencji na wytrenowanym SAE \u2013 w tym celu wykorzystuje si\u0119 du\u017cy korpus tekst\u00f3w. W wyniku tej operacji mo\u017cna przeanalizowa\u0107, kt\u00f3re neurony w warstwie ukrytej aktywuj\u0105 si\u0119 w odpowiedzi na okre\u015blone tokeny. Nast\u0119pnie mo\u017cna przypisywa\u0107 etykiety do neuron\u00f3w z pomoc\u0105 ekspert\u00f3w lub z wykorzystaniem innego du\u017cego modelu j\u0119zykowego (tak mo\u017cna ten proces zautomatyzowa\u0107). Proces anotowania przy u\u017cyciu LLM mo\u017ce obejmowa\u0107 trzy etapy:<\/p><ol class=\"wp-block-list\"><li>Przypisywanie etykiety \u2013 LLM analizuje tokeny, kt\u00f3re wywo\u0142a\u0142y siln\u0105 aktywacj\u0119 neuronu, i na tej podstawie przypisuje mu okre\u015blony koncept (etykiet\u0119).<\/li>\n\n<li>Przewidywanie aktywacji \u2013 zak\u0142adaj\u0105c poprawno\u015b\u0107 przypisanej etykiety, LLM prognozuje stopie\u0144 aktywacji neuronu dla token\u00f3w, kt\u00f3re wyst\u0119puj\u0105 w testowych zdaniach.<\/li>\n\n<li>Por\u00f3wnanie wynik\u00f3w \u2013 przewidywane aktywacje z etapu 2 s\u0105 zestawiane z rzeczywistymi warto\u015bciami aktywacji, uzyskanymi na oryginalnym modelu poprzez inferencj\u0119 na tych samych danych testowych. Miara podobie\u0144stwa aktywacji okre\u015bla, jak dobrze koncept reprezentowany w neuronie zosta\u0142 nazwany.<\/li><\/ol><p class=\"wp-block-paragraph\">Je\u015bli naszym celem jest analiza popularnych architektur LLM-\u00f3w, cz\u0119sto mo\u017cna skorzysta\u0107 z ju\u017c wytrenowanych SAE, kt\u00f3re s\u0105 dost\u0119pne online. Mapowanie znacze\u0144 poszczeg\u00f3lnych neuron\u00f3w zosta\u0142o przedstawione w serwisie Neuronpedia.org \u2013 swoistym atlasie neuron\u00f3w, u\u0142atwiaj\u0105cym interpretacj\u0119 i eksploracj\u0119 ich funkcji. Na przyk\u0142ad mo\u017cna tam znale\u017a\u0107 informacj\u0119, \u017ce w danym SAE, wytrenowanym na aktywacjach ze strumienia rezydualnego w warstwie 6 modelu GPT-2 Small, neuronowi o indeksie 650 w warstwie ukrytej zosta\u0142 przypisany koncept \u201ed\u0142ugo\u015b\u0107 wyra\u017cona w metrach lub stopach\u201d.<\/p><h4 class=\"wp-block-heading\"><strong>Jak praktycznie wykorzysta\u0107 SAE?<\/strong><\/h4><p class=\"has-background wp-block-paragraph\" style=\"background-color:#afb2d6\">Gdy uda si\u0119 ju\u017c rozpl\u0105ta\u0107 i nazwa\u0107 konkretne koncepty w warstwie ukrytej SAE, mo\u017cna zacz\u0105\u0107 sterowa\u0107 du\u017cym modelem j\u0119zykowym tak, by niezale\u017cnie od otrzymanego promptu odwo\u0142ywa\u0142 si\u0119 on do konkretnego, wybranego konceptu. Celem jest wzmocnienie danego konceptu w modelu.<br><br>Badacze z Anthropic pokazali, \u017ce dzi\u0119ki temu podej\u015bciu mo\u017cna zmusi\u0107 LLM do specyficznego sposobu odpowiadania \u2013 np. niezale\u017cnie od tematu pytania model m\u00f3g\u0142 konsekwentnie nawi\u0105zywa\u0107 na przyk\u0142ad do Golden Gate Bridge.<br><br>Sterowanie realizuje si\u0119 przez modyfikacj\u0119 aktywacji (zazwyczaj ze strumienia rezydualnego) w wybranej warstwie L du\u017cego modelu j\u0119zykowego LLM \u2013 tej samej, kt\u00f3rej aktywacje wykorzystano do trenowania SAE. Oznaczmy te aktywacje jako <em>x<sub>L<\/sub><\/em>. Oto jedna z najbardziej podstawowych metod:<br><br>1.  Z Neuronpedii lub poprzez wcze\u015bniejsz\u0105 analiz\u0119 identyfikujemy indeks neuronu <em>i<\/em> w warstwie ukrytej wytrenowanego SAE, kt\u00f3ry odpowiada interesuj\u0105cemu nas konceptowi.<br>2.  Z wag dekodera SAE pobieramy wektor odpowiadaj\u0105cy temu neuronowi (wektor steruj\u0105cy), <em>W<sub>dekoder<\/sub>[i]<\/em>.<br>3.  Modyfikujemy aktywacje w LLM-ie, dodaj\u0105c do nich ten wektor steruj\u0105cy pomno\u017cony przez arbitraln\u0105 sta\u0142\u0105: <em>x<sub>L<\/sub><\/em> <em>: x<sub>L<\/sub> + c * W<sub>dekoder<\/sub>[i]<\/em>.<br>4.  Tak przekszta\u0142cone aktywacje <em>x<sub>L <\/sub><\/em>s\u0105 wprowadzane z powrotem do modelu LLM w miejsce, z kt\u00f3rego pocz\u0105tkowo zosta\u0142y wyekstrahowane. Nast\u0119pnie przep\u0142ywaj\u0105 przez kolejne warstwy, wp\u0142ywaj\u0105c na dalsze etapy przetwarzania i ostatecznie kszta\u0142tuj\u0105c finaln\u0105 odpowied\u017a generowan\u0105 przez model.<br><br>Je\u015bli sta\u0142a <em>c<\/em> zostanie odpowiednio dobrana, model zacznie generowa\u0107 odpowiedzi zgodne z oczekiwanym konceptem. Za wysoka warto\u015b\u0107 spowoduje, \u017ce model przestanie racjonalnie odpowiada\u0107 i zamiast tego na przyk\u0142ad zacznie powtarza\u0107 ten sam token.<br><br>To podej\u015bcie otwiera nowe mo\u017cliwo\u015bci w zakresie interpretowalno\u015bci i kontroli nad dzia\u0142aniem du\u017cych modeli j\u0119zykowych. Mo\u017cemy celowo wzmacnia\u0107 lub t\u0142umi\u0107 okre\u015blone koncepty, dostosowuj\u0105c model do konkretnych zastosowa\u0144 \u2013 od eliminacji niepo\u017c\u0105danych uprzedze\u0144 po wymuszanie odpowiedzi w okre\u015blonym kontek\u015bcie i stylu.<\/p>","protected":false},"excerpt":{"rendered":"<p>Rozpracowanie du\u017cych modeli j\u0119zykowych (LLM) to jedno z najwi\u0119kszych wyzwa\u0144 w AI. A gdyby zamiast biernie analizowa\u0107 ich wewn\u0119trzn\u0105 logik\u0119, spr\u00f3bowa\u0107 aktywnie wp\u0142ywa\u0107 na ich dzia\u0142anie? Tu z pomoc\u0105 wkraczaj\u0105 rzadkie enkodery, kt\u00f3re pozwalaj\u0105 na kontrolowane modyfikowanie zachowania modelu. Tylko jak to zrobi\u0107? <\/p>\n","protected":false},"author":103,"featured_media":9865,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[612,763,402,754],"tags":[],"popular":[],"difficulty-level":[37],"ppma_author":[379],"class_list":["post-9450","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-numer-4","category-ai_praktyka","category-hai-magazine","category-hai_premium","difficulty-level-hard"],"acf":[],"authors":[{"term_id":379,"user_id":103,"is_guest":0,"slug":"paulina-tomaszewska","display_name":"Paulina Tomaszewska","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/ptomaszewska.jpg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/ptomaszewska.jpg"},"first_name":"Paulina","last_name":"Tomaszewska","user_url":"","job_title":"","description":"Senior Research Scientist w Samsung AI Center, doktorantka na Politechnice Warszawskiej, nale\u017cy do grupy badawczej MI2.ai."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9450","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/103"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=9450"}],"version-history":[{"count":4,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9450\/revisions"}],"predecessor-version":[{"id":9908,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9450\/revisions\/9908"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/9865"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=9450"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=9450"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=9450"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=9450"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=9450"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=9450"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}