{"id":9080,"date":"2025-03-31T10:00:00","date_gmt":"2025-03-31T08:00:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=9080"},"modified":"2025-06-18T09:59:46","modified_gmt":"2025-06-18T07:59:46","slug":"dane-syntetyczne-i-jezyk-polski","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/numer-4\/dane-syntetyczne-i-jezyk-polski\/","title":{"rendered":"\ud83d\udd12 Dane syntetyczne i j\u0119zyk polski"},"content":{"rendered":"<p>O potencjale du\u017cych modeli j\u0119zykowych m\u00f3wi si\u0119 w ostatnim czasie tak wiele, \u017ce do konieczno\u015bci ich budowania chyba nie trzeba ju\u017c nikogo przekonywa\u0107. R\u00f3wnie cz\u0119sto m\u00f3wi si\u0119 te\u017c o danych \u2013 licznych i zr\u00f3\u017cnicowanych, kt\u00f3rych trening tych modeli wymaga. Tu i \u00f3wdzie pada stwierdzenie o wysychaj\u0105cym \u017ar\u00f3de\u0142ku danych czy o nie do\u015b\u0107 dobrej jako\u015bci tych, kt\u00f3re s\u0105 dost\u0119pne. A je\u015bli my\u015blimy o stworzeniu modelu specjalizuj\u0105cego si\u0119 w przetwarzaniu j\u0119zyka nieszczeg\u00f3lnie popularnego, jak np. j\u0119zyk polski, te problemy staj\u0105 si\u0119 jeszcze bardziej pal\u0105ce. Pal\u0105ce, ale nie bez wyj\u015bcia. Bo, jak m\u00f3wi stare polskie porzekad\u0142o, jak si\u0119 nie ma, co si\u0119 lubi, to si\u0119\u2026 rozs\u0105dnie podchodzi do danych syntetycznych.<\/p><p>W przeciwie\u0144stwie do danych naturalnych, kt\u00f3re trzeba pozyskiwa\u0107 i anotowa\u0107 \u2013 co niesie za sob\u0105 szereg wyzwa\u0144, z prawnymi na czele (co jest bardzo bolesne) \u2013 dane syntetyczne mo\u017cna po prostu wygenerowa\u0107. Umo\u017cliwia to tworzenie tre\u015bci dostosowanych do specyficznych potrzeb modelu i wzbogaca zbiory treningowe o dane, kt\u00f3re s\u0105 trud- no dost\u0119pne lub wr\u0119cz nieobecne w rzeczywistych \u017ar\u00f3d\u0142ach (patrz: problemy prawne). Mog\u0105 to by\u0107 dane obrazowe, imituj\u0105ce sygna\u0142y np. z urz\u0105dze\u0144 diagnostycznych, klatki wideo, rozk\u0142ady cech kategorycznych czy \u2013 w\u0142a\u015bnie \u2013 dane tekstowe.<\/p><h4 class=\"wp-block-heading\"><strong><mark style=\"background-color:#f9a51b\" class=\"has-inline-color\">Czym s\u0105 dane syntetyczne?<\/mark><\/strong><\/h4><p class=\"has-background\" style=\"background-color:#f9a51b\">Dane syntetyczne to sztucznie generowane tre\u015bci, kt\u00f3re nie pochodz\u0105 bezpo\u015brednio z rzeczywistych \u017ar\u00f3de\u0142, takich jak teksty literackie, posty w mediach spo\u0142eczno\u015bciowych, artyku\u0142y prasowe czy strony internetowe. S\u0105 one tworzone w spos\u00f3b kontrolowany i celowy, aby sprosta\u0107 specyficznym wymaganiom, np. budowie du\u017cych modeli j\u0119zykowych.<br><br>W kontek\u015bcie rozwoju modeli j\u0119zykowych dane syntetyczne s\u0105 generowane na podstawie okre\u015blonej domeny tematycznej lub zadania, w rozwi\u0105zywaniu kt\u00f3rego model ma si\u0119 specjalizowa\u0107. Proces ten cz\u0119sto wykorzystuje techniki transformacji tekstu \u017ar\u00f3d\u0142owego w r\u00f3\u017cne jego warianty. Opisywane w tym artykule dane syntetyczne zosta\u0142y wygenerowane przy u\u017cyciu polskiego modelu j\u0119zykowego Bielik 2.3, kt\u00f3ry powsta\u0142 dzi\u0119ki wsp\u00f3\u0142pracy Fundacji Speakleash i Akademickiego Centrum Komputerowego CYFRONET AGH.<\/p><h4 class=\"wp-block-heading\"><strong>Zastosowanie w treningu modeli<\/strong><\/h4><p>Jednym z g\u0142\u00f3wnych cel\u00f3w wykorzystania danych syntetycznych jest wzbogacenie modelu o r\u00f3\u017cnorodne konteksty zwi\u0105zane z okre\u015blonym zagadnieniem. Je\u015bli model uczy si\u0119 na podstawie hase\u0142 z Wikipedii dotycz\u0105cych pewnych os\u00f3b, opr\u00f3cz hase\u0142 ju\u017c istniej\u0105cych mo\u017cna wygenerowa\u0107 dodatkowo formaty towarzysz\u0105ce oryginalnej tre\u015bci, takie jak:<\/p><ol class=\"wp-block-list\"><li>dialog dw\u00f3ch os\u00f3b komentuj\u0105cych \u017cyciorys opisywanej postaci,<\/li>\n\n<li>symulacja rozmowy mi\u0119dzy uczniem a nauczycielem historii, kt\u00f3ra omawia kluczowe w\u0105tki biograficzne,<\/li>\n\n<li>artyku\u0142y tematyczne lub listy punktuj\u0105ce najwa\u017cniejsze wydarzenia z \u017cycia danej osoby.<\/li><\/ol><p>Jednym z kluczowych powod\u00f3w generowania danych syntetycznych jest zmniejszenie ryzyka tzw. halucynacji \u2013 sytuacji, w kt\u00f3rej model \u201ezmy\u015bla\u201d informacje w spos\u00f3b przekonuj\u0105cy, ale odleg\u0142y od prawdy. Powielenie tej samej prawdziwej informacji w r\u00f3\u017cnych wariantach, poprzez sztuczne wytworzenie kolejnych form i scenariuszy wypowiedzi, umo\u017cliwia bardziej efektywn\u0105 nauk\u0119 i sprawia, \u017ce model ma wi\u0119ksz\u0105 szans\u0119 zapami\u0119ta\u0107 kluczowe informacje oraz zredukowa\u0107 b\u0142\u0119dy w generowanych odpowiedziach.<\/p><p>Dane syntetyczne wiedzowe:<\/p><figure class=\"wp-block-table\"><table class=\"has-very-light-gray-background-color has-background has-fixed-layout\"><tbody><tr><td><img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"402\" class=\"wp-image-10021\" style=\"width: 600px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_1-1.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_1-1.png 633w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_1-1-300x201.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_1-1-600x402.png 600w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/td><td><code><strong>Tytu\u0142:<\/strong> Jan Micha\u0142 Piechocki \u2013 Bydgoski dzia\u0142acz kultury i nauczyciel<br><\/code><br><code><strong>Wst\u0119p<\/strong><br>Jan Micha\u0142 Piechocki (1899\u20131978) by\u0142 wybitn\u0105 postaci\u0105 w dziedzinie kultury, edukacji i dziennikarstwa w Bydgoszczy. Jego \u017cycie i dzia\u0142alno\u015b\u0107 odzwierciedlaj\u0105 bogat\u0105 histori\u0119 miasta oraz jego wk\u0142ad w rozw\u00f3j lokalnej spo\u0142eczno\u015bci. Poni\u017cej przedstawiamy chronologiczny przegl\u0105d jego \u017cycia, osi\u0105gni\u0119\u0107 i wp\u0142ywu na kultur\u0119 Bydgoszczy.<br><\/code><br><code><strong>Dzieci\u0144stwo i m\u0142odo\u015b\u0107<\/strong><br>Jan Micha\u0142 Piechocki urodzi\u0142 si\u0119 30 sierpnia 1899 roku w Inowroc\u0142awiu. Jego rodzice, Wac\u0142aw i Anna z domu Szpek, przenie\u015bli si\u0119 do Gniezna, gdzie Jan ucz\u0119szcza\u0142 do Gimnazjum Klasycznego. Po zdaniu matury w 1919 roku, rozpocz\u0105\u0142 studia filologii polskiej na Uniwersytecie Pozna\u0144skim. W 1924 roku uzyska\u0142 prawo nauczania j\u0119zyka polskiego w szko\u0142ach \u015brednich.<\/code><\/td><\/tr><tr><td>Rysunek 1. Przyk\u0142adowy widok informacji o danej osobie w serwisie Wikipedia<\/td><td>Rysunek 2. Tekst wygenerowany syntetycznie na podstawie tekstu \u017ar\u00f3d\u0142owego z Wikipedii<\/td><\/tr><\/tbody><\/table><\/figure><p> Analogicznie post\u0119pujemy z innymi dziedzinami, takimi jak historia Polski, geografia, literatura, sport czy rozrywka.<\/p><figure class=\"wp-block-table\"><table class=\"has-very-light-gray-background-color has-background has-fixed-layout\"><tbody><tr><td><img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"365\" class=\"wp-image-10017\" style=\"width: 600px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_2.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_2.png 640w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_2-300x182.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/85_2-600x365.png 600w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/td><td><code><strong>Tytu\u0142:<\/strong> Rekomendacje dla uczni\u00f3w chc\u0105cych lepiej zrozumie\u0107 geografi\u0119<br>regionu Bor\u00f3wko<br><\/code><br><code><strong>Wst\u0119p<\/strong><br>Jezioro Bor\u00f3wko, po\u0142o\u017cone na Pojezierzu Mazurskim, stanowi fascynuj\u0105cy obiekt bada\u0144 geograficznych. Aby lepiej zrozumie\u0107 ten region, przedstawiamy kilka rekomendacji dla uczni\u00f3w zainteresowanych geografi\u0105.<br><\/code><br><code><strong>Zrozumienie po\u0142o\u017cenia i kontekstu regionalnego<\/strong><br><strong>Mapy i atlasy:<\/strong> Zapoznaj si\u0119 z mapami regionu, aby zrozumie\u0107<br>po\u0142o\u017cenie Bor\u00f3wka wzgl\u0119dem innych jezior i miast, takich jak<br>Mr\u0105gowo.<br><strong>Kontekst historyczny:<\/strong> Przestudiuj histori\u0119 regionu, w tym<br>zmiany granic administracyjnych i wp\u0142yw dzia\u0142alno\u015bci cz\u0142owieka<br>na krajobraz.<\/code><br><code><br><strong>Analiza ukszta\u0142towania terenu i rze\u017aby jeziora<\/strong><br><strong>Topografia:<\/strong> Zbadaj ukszta\u0142towanie terenu wok\u00f3\u0142 jeziora, w tym<br>obecno\u015b\u0107 p\u00f3l, \u0142\u0105k i las\u00f3w, kt\u00f3re wp\u0142ywaj\u0105 na mikroklimat<br>i bior\u00f3\u017cnorodno\u015b\u0107.<br><strong>Hydrologia:<\/strong> Zrozumienie dorzecza Kortyna-Pisa-Narew i roli<br>Bor\u00f3wka w tym systemie wodnym jest kluczowe dla zrozumienia<br>hydrologicznych aspekt\u00f3w regionu.<\/code><br><code><br><strong>Badanie klimatu i jego wp\u0142ywu na ekosystem<\/strong><br><strong>Dane klimatyczne:<\/strong> Analizuj dane dotycz\u0105ce temperatury, opad\u00f3w<br>i wiatru w regionie, aby zrozumie\u0107, jak klimat wp\u0142ywa na jezioro i jego otoczenie.<br><strong>Sezonowo\u015b\u0107:<\/strong> Zwr\u00f3\u0107 uwag\u0119 na sezonowe zmiany w ekosystemie<br>jeziora, takie jak migracje ryb i zmiany w ro\u015blinno\u015bci.<\/code><\/td><\/tr><tr><td>Rysunek 3. Widok pocz\u0105tkowych informacji zwi\u0105zanych z geografi \u0105 Polski (jezioro Bor\u00f3wko)<\/td><td>Rysunek 4. Wygenerowany tekst syntetyczny zwi\u0105zany z polsk\u0105 geografi \u0105 jako spis rekomendacji dla uczni\u00f3w<\/td><\/tr><\/tbody><\/table><\/figure><h4 class=\"wp-block-heading\"><strong>Metafory i zwi\u0105zki frazeologiczne<\/strong><\/h4><p>Kolejnym obszarem zastosowania danych syntetycznych jest modelowanie polskich metafor i zwi\u0105zk\u00f3w frazeologicznych. G\u0142\u00f3wnym celem jest poszerzenie korpusu prawid\u0142owego u\u017cycia danego frazeologizmu czy metafory, dos\u0142owne wyja\u015bnienie ich znaczenia oraz wskazanie poprawnych interpretacji.<\/p><p>Podobnie jak w innych przypadkach, proces generowania danych syntetycznych rozpoczyna si\u0119 od identyfikacji odpowiedniego tekstu \u017ar\u00f3d\u0142owego, kt\u00f3ry zawiera interesuj\u0105ce frazy i metafory. Na tej podstawie tworzone s\u0105 syntetyczne warianty, kt\u00f3re wzbogacaj\u0105 zbi\u00f3r treningowy modelu. W tym celu wykorzystuje si\u0119 specjalnie przygotowane zapytania (prompty) skierowane do modelu. Przyk\u0142adowe dane mog\u0105 przyjmowa\u0107 form\u0119 podsumowania tek- stu \u017ar\u00f3d\u0142owego z naciskiem na u\u017cycie danego zwi\u0105zku lub na om\u00f3wienie jego interpretacji w konkretnym kontek\u015bcie, a tak\u017ce na sformu\u0142owanie jego definicji.<\/p><p>Tworzenie danych syntetycznych ma kluczowe znaczenie w treningu modeli j\u0119zykowych, kt\u00f3re maj\u0105 rozumie\u0107 i poprawnie wykorzystywa\u0107 zwi\u0105zki frazeologiczne w generowanych odpowiedziach. Dzi\u0119ki temu model potrafi:<\/p><ul class=\"wp-block-list\"><li>precyzyjniej rozpoznawa\u0107 i interpretowa\u0107 mniej oczywiste warianty j\u0119zyka, na przyk\u0142ad mow\u0119 potoczn\u0105,<\/li>\n\n<li>poprawnie u\u017cywa\u0107 abstrakcyjnych, kolokwialnych i specjalistycznych okre\u015ble\u0144 w odpowiednich kontekstach,<\/li>\n\n<li>ogranicza\u0107 b\u0142\u0119dy wynikaj\u0105ce z dos\u0142ownego t\u0142umaczenia lub niezrozumienia znaczenia danego wyra\u017cenia.<\/li><\/ul><figure class=\"wp-block-table\"><table class=\"has-very-light-gray-background-color has-background has-fixed-layout\"><tbody><tr><td><code>Siedzieli\u015bmy w ma\u0142ej, klimatycznej kawiarni na rogu ulicy, gdy temat rozmowy niespodziewanie zszed\u0142 na to, jak bardzo \u017cycie potrafi zaskakiwa\u0107. Deszcz delikatnie b\u0119bni\u0142 w szyby, a aromat \u015bwie\u017co mielonej kawy unosi\u0142 si\u0119 w powietrzu, gdy Pawe\u0142, spogl\u0105daj\u0105c na sw\u00f3j kubek z latte, powiedzia\u0142:<br><br>\u2013 Wiesz, czasem zastanawiam si\u0119, czy w og\u00f3le jest sens co\u015b planowa\u0107. Przecie\u017c i tak wszystko mo\u017ce si\u0119 zmieni\u0107 z dnia na dzie\u0144. Jak to m\u00f3wi\u0105, fortuna ko\u0142em si\u0119 toczy, prawda?<br><br>Wszyscy przy stole przytakn\u0119li. Pawe\u0142 mia\u0142 racj\u0119 - \u017cycie jest pe\u0142ne nieoczekiwanych zwrot\u00f3w. Tomek, kt\u00f3ry zawsze lubi\u0142 dorzuci\u0107 co\u015b od siebie, zaraz podchwyci\u0142 temat.<\/code><\/td><td><code>Centralnym punktem narracji staje si\u0119 wypowied\u017a Paw\u0142a, w kt\u00f3rej zawiera on g\u0142\u0119bok\u0105 metafor\u0119 \u201efortuna ko\u0142em si\u0119 toczy\". To wyra\u017cenie, zaczerpni\u0119te z ludowej m\u0105dro\u015bci, symbolizuje zmienno\u015b\u0107 losu, jego nieprzewidywalno\u015b\u0107 oraz nieustanny ruch - podobny do obrot\u00f3w ko\u0142a. Metafora ta niesie za sob\u0105 sugesti\u0119, \u017ce \u017cycie ludzkie jest pe\u0142ne<br>nieoczekiwanych zwrot\u00f3w, kt\u00f3re wykraczaj\u0105 poza kontrol\u0119 jednostki. Pawe\u0142, spogl\u0105daj\u0105c na sw\u00f3j kubek z latte, zdaje si\u0119 uosabia\u0107 chwil\u0119 zatrzymania i refleksji nad sensem planowania, skoro niepewno\u015b\u0107 i zmienno\u015b\u0107 dominuj\u0105 w egzystencji.<\/code><\/td><\/tr><tr><td>Rysunek 5. Przyk\u0142adowy tekst, w kt\u00f3rym wyst\u0119puje zwi\u0105zek frazeologiczny \u201efortuna ko\u0142em si\u0119 toczy\u201d<\/td><td>Rysunek 6. Tekst wygenerowany syntetycznie, w kt\u00f3rym zosta\u0142 wyja\u015bniony<br>sens zwi\u0105zku frazeologicznego w kontek\u015bcie tekstu \u017ar\u00f3d\u0142owego<\/td><\/tr><tr><td><code>Czy zdarzy\u0142o Wam si\u0119 kiedy\u015b zacz\u0105\u0107 nauk\u0119 j\u0119zyka obcego z wielkim zapa\u0142em, ale ju\u017c na starcie poczu\u0107, \u017ce to mo\u017ce by\u0107 trudniejsze, ni\u017c si\u0119 wydawa\u0142o? Wymowa wydaje si\u0119 skomplikowana, gramatyka niezrozumia\u0142a, a s\u0142owa uciekaj\u0105 z pami\u0119ci. W takich chwilach \u0142atwo si\u0119 zniech\u0119ci\u0107 i pomy\u015ble\u0107:  \"Mo\u017ce to nie dla mnie\". Ale spokojnie! Jak to m\u00f3wi\u0105 - pierwsze koty za p\u0142oty. Ka\u017cdy pocz\u0105tek jest trudny, ale to w\u0142a\u015bnie ten pierwszy krok otwiera drzwi do nowych mo\u017cliwo\u015bci.<\/code><\/td><td><code>Kluczow\u0105 rol\u0119 w tek\u015bcie odgrywa metafora \"pierwsze koty za p\u0142oty\", kt\u00f3ra staje si\u0119 symbolem procesu prze\u0142amywania pocz\u0105tkowych trudno\u015bci. Wyra\u017cenie to, nacechowane optymizmem i poczuciem humoru, wprowadza do tekstu ton zach\u0119ty i otuchy. W kontek\u015bcie nauki j\u0119zyka obcego metafora ta podkre\u015bla, \u017ce pierwsze trudno\u015bci s\u0105 naturalnym etapem procesu<br>i stanowi\u0105 nieodzown\u0105 cz\u0119\u015b\u0107 zdobywania nowych umiej\u0119tno\u015bci.<\/code><\/td><\/tr><tr><td>Rysunek 7. Przyk\u0142adowy tekst, w kt\u00f3rym wyst\u0119puje metafora \u201epierwsze<br>koty za p\u0142oty\u201d<\/td><td>Rysunek 8. Syntetycznie wygenerowany tekst, w kt\u00f3rym model j\u0119zykowy<br>na bazie tekstu \u017ar\u00f3d\u0142owego opisuje znaczenie metafory w kontek\u015bcie nauki<br>j\u0119zyka<\/td><\/tr><\/tbody><\/table><\/figure><h4 class=\"wp-block-heading\"><strong>Proces czyszczenia danych i deduplikacji<\/strong><\/h4><p>Tworzenie du\u017cych modeli j\u0119zykowych (LLM) wymaga ogromnych zbior\u00f3w danych tekstowych. Surowe dane cz\u0119sto jednak zawieraj\u0105 b\u0142\u0119dy, niepo\u017c\u0105dane fragmenty oraz duplika- ty, kt\u00f3re mog\u0105 negatywnie wp\u0142ywa\u0107 na ostateczn\u0105 jako\u015b\u0107 modelu. Dlatego czyszczenie i deduplikacja tekstu to dwa kluczowe procesy w przygotowaniu danych.<\/p><p>Na proces czyszczenia sk\u0142ada si\u0119 najcz\u0119\u015bciej:<\/p><ul class=\"wp-block-list\"><li>usuwanie niepo\u017c\u0105danych znak\u00f3w i fragment\u00f3w, np. zb\u0119dnych spacji, HTML-owych tag\u00f3w, symboli specjalnych czy fragment\u00f3w kodu,<\/li>\n\n<li>poprawa formatowania tekstu \u2013 ujednolicanie stylu, np. konwersja tekstu do jednolitego kodowania czy usuwanie zb\u0119dnych znak\u00f3w interpunkcyjnych lub znak\u00f3w nowej linii,<\/li>\n\n<li>anonimizacja \u2013 usuwanie danych osobowych (co jest szczeg\u00f3lnie istotne ze wzgl\u0119d\u00f3w etycznych i prawnych), w tym adres\u00f3w ulic, numer\u00f3w telefon\u00f3w czy adres\u00f3w e-mail.<\/li><\/ul><h4 class=\"wp-block-heading\"><strong>Deduplikacja \u2013 eliminacja powt\u00f3rze\u0144<\/strong><\/h4><p>Duplikaty w zbiorach treningowych mog\u0105 prowadzi\u0107 do przeuczenia, czyli nadmiernego dopasowania modelu (tzw. overfittingu) oraz nieproporcjonalnego wp\u0142ywu cz\u0119sto powtarzaj\u0105cych si\u0119 danych na wyniki modelu. Deduplikacja pozwala na usuni\u0119cie identycznych lub bardzo podobnych dokument\u00f3w (zapobiega to sytuacji, w kt\u00f3rej model zbyt mocno faworyzuje okre\u015blone dane), a tym samym na optymalizacj\u0119 rozmiaru zbioru treningowego. Redukcja zb\u0119dnych danych pozwala na bardziej efektywne wykorzystanie zasob\u00f3w obliczeniowych.<\/p><h4 class=\"wp-block-heading\"><strong>Korekta tekst\u00f3w ni\u017cszej jako\u015bci z wykorzystaniem modeli j\u0119zykowych<\/strong><\/h4><p>Modele j\u0119zykowe mog\u0105 by\u0107 te\u017c skutecznie wykorzystywane do korygowania tekst\u00f3w ni\u017cszej jako\u015bci. Podczas prac nad modelem j\u0119zykowym Bielik 2.3 opracowano klasyfikator jako\u015bciowy oparty na algorytmie uczenia maszynowego. Model XGBoost osi\u0105gn\u0105\u0142 wysok\u0105 skuteczno\u015b\u0107 klasyfikacji z wynikiem F1 (\u015brednia z precyzji i czu\u0142o\u015bci klasyfikacji) na poziomie 0,87. Jego zadaniem by\u0142o ocenianie, czy dany tekst \u017ar\u00f3d\u0142owy mo\u017cna zakwalifikowa\u0107 do wysokiej, \u015bredniej czy niskiej klasy jako\u015bci. Model wykaza\u0142 si\u0119 wysok\u0105 precyzj\u0105 (0,911) i satysfakcjonuj\u0105cym poziomem czu\u0142o\u015bci (0,843), co oznacza, \u017ce w 84 przypadkach na 100 trafnie wskazywa\u0142 teksty danej klasy, a spo\u015br\u00f3d wszystkich wskazanych przez model tekst\u00f3w 91% rzeczywi\u015bcie do niej nale\u017ca\u0142o.<\/p><p>Klasyfikator bazuje na szeregu istotnych cech tekstowych (dla Bielika 2.3 by\u0142o ich 96), z kt\u00f3rych najwa\u017cniejsze to:<\/p><ul class=\"wp-block-list\"><li>\u015brednia d\u0142ugo\u015b\u0107 linii z tekstem w dokumencie (average_lines),<\/li>\n\n<li>liczba s\u0142\u00f3w spoza s\u0142ownika j\u0119zyka polskiego (oovs),<\/li>\n\n<li>obecno\u015b\u0107 s\u0142\u00f3w niealfanumerycznych (non_alpha_word_fractions),<\/li>\n\n<li>stosunek s\u0142\u00f3w, kt\u00f3re nie wnosz\u0105 istotnych informacji, do innych wyraz\u00f3w ( stop_word_ratio) \u2013w j\u0119zyku polskim s\u0105 to np. sp\u00f3jniki, najcz\u0119\u015bciej u\u017cywane czasowniki czy zaimki osobowe (m.in. \u201ei\u201d, \u201eoraz\u201d, \u201eale\u201d, \u201eto\u201d, \u201e\u017ce\u201d, \u201ejest\u201d, \u201eby\u0107\u201d, \u201eon\u201d),<\/li>\n\n<li>\u015brednia d\u0142ugo\u015b\u0107 s\u0142\u00f3w (avg_word_length).<\/li><\/ul><p>Takie wieloklasowe podej\u015bcie do oceny jako\u015bci tekstu \u2013 trzy klasy: 0 (LOW), 1 (MEDIUM), 2 (HIGH) \u2013 pozwala na bardziej szczeg\u00f3\u0142ow\u0105 kategoryzacj\u0119 materia\u0142u tekstowego ni\u017c prosty podzia\u0142 na teksty \u201edobre\u201d i \u201ez\u0142e\u201d, co przek\u0142ada si\u0119 na lepsz\u0105 kontrol\u0119 jako\u015bci danych treningowych dla modelu Bielik. Klasa \u015brednia, czyli MEDIUM, obejmuje dokumenty, kt\u00f3re zawieraj\u0105 zar\u00f3wno fragmenty zar\u00f3wno wysokiej, jak i bardzo s\u0142abej jako\u015bci. Mo\u017ce to by\u0107 na przyk\u0142ad porz\u0105dnie napisany tekst, kt\u00f3ry zosta\u0142 automatycznie pobrany ze strony wraz ze znacznikami HTML, czy zdigitalizowany dokument, z kt\u00f3rym w wybranych miejscach nie poradzi\u0142 sobie OCR. Klasa ta pe\u0142ni funkcj\u0119 bufora \u2013 trafiaj\u0105 tu dokumenty, kt\u00f3re maj\u0105 pewne defekty i mog\u0105 negatywnie wp\u0142ywa\u0107 na proces tworzenia modelu, ale jednocze\u015bnie po odpowiednim oczyszczeniu mo\u017cna z nich odzyska\u0107 warto\u015bciowe dane, np. w procesie automatycznego poprawiania jako\u015bci.<\/p><h4 class=\"wp-block-heading\"><strong>Proces poprawy tekst\u00f3w<\/strong><\/h4><p>W przypadku tekst\u00f3w ocenionych jako teksty ni\u017cszej jako\u015bci mo\u017cna zastosowa\u0107 techniki korekty. Proces ten obejmuje dwa etapy:<\/p><ul class=\"wp-block-list\"><li>identyfikacja problem\u00f3w w strukturze, stylistyce lub merytoryce tekstu,<\/li>\n\n<li>automatyczna poprawa b\u0142\u0119d\u00f3w za pomoc\u0105 modelu j\u0119zykowego, kt\u00f3ry koryguje nie\u015bcis\u0142o\u015bci, poprawia sk\u0142adni\u0119 i wzbogaca tekst stylistycznie.<\/li><\/ul><p>Po przeprowadzeniu korekty tekst jest ponownie analizowany przez klasyfikator jako\u015bciowy. Je\u015bli spe\u0142nia zdefiniowane kryteria jako\u015bci (zostaje przypisany do klasy HIGH), w\u00f3wczas w\u0142\u0105cza si\u0119 go do zbioru danych wykorzystywanego w treningu modelu. Ten proces mo\u017ce przywodzi\u0107 na my\u015bl odzyskiwanie surowc\u00f3w \u2013 i s\u0142usznie, bo w dzisiejszych czasach jako\u015bciowe dane s\u0105 bardzo cennym surowcem.<\/p><p>Podsumowuj\u0105c, korekta tekst\u00f3w ni\u017cszej jako\u015bci przynosi kilka kluczowych korzy\u015bci:<\/p><ul class=\"wp-block-list\"><li>wzbogacenie zbioru danych treningowych, kt\u00f3re w innym przypadku mog\u0142yby zosta\u0107 odrzucone,<\/li>\n\n<li>poprawa sp\u00f3jno\u015bci i jako\u015bci danych, co przek\u0142ada si\u0119 na lepsze efekty treningu modelu,<\/li>\n\n<li>automatyzacja procesu, kt\u00f3ra pozwala na efektywne przetwarzanie du\u017cych zbior\u00f3w tekst\u00f3w bez konieczno\u015bci manualnej ingerencji.<\/li><\/ul><figure class=\"wp-block-table\"><table class=\"has-very-light-gray-background-color has-background has-fixed-layout\"><tbody><tr><td><code>dom aukcyjny<br>zwyci\u0119zc\u0105 zostaje osoba, kt\u00f3ra zaoferowa\u0142a najwy\u017csz\u0105 cen\u0119 w etapie<br>internetowym.<br>2<br>Zwyci\u0119zc\u0119 wskazuje Aukcjoner; jest on uprawniony do rozstrzygania kolejno\u015bci zg\u0142oszonych ofert;<br>zar\u00f3wno z sali jak<br>z Internetu czy telefonu; okre\u015bla post\u0105pienia<br>W<br>licytacji oraz do rozstrzygania<br>wszystkich spor\u00f3w. Decyzja Aukcjonera jest ostateczna.<br>Mo\u017ce si\u0119 zdarzy\u0107, \u017ce kto\u015b z\u0142o\u017cy zlecenie<br>z<br>limitem<br>1.<br>wygra licytacj\u0119 w etapie internetowym z cen\u0105 ni\u017csz\u0105<br>ni\u017c jego maksymalny, deklarowany limit. Je\u017celi w etapie dogrywki pojawi\u0105<br>si\u0119 wy\u017csze oferty; w\u00f3wczas Dom<br>Aukcyjny b\u0119dzie licytowa\u0142 w imieniu U\u017cytkownika do limitu zadeklarowanego w etapie internetowym:)<br>9Aukcje_Live<br>Dom Aukcyjny udost\u0119pnia mo\u017cliwo\u015b\u0107 licytacji w czasie rzeczywistym przez<br>Internet razem z sal\u0105<br>aukcyjn\u0105:<br>2<br>Dom Aukcyjny prowadzi sprzeda\u017c<br>Przedmiot\u00f3w<br>Aukcji<br>W<br>ramach<br>Serwisu<br>oraz<br>przy pomocy<br>oprogramowania<br>\u015brodk\u00f3w technicznych (czyli partnera zewn\u0119trznego) . Oprogramowanie<br>do Aukcji Live udost\u0119pnia firma<br>3<br>Osoby, kt\u00f3re posiadaj\u0105 ju\u017c konto<br>W<br>systemie oraz status VIP;<br>0<br>kt\u00f3rym m\u00f3wi Regulamin<br>Domu Auk-jnego ; mog\u0105 u\u017cywa\u0107 swoich parametr\u00f3w do logowania<br>W serwisie<br>S\u0105 to: email podany podczas rejestracji konta internetowego<br>w<br>systemie (aukcje online;<br>galeria ofertowa) oraz has\u0142o.<br>4<br>Warunkiem uczestnictwa jest zarejestrowanie si\u0119<br>na stronie internetowej<br>oraz uzyskanie statusu VIP; z zastrze\u017ceniem ust. 5 poni\u017cej.<br>5<br>Dom Aukcyjny zastrzega sobie prawo do \u017c\u0105dania dodatkowych dokument\u00f3w;<br>zar\u00f3wno<br>na etapie<br>rejestracji, jak<br>na p\u00f3\u017aniejszych etapach aukcji, okre\u015blonych niniejszym Regulaminem:<\/code><\/td><td><code>DOM AUKCYJNY - ZASADY LICYTACJI<br><\/code><br><code>A. ZASADY OG\u00d3LNE<br><\/code><br><code>1. Zwyci\u0119zc\u0105 zostaje osoba, kt\u00f3ra zaoferowa\u0142a najwy\u017csz\u0105 cen\u0119 w etapie<br>internetowym.<br><\/code><br>2. <code>Aukcjoner:<\/code><br><code><br>- wskazuje zwyci\u0119zc\u0119<\/code>  <br>&#8211;  <code>jest uprawniony do rozstrzygania kolejno\u015bci zg\u0142oszonych ofert (z sali, Internetu czy telefonu) <\/code><br>&#8211; <code>okre\u015bla post\u0105pienia w licytacjirozstrzyga wszystkie spory<br>- jego decyzja jest ostateczna<br><\/code><br>2. <code>Zlecenia z limitem:<\/code><br><code><br>- mo\u017cliwe jest wygranie licytacji w etapie internetowym z cen\u0105 ni\u017csz\u0105 ni\u017c zadeklarowany limit maksymalny<br>- w przypadku pojawienia si\u0119 wy\u017cszych ofert w etapie dogrywki, Dom Aukcyjny b\u0119dzie licytowa\u0142 w imieniu U\u017cytkownika do limitu zadeklarowanego w etapie internetowym<br><\/code><br><code>B. AUKCJE LIVE<\/code><br><code><br>1. Dom Aukcyjny umo\u017cliwia licytacj\u0119 w czasie rzeczywistym przez Internet r\u00f3wnolegle z sal\u0105 aukcyjn\u0105.<br><\/code><br>2. <code>Sprzeda\u017c Przedmiot\u00f3w Aukcji prowadzona jest:<\/code><br><br>&#8211; <code>w ramach Serwisu<br>- przy pomocy oprogramowania i \u015brodk\u00f3w technicznych (partner zewn\u0119trzny)<br><\/code><br>3. <code>Dost\u0119p do systemu:<\/code><br><code><br>- mog\u0105 uzyska\u0107 osoby posiadaj\u0105ce konto w systemie oraz status VIP<br>- logowanie odbywa si\u0119 przy u\u017cyciu:<br>*emaila podanego podczas rejestracji konta internetowego<br>*has\u0142a<br><\/code><br>4. <code>Warunki uczestnictwa:<\/code><br><code><br>- rejestracja na stronie internetowej<br>- uzyskanie statusu VIP (z zastrze\u017ceniem ust. 5)<br><\/code><br>5. <code>Dom Aukcyjny zastrzega sobie prawo do \u017c\u0105dania dodatkowych dokument\u00f3w:<\/code><br><code><br>- na etapie rejestracji<br>- na p\u00f3\u017aniejszych etapach aukcji, okre\u015blonych niniejszym Regulaminem<\/code><\/td><\/tr><tr><td>Rysunek 9. Tekst \u017ar\u00f3d\u0142owy niskiej jako\u015bci<\/td><td>Rysunek 10. Tekst poprawiony modelem j\u0119zykowym Bielik<\/td><\/tr><\/tbody><\/table><\/figure><p><\/p><p>Warto jednak pami\u0119ta\u0107, \u017ce korekta tekstu za pomoc\u0105 modeli j\u0119zykowych nie zawsze po- lega na prostym poprawianiu danych s\u0142owo w s\u0142owo. W trudniejszych przypadkach model mo\u017ce wprowadza\u0107 w\u0142asne interpretacje, kt\u00f3re wykraczaj\u0105 poza standardow\u0105 korekt\u0119. Mo\u017ce to by\u0107:<\/p><ul class=\"wp-block-list\"><li>dopisanie brakuj\u0105cych s\u0142\u00f3w lub ca\u0142ych fragment\u00f3w, aby zwi\u0119kszy\u0107 sp\u00f3jno\u015b\u0107 i czytelno\u015b\u0107 tekstu,<\/li>\n\n<li>zmiana formatowania dla lepszej struktury i zrozumia\u0142o\u015bci tre\u015bci.<\/li><\/ul><h4 class=\"wp-block-heading\"><strong>Dane syntetyczne na etapie SFT (Supervised Fine-Tuning)<\/strong><\/h4><p>Na etapie SFT, czyli w nast\u0119pnym kroku po wytrenowaniu modelu bazowego, tworzone s\u0105 dane syntetyczne, kt\u00f3re maj\u0105 za zadanie przekszta\u0142ci\u0107 model generuj\u0105cy kolejne tokeny w narz\u0119dzie bardziej przydatne dla u\u017cytkownik\u00f3w. Na tym etapie szczeg\u00f3lny nacisk k\u0142adzie si\u0119 na zapewnienie struktury dialogowej, czyli tworzenie par pyta\u0144 i odpowiedzi dostosowanych do okre\u015blonych zada\u0144.<\/p><h4 class=\"wp-block-heading\"><strong>Kluczowy element \u2013 r\u00f3\u017cnorodno\u015b\u0107 domenowa<\/strong><\/h4><p>Jednym z najwa\u017cniejszych aspekt\u00f3w tego etapu jest r\u00f3\u017cnorodno\u015b\u0107 domenowa. W przypadku modelu Bielik przygotowano klasyfikator tematyczny oparty na algorytmach uczenia maszynowego, kt\u00f3rego celem jest identyfikacja kategorii tematycznych tekstu. Klasyfikator ten umo\u017cliwia rozr\u00f3\u017cnienie a\u017c 120 kategorii, z kt\u00f3rych ka\u017cda zosta\u0142a wykorzystana do wygenerowania od kilku do kilkunastu tysi\u0119cy syntetycznych par dialogowych.<\/p><h4 class=\"wp-block-heading\"><strong>Cel i korzy\u015bci etapu SFT<\/strong><\/h4><p>Celem etapu SFT jest dostosowanie modelu do r\u00f3\u017cnorodnych zastosowa\u0144 poprzez:<\/p><ul class=\"wp-block-list\"><li>wzbogacenie zdolno\u015bci dialogowych (model uczy si\u0119, jak skutecznie odpowiada\u0107 na pytania w r\u00f3\u017cnych kontekstach tematycznych),<\/li>\n\n<li>zwi\u0119kszenie uniwersalno\u015bci (dzi\u0119ki szerokiemu zakresowi kategorii model staje si\u0119 bardziej elastyczny i wszechstronny w zastosowaniach praktycznych),<\/li>\n\n<li>lepsze dopasowanie do u\u017cytkownik\u00f3w (syntetyczne dane instrukcyjne pomagaj\u0105 modelowi generowa\u0107 odpowiedzi w spos\u00f3b bardziej intuicyjny i zrozumia\u0142y dla odbiorc\u00f3w).<\/li><\/ul><p class=\"has-text-align-center\"> <img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"605\" class=\"wp-image-10019\" style=\"width: 600px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/90_1.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/90_1.png 695w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/90_1-297x300.png 297w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/90_1-150x150.png 150w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/90_1-600x605.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/90_1-100x100.png 100w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><br>Rysunek 11. Wizualizacja tr\u00f3jwymiarowa po redukcji wymiarowo\u015bci,przedstawiaj\u0105ca klastry odpowiadaj\u0105ce r\u00f3\u017cnym kategoriom<\/p><p class=\"has-text-align-center\"><\/p><figure class=\"wp-block-table\"><table class=\"has-very-light-gray-background-color has-background has-fixed-layout\"><tbody><tr><td><code>{<br>\"role\": \"user\",<br>\"content\": \"Kiedy dosz\u0142o do wsp\u00f3\u0142pracy Ireny Santor z Paw\u0142em Kukizem?\"<br>},<br>{<br>\"role\": \"assistant\",<br>\"content\": \"Wsp\u00f3\u0142praca Ireny Santor z Paw\u0142em Kukizem mia\u0142a miejsce w 1996 roku.\"<br>},<br>{<br>\"role\": \"user\",<br>\"content\": \"Jaki utw\u00f3r zosta\u0142 nagrany przez Iren\u0119 Santor i Paw\u0142a Kukiza?\"<br>},<br>{<br>\"role\": \"assistant\",<br>\"content\": \"Irena Santor i Pawe\u0142 Kukiz nagrali wsp\u00f3lnie now\u0105<br>interpretacj\u0119 utworu<br>\"Ju\u017c nie ma dzikich pla\u017c\".\"<br>},<br>{<br>\"role\": \"user\",<br>\"content\": \"Na jakim albumie znalaz\u0142a si\u0119 ta interpretacja?\"<br>},<br>{<br>\"role\": \"assistant\",<br>\"content\": \"Ta interpretacja znalaz\u0142a si\u0119 na albumie<br>\"Duety\" Ireny Santor.\"<br>},<br>{<br>\"role\": \"user\",<br>\"content\": \"Jakie inne utwory znajduj\u0105 si\u0119 na albumie<br>\"Duety\" Ireny Santor?\"<br>},<br>{<br>\"role\": \"assistant\",<br>\"content\": \"Album \"Duety\" zawiera r\u00f3wnie\u017c inne interpretacje<br>znanych utwor\u00f3w Ireny Santor w wykonaniu z czo\u0142owymi polskimi<br>artystami, takimi jak Edyta G\u00f3rniak,<br>Krzysztof Cugowski czy Zbigniew Wodecki.\"<br>},<br>{<br>\"role\": \"user\",<br>\"content\": \"Jakie znaczenie mia\u0142a wsp\u00f3\u0142praca Ireny Santor z Paw\u0142em Kukizem<br>dla polskiej sceny muzycznej?\"<br>},<br>{<br>\"role\": \"assistant\",<br>\"content\": \"Wsp\u00f3\u0142praca Ireny Santor z Paw\u0142em Kukizem by\u0142a jednym z pierwszych<br>przyk\u0142ad\u00f3w \u0142\u0105czenia artyst\u00f3w o odmiennych stylach muzycznych w Polsce,<br>co zainspirowa\u0142o kolejne pokolenia tw\u00f3rc\u00f3w do podejmowania podobnych inicjatyw.\"<br>}<\/code><\/td><\/tr><tr><td>Rysunek 12. Przyk\u0142adowa struktura par pyta\u0144 i odpowiedzi wygenerowana syntetycznie na bazie tekstu \u017ar\u00f3d\u0142owego<\/td><\/tr><\/tbody><\/table><\/figure><h4 class=\"wp-block-heading\"><strong>Walidacja generowanego tekstu \u2013 kluczowy etap ko\u0144cowy<\/strong><\/h4><p>W ca\u0142ym procesie generowania danych niezb\u0119dna jest finalna walidacja, kt\u00f3ra pozwala zidentyfikowa\u0107 ewentualne nadinterpretacje lub b\u0142\u0119dy w odniesieniu do danych \u017ar\u00f3d\u0142owych (w cytowaniach). Nawet najbardziej zaawansowane modele j\u0119zykowe mog\u0105 czasami dodawa\u0107 informacje, kt\u00f3re nie s\u0105 zgodne z oryginalnym kontekstem, lub wprowadza\u0107 w\u0142asne, nieuzasadnione interpretacje.<\/p><p>Aby temu zapobiec, mo\u017cna zastosowa\u0107 analiz\u0119 merytoryczn\u0105, opart\u0105 na zdefiniowanych kryteriach jako\u015bci, np. za pomoc\u0105 specjalnego promptu, kt\u00f3rego zadaniem jest ocena tekstu pod k\u0105tem z\u0142o\u017cono\u015bci, klarowno\u015bci, rzetelno\u015bci oraz powt\u00f3rze\u0144. Takie podej\u015bcie pozwala uzyska\u0107 obiektywn\u0105 ocen\u0119 warto\u015bci merytorycznej i stylu stworzonej tre\u015bci. Dodatkowo, je\u015bli dysponujemy odpowiednimi zasobami, dla pe\u0142nego obrazu efektu ko\u0144cowego warto przeprowadzi\u0107 ocen\u0119 jako\u015bciow\u0105 losowych pr\u00f3bek nowego syntetycznego korpusu za pomoc\u0105 ludzkiego oka (i szkie\u0142ka).<\/p>","protected":false},"excerpt":{"rendered":"<p>Na czym dok\u0142adnie polega proces generowania sztucznych danych tekstowych? Jak wp\u0142ywa on na model? Jakie kryteria jako\u015bci nale\u017cy uwzgl\u0119dni\u0107 przy tworzeniu takich danych? I jak oceni\u0107 ich zgodno\u015b\u0107 z j\u0119zykiem polskim?<\/p>\n","protected":false},"author":265,"featured_media":10012,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[612,756,402,754,771],"tags":[],"popular":[],"difficulty-level":[37],"ppma_author":[644],"class_list":["post-9080","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-numer-4","category-ai_branza","category-hai-magazine","category-hai_premium","category-it","difficulty-level-hard"],"acf":[],"authors":[{"term_id":644,"user_id":265,"is_guest":0,"slug":"adrian-gwozdziej","display_name":"Adrian Gwo\u017adziej","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/Adrian-Gwozdziej2.jpg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/Adrian-Gwozdziej2.jpg"},"first_name":"Adrian","last_name":"Gwo\u017adziej","user_url":"","job_title":"","description":"In\u017cynier uczenia maszynowego. Zawodowo dzia\u0142a w bran\u017cy cyberbezpiecze\u0144stwa. Realizuje projekty z dziedziny przetwarzania j\u0119zyka naturalnego i wizji komputerowej. Wsp\u00f3\u0142za\u0142o\u017cyciel fundacji Speakleash, wsp\u00f3\u0142tw\u00f3rca polskiego du\u017cego modelu j\u0119zykowego Bielik. Odpowiada za potok przygotowywania danych przy budowie LLM-\u00f3w."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9080","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/265"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=9080"}],"version-history":[{"count":6,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9080\/revisions"}],"predecessor-version":[{"id":10023,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9080\/revisions\/10023"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/10012"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=9080"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=9080"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=9080"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=9080"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=9080"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=9080"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}