{"id":4506,"date":"2024-11-04T11:36:53","date_gmt":"2024-11-04T10:36:53","guid":{"rendered":"https:\/\/haimagazine.com\/?p=4506"},"modified":"2025-06-26T11:39:39","modified_gmt":"2025-06-26T09:39:39","slug":"polskie-zasoby-jezykowe-a-rozwijanie-rodzimych-llm-ow","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/polskie-zasoby-jezykowe-a-rozwijanie-rodzimych-llm-ow\/","title":{"rendered":"\ud83d\udd12 Polskie zasoby j\u0119zykowe a rozwijanie rodzimych LLM-\u00f3w"},"content":{"rendered":"<p>Wymaga on korzystania z odpowiedniej infrastruktury i zaanga\u017cowania kompetentnego zespo\u0142u, ale przede wszystkim dost\u0119pu do du\u017cego zbioru starannie dobranych danych. Jak mantr\u0119 powtarzamy has\u0142o garbage in, garbage out [pol. \u015bmieci na wej\u015bciu, \u015bmieci na wyj\u015bciu]. W uproszczeniu \u2013 im lepszych korpus\u00f3w u\u017cyjemy na wszystkich etapach tworzenia LLM-\u00f3w, tym bardziej satysfakcjonuj\u0105ce b\u0119d\u0105 efekty naszej pracy. Ograniczanie si\u0119 do niedostatecznie zweryfikowanych danych z r\u00f3\u017cnego rodzaju crawli (danych pobranych ze stron internetowych przez automatyczne systemy kopiuj\u0105ce tre\u015bci, tzw. crawlery) mo\u017ce skutkowa\u0107 niesatysfakcjonuj\u0105c\u0105 jako\u015bci\u0105 modelu czy prowadzi\u0107 do problem\u00f3w natury prawno-etycznej.<\/p><p>W odpowiedzi na te wyzwania i w kontrze do niezbyt etycznych praktyk niekt\u00f3rych du\u017cych korporacji w pracy nad lokalnymi modelami pojawia si\u0119 ostatnio trend d\u0105\u017cenia do wykorzystania dobrej jako\u015bci, bardziej zr\u00f3\u017cnicowanych, a przede wszystkim etycznie pozyskanych \u017ar\u00f3de\u0142. Mog\u0105 to by\u0107 teksty w domenie publicznej czy na innych (odpowiednich) licencjach Creative Commons, publikacje otrzymane od instytucji czy wydawc\u00f3w oraz istniej\u0105ce ju\u017c otwarte zasoby korpusowe. <\/p><p>Poni\u017cej om\u00f3wi\u0119 dziesi\u0119\u0107 wybranych subiektywnie zbior\u00f3w tego ostatniego typu \u2013 przedstawi\u0119 podstawowe informacje o ich zawarto\u015bci i funkcjonalno\u015bciach, a tak\u017ce kwestie licencji i jako\u015bci danych.<\/p><p><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p>Zacznijmy od korpus\u00f3w, kt\u00f3re powsta\u0142y z my\u015bl\u0105 o tworzeniu LLM-\u00f3w.<\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/huggingface.co\/datasets\/PleIAs\/Polish-PD?fbclid=IwY2xjawFZGr1leHRuA2FlbQIxMAABHS3YremZ3MG-iJ6CSC2EtIigStSFdLpJnuXS7I2AbNP4V2nL3TYUSZ5i-A_aem_P8FscYVqIE6O1Pd6r2zVrg\" data-type=\"link\" data-id=\"https:\/\/huggingface.co\/datasets\/PleIAs\/Polish-PD?fbclid=IwY2xjawFZGr1leHRuA2FlbQIxMAABHS3YremZ3MG-iJ6CSC2EtIigStSFdLpJnuXS7I2AbNP4V2nL3TYUSZ5i-A_aem_P8FscYVqIE6O1Pd6r2zVrg\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">Polish-PD (Polish-Public Domain)<\/mark><\/a><\/h4><p>Polish-PD to ogromny polskoj\u0119zyczny zbi\u00f3r tekst\u00f3w w domenie publicznej, czyli takich, do kt\u00f3rych nie powsta\u0142y maj\u0105tkowe prawa autorskie lub te prawa wygas\u0142y. Znajduje si\u0119 w nim prawie 250 tys. dokument\u00f3w, blisko 2,7 mld s\u0142\u00f3w (dane z marca 2024 r.) \u2013 g\u0142\u00f3wnie z archiw\u00f3w internetowych, w tym materia\u0142\u00f3w z bibliotek i instytucji kultury. Obecnie obejmuje publikacje sprzed 1884 roku, cho\u0107 planowane jest rozszerzenie korpusu o p\u00f3\u017aniejsze dokumenty. Warto zastanowi\u0107 si\u0119, czy korzystanie z tak archaicznych danych jest odpowiednie dla naszego modelu \u2013 i w jakiej proporcji. Polish-PD nie jest idealny pod wzgl\u0119dem jako\u015bci; osoby odpowiedzialne za jego tworzenie wskazuj\u0105 na konieczno\u015b\u0107 korekty b\u0142\u0119d\u00f3w, m.in. wynikaj\u0105cych z konwersji skan\u00f3w na tekst. Zalet\u0105 tego korpusu jest jego w pe\u0142ni otwarta licencja, co oznacza, \u017ce znajduje si\u0119 tam bardzo obszerny zbi\u00f3r legalnie dost\u0119pnych danych. Dodatkowym u\u0142atwieniem jest fakt, \u017ce mo\u017cna go \u0142atwo pobra\u0107 z repozytorium Hugging Face.<\/p><p><strong>Licencja: Domena publiczna<\/strong><\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/huggingface.co\/datasets\/allenai\/MADLAD-400\/tree\/main\/data\/pl?fbclid=IwY2xjawFZG2BleHRuA2FlbQIxMAABHa64P8QkNpNnMdg06xd-xxEcBet9_QrSFselxmrABnh3K1EVgn49GBN2ug_aem_IMI_3NBI5XlB63Hg0cWNuA\" data-type=\"link\" data-id=\"https:\/\/huggingface.co\/datasets\/allenai\/MADLAD-400\/tree\/main\/data\/pl?fbclid=IwY2xjawFZG2BleHRuA2FlbQIxMAABHa64P8QkNpNnMdg06xd-xxEcBet9_QrSFselxmrABnh3K1EVgn49GBN2ug_aem_IMI_3NBI5XlB63Hg0cWNuA\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">MADLAD-400<\/mark><\/a><\/h4><p>Wieloj\u0119zyczny (419 j\u0119zyk\u00f3w, w tym polski) zbi\u00f3r danych oparty na Common Crawl. Jest dost\u0119pny w dw\u00f3ch wersjach \u2013 z minimalnym filtrowaniem i z zastosowaniem r\u00f3\u017cnorodnych filtr\u00f3w. Obie poddano deduplikacji na poziomie dokument\u00f3w (usuni\u0119to duplikaty). Warto mimo wszystko pami\u0119ta\u0107 o potencjalnych wyzwaniach zwi\u0105zanych z jako\u015bci\u0105 i sp\u00f3jno\u015bci\u0105 danych w tym zbiorze w zwi\u0105zku z tym, na jakim \u017ar\u00f3dle bazuje. Zasadne wydaje si\u0119 r\u00f3wnie\u017c pytanie, czy taki wachlarz zasob\u00f3w internetowych powinien by\u0107 udost\u0119pniany na otwartej licencji. Link do podkorpusu polskiego; na stronie znajdziemy r\u00f3wnie\u017c pozosta\u0142e j\u0119zyki.<\/p><p><strong>Licencja: CC-BY-4.0 (uznanie autorstwa)<\/strong> <\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/speakleash.org\/dashboard\/?fbclid=IwY2xjawFZG31leHRuA2FlbQIxMAABHVq39YUn-3BUDfSsZPosrZlR0KsYZyj9Ya4KQHvJCXCBIKvDjAE8GWsH7Q_aem_lnWJH2FlBc6C45TOtA1zGw\" data-type=\"link\" data-id=\"https:\/\/speakleash.org\/dashboard\/?fbclid=IwY2xjawFZG31leHRuA2FlbQIxMAABHVq39YUn-3BUDfSsZPosrZlR0KsYZyj9Ya4KQHvJCXCBIKvDjAE8GWsH7Q_aem_lnWJH2FlBc6C45TOtA1zGw\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">SpeakLeash<\/mark><\/a><\/h4><p>SpeakLeash (Spichlerz) to zbi\u00f3r danych polskoj\u0119zycznych stworzony przez spo\u0142eczno\u015b\u0107 kilkuset pasjonat\u00f3w i pasjonatek LLM-\u00f3w. Dane zebrano z my\u015bl\u0105 o trenowaniu modelu j\u0119zykowego Bielik \u2013 w momencie pisania tego artyku\u0142u trwaj\u0105 prace nad jego drug\u0105 wersj\u0105. Na chwil\u0119 obecn\u0105 w SpeakLeashu znajdziemy oko\u0142o 123 mld s\u0142\u00f3w (dane ze strony internetowej na lipiec 2024) z r\u00f3\u017cnorodnych zbior\u00f3w webowych. S\u0105 mi\u0119dzy innymi dane z for\u00f3w specjalistycznych (np. motoryzacyjnych), artyku\u0142y z sieci \u2013 mi\u0119dzy innymi na tematy polityczne, r\u00f3\u017cne otwarte korpusy, np. stworzone w ramach konsorcjum CLARIN, zbiory CEON, Biblioteki Nauki, korpus ulotek medycznych czy tekst\u00f3w parlamentarnych (Korpus Dyskursu Parlamentarnego). Szczeg\u00f3\u0142owe informacje o strukturze Spichlerza, wraz z danymi na temat statusu licencyjnego cz\u0119\u015bci u\u017cytych \u017ar\u00f3de\u0142 czy zbior\u00f3w, udost\u0119pniono na oficjalnej stronie projektu https:\/\/speakleash.org\/dashboard. \u017beby wy\u015bwietli\u0107 aktualn\u0105 list\u0119, najlepiej wybra\u0107 funkcj\u0119 RAW Table. Z tw\u00f3rczyniami i tw\u00f3rcami modelu mo\u017cna si\u0119 kontaktowa\u0107 przez serwer SpeakLeash na Discordzie.<\/p><p>Od wielu lat polskie o\u015brodki akademickie i badawcze tworz\u0105 wysokiej jako\u015bci zasoby j\u0119zykowe, kt\u00f3rych cz\u0119\u015b\u0107 \u2013 na odpowiednich licencjach \u2013 mo\u017ce stanowi\u0107 cenne \u017ar\u00f3d\u0142o danych do rozwijania modeli. S\u0105 to korpusy, kt\u00f3re by\u0142y tworzone raczej z my\u015bl\u0105 o badaniach j\u0119zykoznawczych \u2013 np. Narodowy Korpus J\u0119zyka Polskiego, Korpus Wsp\u00f3\u0142czesnego J\u0119zyka Polskiego, Korpus Dyskursu Parlamentarnego \u2013 ale r\u00f3wnie\u017c zastosowaniach przetwarzania j\u0119zyka naturalnego. W tej drugiej kategorii wyr\u00f3\u017cni\u0107 mo\u017cna na przyk\u0142ad zbiory koreferencyjne, dyskursywne, korpusy parafraz czy zbiory do tzw. question answering, czyli zawieraj\u0105ce zestawy pyta\u0144 i odpowiedzi.<\/p><p><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><h4 class=\"wp-block-heading\">KORPUSY NARODOWE<\/h4><h4 class=\"wp-block-heading\"><a href=\"https:\/\/nkjp.pl\/\" data-type=\"link\" data-id=\"https:\/\/nkjp.pl\/\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">Narodowy Korpus J\u0119zyka Polskiego<\/mark><\/a><\/h4><p>Uznany i ceniony w Polsce zas\u00f3b do wielu zastosowa\u0144 \u2013 przede wszystkim analiz j\u0119zykoznawczych (cz\u0119sto jako korpus referencyjny) i zastosowa\u0144 NLP. By\u0142 u\u017cywany m.in. w projektach zwi\u0105zanych z rozpoznawaniem i przetwarzaniem mowy, testowaniem system\u00f3w do ujednoznaczniania s\u0142\u00f3w, badaniach antropologicznych czy w projektach na temat innowacji leksykalnych; stanowi r\u00f3wnie\u017c baz\u0119 materia\u0142ow\u0105 s\u0142ownik\u00f3w. Zawiera wysokiej jako\u015bci i oczyszczone dane, kt\u00f3re anotowano na wielu poziomach \u2013 morfosk\u0142adniowym, sk\u0142adniowym, semantycznym, jednostek nazewniczych. Jest zbalansowany, obejmuje r\u00f3\u017cne gatunki i style tekst\u00f3w. Wi\u0119kszo\u015b\u0107 tekst\u00f3w korpusu pochodzi z lat 1945\u20132010. Wersja zr\u00f3wnowa\u017cona zawiera 300 mln token\u00f3w, wersja pe\u0142na a\u017c 1,8 mld. Pe\u0142na wersja korpusu jest dost\u0119pna tylko do bada\u0144 naukowych i u\u017cytku w\u0142asnego. Na otwartych licencjach udost\u0119pniono pr\u00f3bk\u0119 1 mln s\u0142\u00f3w oraz podkorpus zawieraj\u0105cy teksty wolne od ogranicze\u0144 w\u0142asno\u015bci intelektualnej \u2013 w tym przypadku ca\u0142kiem poka\u017any zbi\u00f3r 634 000 artyku\u0142\u00f3w z Wikipedii (140 827 553 s\u0142\u00f3w), ksi\u0105\u017cek, stenogram\u00f3w komisji \u015bledczych, Dziennik\u00f3w Ustaw i transkrypcji obrad Sejmu i Senatu. NKJP to cenny zas\u00f3b s\u0142u\u017c\u0105cy do tworzenia narz\u0119dzi i prowadzenia bada\u0144 nad j\u0119zykiem polskim \u2013 niestety jego ograniczona dost\u0119pno\u015b\u0107 i kwestie licencyjne nie pozwalaj\u0105 na u\u017cycie jego pe\u0142nej i zr\u00f3wnowa\u017conej wersji w tworzeniu modeli. Pojedyncze teksty wchodz\u0105ce w sk\u0142ad tego korpusu \u2013 poza tymi wolnymi od ogranicze\u0144 w\u0142asno\u015bci intelektualnej \u2013 i tak nale\u017ca\u0142oby pozyska\u0107 za zgod\u0105 wydawcy czy instytucji i na podstawie umowy licencyjnej.<\/p><p><strong>Licencja: ograniczona<\/strong><\/p><ul class=\"wp-block-list\"><li><a href=\"https:\/\/nkjp.pl\/\" data-type=\"link\" data-id=\"https:\/\/nkjp.pl\/\" target=\"_blank\" rel=\"noopener\">wersja przeszukiwalna korpusu<\/a><\/li>\n\n<li><a href=\"https:\/\/zil.ipipan.waw.pl\/DistrNKJP?fbclid=IwY2xjawFZHkhleHRuA2FlbQIxMAABHcm0ineYp2VvvRMTRpRiV6FHb5cTvFhAlSJ-moggCRSZT5rxdutkq4y2yA_aem_UeeTO0L6h5mDFptgGOTHdA\" data-type=\"link\" data-id=\"https:\/\/zil.ipipan.waw.pl\/DistrNKJP?fbclid=IwY2xjawFZHkhleHRuA2FlbQIxMAABHcm0ineYp2VvvRMTRpRiV6FHb5cTvFhAlSJ-moggCRSZT5rxdutkq4y2yA_aem_UeeTO0L6h5mDFptgGOTHdA\" target=\"_blank\" rel=\"noopener\">wersja wolna od ogranicze\u0144 w\u0142asno\u015bci intelektualnej<\/a><\/li>\n\n<li><a href=\"http:\/haimagazine.com\/nkjp-probka\" data-type=\"link\" data-id=\"http:\/haimagazine.com\/nkjp-probka\">pr\u00f3bka 1 mln s\u0142\u00f3w<\/a><\/li><\/ul><h4 class=\"wp-block-heading\"><a href=\"https:\/\/kwjp.pl\/query_corpus\/21\/\" target=\"_blank\" data-type=\"link\" data-id=\"https:\/\/kwjp.pl\/query_corpus\/21\/\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">Korpus Wsp\u00f3\u0142czesnego J\u0119zyka Polskiego<\/mark><\/a><\/h4><p>Najbardziej aktualny og\u00f3lny czy referencyjny korpus polszczyzny \u2013 dane obejmuj\u0105 przedzia\u0142 od 2011 do 2020 roku. Zawiera ponad miliard s\u0142\u00f3w, w tym 100 mln w korpusie zr\u00f3wnowa\u017conym. W KWJP znajdziemy teksty masowe, czyli odzwierciedlaj\u0105ce przyzwyczajenia j\u0119zykowe os\u00f3b, kt\u00f3re pos\u0142uguj\u0105 si\u0119 j\u0119zykiem polskim. Jego g\u0142\u00f3wn\u0105 zalet\u0105 jest aktualno\u015b\u0107 i zr\u00f3wnowa\u017cona reprezentacja wsp\u00f3\u0142czesnej polszczyzny pisanej. KWJP r\u00f3\u017cni si\u0119 od NKJP brakiem tekst\u00f3w m\u00f3wionych i internetowych \u2013 tu skupiono si\u0119 bowiem na tradycyjnych formach pisemnych (prasa i literatura) pozyskanych od wydawc\u00f3w przez zesp\u00f3\u0142 pracuj\u0105cy nad korpusem. KWJP jest mniejszy od zr\u00f3wnowa\u017conego NKJP, poniewa\u017c ma reprezentowa\u0107 jedynie wspomnian\u0105 dekad\u0119 j\u0119zyka polskiego \u2013 zakres danych z wcze\u015bniejszego korpusu natomiast obejmuje niemal stulecie. W przypadku KWJP mo\u017cliwe jest jedynie korzystanie z korpusu \u2013 a w\u0142a\u015bciwie jego przeszukiwanie \u2013 na stronie internetowej. Wykorzystanie poszczeg\u00f3lnych tekst\u00f3w, kt\u00f3re znalaz\u0142y si\u0119 w korpusie, wymaga oczywi\u015bcie \u2013 podobnie jak w przypadku wi\u0119kszo\u015bci tekst\u00f3w NKJP \u2013 zgody wydawc\u00f3w i um\u00f3w licencyjnych. <\/p><p><strong>Licencja: ograniczona<\/strong><\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/kdp.nlp.ipipan.waw.pl\/overview\" target=\"_blank\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-contrast-color\">Korpus Dyskursu Parlamentarnego<\/mark><\/a><\/h4><p>W Polsce dost\u0119pne s\u0105 r\u00f3wnie\u017c zasoby na bardziej \u201eprzyjaznych\u201d licencjach. W\u015br\u00f3d nich znajdziemy korpusy specjalistyczne, np. parlamentarne. Korpus Dyskursu Parlamentarnego (KDP) to dane bardzo dobrej jako\u015bci, na kt\u00f3re sk\u0142adaj\u0105 si\u0119 polskoj\u0119zyczne stenogramy debat parlamentarnych, prac komisji oraz interpelacji i zapyta\u0144. Liczy ok. 800 mln s\u0142\u00f3w, a dokumentuje dzia\u0142alno\u015b\u0107 Sejmu i Senatu na przestrzeni lat \u2013 od 1919 roku a\u017c do czas\u00f3w wsp\u00f3\u0142czesnych. Co wa\u017cne, w przeciwie\u0144stwie do wy\u017cej opisanych korpus\u00f3w og\u00f3lnych, jest on regularnie aktualizowany o nowe materia\u0142y. KDP mo\u017cna pobra\u0107 w wersji bez anotacji (1,7 GB, w domenie publicznej), z anotacjami (34,4 GB, na licencji CC-BY) oraz w wersji testowej (pr\u00f3bka 39 MB zawieraj\u0105ca dane z r\u00f3\u017cnych okres\u00f3w). Teksty s\u0105 bogate w metadane i zosta\u0142y poddane automatycznej obr\u00f3bce za pomoc\u0105 narz\u0119dzi lingwistycznych, np. segmentacji tekstu i rozpoznawania nazw w\u0142asnych. KDP znajduje zastosowanie w wielu obszarach, w tym w badaniach lingwistycznych, dzi\u0119ki dost\u0119pnym interfejsowi umo\u017cliwiaj\u0105cemu analiz\u0119 tekstu. <\/p><p><strong>Licencja: CC-BY<\/strong><\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/github.com\/clarin-eric\/ParlaMint\" target=\"_blank\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">ParlaMint<\/mark><\/a><\/h4><p>Innym interesuj\u0105cym zbiorem danych parlamentarnych, cz\u0119\u015bciowo pokrywaj\u0105cym si\u0119 z KDP, jest ParlaMint, w kt\u00f3rym znajduj\u0105 si\u0119 stenogramy z 29 r\u00f3\u017cnych kraj\u00f3w oraz region\u00f3w autonomicznych. W korpusie dost\u0119pne s\u0105 r\u00f3wnie\u017c maszynowe t\u0142umaczenia tekst\u00f3w na j\u0119zyk angielski. Podkorpusy mo\u017cna pobiera\u0107 w wersjach anotowanej i nieanotowanej z repozytorium; do cel\u00f3w stricte badawczych mo\u017cna je r\u00f3wnie\u017c przeszukiwa\u0107 w aplikacji NoSketchEngine. Na GitHubie udost\u0119pniono pr\u00f3bki podkorpus\u00f3w, schemat XML oraz skrypty przetwarzania i walidacji. Licencja typu \u201euznanie autorstwa\u201d to oczywi\u015bcie dobra wiadomo\u015b\u0107. <\/p><p><strong>Licencja: CC-BY<\/strong><\/p><p><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><h4 class=\"wp-block-heading\">Pozosta\u0142e korpusy<\/h4><p>Zupe\u0142nie innym typem korpus\u00f3w, o kt\u00f3rych chcia\u0142abym wspomnie\u0107, s\u0105 o wiele mniejsze zbiory do konkretnego u\u017cytku. Nie spos\u00f3b tu wymieni\u0107 wszystkich funkcjonalno\u015bci \u2013 podam wi\u0119c w tym zestawieniu jedynie nieliczne przyk\u0142ady. Warte uwagi w kontek\u015bcie LLM-\u00f3w mog\u0105 by\u0107 zbiory pyta\u0144 i odpowiedzi (question answering, QA).<\/p><h4 class=\"wp-block-heading\"><a href=\"http:\/\/www.polqa.info\" target=\"_blank\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">PolQA<\/mark><\/a><\/h4><p>Znajdzie zastosowanie w zadaniach zwi\u0105zanych z odpowiadaniem na pytania, wyszukiwaniem dokument\u00f3w czy abstrakcyjnym odpowiadaniem na pytania. Pytania w korpusie pochodz\u0105 od prowadz\u0105cego popularny program telewizyjny Jeden z Dziesi\u0119ciu Tadeusza Sznuka, a fragmenty tekstu \u2013 z polskiej Wikipedii. Przed u\u017cyciem tego i kolejnego zbioru warto zapozna\u0107 si\u0119 z zasadami licencji CC BY-SA 4.0 \u2013 w tym przypadku modyfikacje lub utwory zale\u017cne powinny by\u0107 udost\u0119pniane na tej samej licencji. <\/p><p><strong>Licencja: CC BY-SA 4.0<\/strong><\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/huggingface.co\/datasets\/clarin-pl\/poquad\" target=\"_blank\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">PoQuAD<\/mark><\/a><\/h4><p>Podobny do korpusu PolQA polski odpowiednik zbioru SQuAD. Zawiera pary pytanie\u2013odpowied\u017a z fragmentami tekstu pochodz\u0105cymi z polskiej Wikipedii. W przeciwie\u0144stwie do PolQA, PoQuAD zosta\u0142 stworzony poprzez wpisywanie pyta\u0144 do danego fragmentu tekstu, a nie przez znalezienie fragmentu pasuj\u0105cego do wcze\u015bniej sformu\u0142owanego pytania. <\/p><p><strong>Licencja: CC BY-SA 4.0<\/strong><\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/huggingface.co\/datasets\/sdadas\/8tags\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">8TAGS<\/mark><\/a><\/h4><p>Korpus do klasyfikacji tematycznej, w kt\u00f3rym znajdziemy oko\u0142o 50 tys. zda\u0144 pochodz\u0105cych z nag\u0142\u00f3wk\u00f3w post\u00f3w w mediach spo\u0142eczno\u015bciowych, oznaczonych etykietami tematycznymi. Zosta\u0142 stworzony automatycznie poprzez ekstrakcj\u0119 zda\u0144 z nag\u0142\u00f3wk\u00f3w i kr\u00f3tkich opis\u00f3w artyku\u0142\u00f3w publikowanych na Wykopie. Zawarto\u015b\u0107 zbioru to oczyszczone i tokenizowane, jednoznaczne zdania o d\u0142ugo\u015bci przekraczaj\u0105cej 30 znak\u00f3w, kt\u00f3re oznaczono jedn\u0105 z kategorii. Nale\u017cy zwr\u00f3ci\u0107 uwag\u0119 na fakt, \u017ce 8TAGS jest udost\u0119pniony na licencji, kt\u00f3ra wyklucza jego u\u017cycie komercyjne. <\/p><p><strong>Licencja: CC BY-NC-SA 4.0<\/strong><\/p><h4 class=\"wp-block-heading\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\"><a href=\"https:\/\/zil.ipipan.waw.pl\/PolishCoreferenceCorpus\" target=\"_blank\" rel=\"noreferrer noopener\">Polish Coreference Corpus<\/a><\/mark><\/h4><p>Korpus zale\u017cno\u015bci relacyjnych to specjalistyczny zas\u00f3b skupiaj\u0105cy si\u0119 na zjawisku koreferencji w j\u0119zyku polskim. Zawiera 540 tys. token\u00f3w \u2013 jest jednym z najwi\u0119kszych korpus\u00f3w koreferencyjnych na \u015bwiecie. Wyr\u00f3\u017cnia si\u0119 szerokim zakresem pojmowania koreferencji oraz dok\u0142adn\u0105, r\u0119czn\u0105 anotacj\u0105. G\u0142\u00f3wnym celem korpusu jest wspieranie bada\u0144 lingwistycznych nad koreferencj\u0105 oraz rozw\u00f3j zaawansowanych narz\u0119dzi do przetwarzania polszczyzny, szczeg\u00f3lnie w zakresie automatycznego wykrywania koreferencji \u2013 to mo\u017ce by\u0107 jego potencjalne zastosowanie w modelu (niekomercyjnym).<\/p><p><strong>Licencja: CC BY-NC 4.0<\/strong><\/p><p><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><h4 class=\"wp-block-heading\">PRZEGL\u0104DY I REPOZYTORIA POLSKOJ\u0118ZYCZNYCH ZASOB\u00d3W<\/h4><p>W ostatnim czasie pojawiaj\u0105 si\u0119 nowe przepisy i zmiany zwi\u0105zane ze standardami etycznymi w zakresie praw autorskich, praw wydawc\u00f3w i kwestii licencyjnych. R\u00f3wnocze\u015bnie zmienia si\u0119 \u015bwiadomo\u015b\u0107 spo\u0142eczna dotycz\u0105ca danych. Badanie opisane w artykule <em>Consent in Crisis \u2013 The Rapid Decline of the AI Data Commons<\/em> wskaza\u0142o na zwi\u0105zane m.in. z powy\u017cszym rosn\u0105ce trudno\u015bci w dost\u0119pie do danych. Przeanalizowano kilkana\u015bcie tysi\u0119cy domen internetowych zawartych w trzech powszechnie u\u017cywanych zestawach danych treningowych. Badanie wykaza\u0142o coraz mniejsz\u0105 liczb\u0119 zg\u00f3d na wykorzystanie danych z r\u00f3\u017cnych \u017ar\u00f3de\u0142 internetowych, czego efektem s\u0105 wyzwania w zakresie tworzenia modeli j\u0119zykowych, jak i wykorzystywania r\u00f3\u017cnych \u017ar\u00f3de\u0142 do prowadzenia bada\u0144 naukowych, r\u00f3wnie\u017c tych niekomercyjnych. Tworzenie polskich modeli j\u0119zykowych (takich jak PLLuM) wymaga przestrzegania przepis\u00f3w i znajomo\u015bci dobrych praktyk zwi\u0105zanych z gromadzeniem oraz wykorzystaniem danych. Kluczowa jest analiza licencji \u017ar\u00f3de\u0142. Nawi\u0105zywanie wsp\u00f3\u0142pracy z wydawcami, pozyskiwanie zg\u00f3d i zawieranie um\u00f3w licencyjnych przyczynia si\u0119 do ustanowienia bardziej etycznych standard\u00f3w w tworzeniu LLM-\u00f3w w Polsce. Warto te\u017c pami\u0119ta\u0107 o potencjale istniej\u0105cych zasob\u00f3w \u2013 ju\u017c powy\u017csza kr\u00f3tka lista wskazuje na ich bogactwo i r\u00f3\u017cnorodno\u015b\u0107, cho\u0107 to jedynie pr\u00f3bka. Mimo \u017ce kwestie licencyjne mog\u0105 ogranicza\u0107 wykorzystanie niekt\u00f3rych korpus\u00f3w, analiza dost\u0119pnych materia\u0142\u00f3w mo\u017ce ujawni\u0107 wiele tre\u015bci, kt\u00f3re mo\u017cna w\u0142\u0105czy\u0107 do budowania modelu. <\/p><p>Zainteresowanym pe\u0142niejszym obrazem dost\u0119pnych zasob\u00f3w mo\u017cna poleci\u0107 nast\u0119puj\u0105ce \u017ar\u00f3d\u0142a:<\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/catalogue.elra.info\/en-us\/\" target=\"_blank\" data-type=\"link\" data-id=\"https:\/\/catalogue.elra.info\/en-us\/\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">Katalog ELRA<\/mark><\/a><\/h4><p>82 zasoby dla j\u0119zyka polskiego, z mo\u017cliwo\u015bci\u0105 filtrowania po m.in. licencjach.<\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/www.clarin.eu\/content\/virtual-language-observatory-vlo\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">CLARIN ERIC Virtual LanguageObservatory<\/mark><\/a><\/h4><p>prawdziwa skarbnica zasob\u00f3w, agreguj\u0105ca a\u017c 418 polskoj\u0119zycznych zasob\u00f3w. Platforma umo\u017cliwia filtrowanie zasob\u00f3w po ich dost\u0119pno\u015bci i rodzaju licencji.<\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/clip.ipipan.waw.pl\" target=\"_blank\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">CLIP \u2013 Computational Linguistics in Poland<\/mark><\/a><\/h4><p>lista Instytutu Podstaw Informatyki PAN zawieraj\u0105ca obszerny przegl\u0105d oko\u0142o 70 korpus\u00f3w, narz\u0119dzi i zasob\u00f3w lingwistycznych dla j\u0119zyka polskiego, podzielonych na r\u00f3\u017cne kategorie.<\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/clarin-pl.eu\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">Strona CLARIN-PL<\/mark><\/a><\/h4><p>zestawienie mniejszej grupy zasob\u00f3w j\u0119zykowych i narz\u0119dzi do ich analizy. <\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/metashare.ut.ee\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">META Share<\/mark><\/a><\/h4><p>agreguje 182 zasoby po wyszukaniu has\u0142a \u201ePolish&#8221;; mo\u017cliwo\u015b\u0107 filtrowania po licencji.<\/p><p> <img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p>Repozytoria GitHub:<\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/github.com\/ksopyla\/awesome-nlp-polish?fbclid=IwY2xjawFnlrhleHRuA2FlbQIxMAABHUOAA4Ha_hEcQfLe1fH-PNCEgsbZEA00yxft-Td1i0AsUHA2wMUnnPrYiA_aem_xC9K_VId52yo8h33tfKFGQ\" target=\"_blank\" rel=\"noreferrer noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">Awesome NLP Polish<\/mark><\/a><\/h4><p>autorstwa Krzysztofa Sopy\u0142y<\/p><h4 class=\"wp-block-heading\"><a href=\"https:\/\/github.com\/sdadas\/polish-nlp-resources\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color\">Polish NLP Resources<\/mark><\/a><\/h4><p>autorstwa S\u0142awomira Dadasa<\/p><p><\/p>","protected":false},"excerpt":{"rendered":"<p>Tworzenie wysokiej jako\u015bci modeli j\u0119zykowych to system naczy\u0144 po\u0142\u0105czonych. Wymaga on korzystania z odpowiedniej infrastruktury i zaanga\u017cowania kompetentnego zespo\u0142u, ale przede wszystkim dost\u0119pu do du\u017cego zbioru starannie dobranych danych.<\/p>\n","protected":false},"author":36,"featured_media":4509,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,404],"tags":[],"popular":[],"difficulty-level":[37],"ppma_author":[362],"class_list":["post-4506","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-2","difficulty-level-hard"],"acf":[],"authors":[{"term_id":362,"user_id":36,"is_guest":0,"slug":"aleksandra-tomaszewska","display_name":"Aleksandra Tomaszewska","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/12\/Image-2.jpeg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/12\/Image-2.jpeg"},"first_name":"Aleksandra","last_name":"Tomaszewska","user_url":"","job_title":"","description":"Badaczka w IPI PAN, j\u0119zykoznawczyni, wyk\u0142adowczyni i t\u0142umaczka. W projekcie PLLuM koordynuje tworzenie polskoj\u0119zycznego korpusu i zasiada w projektowych komisjach. Wsp\u00f3\u0142tworzy otwarte narz\u0119dzia i zasoby j\u0119zykowe. Cz\u0142onkini GRAI, sekcja \u201eDane dla AI\u201d."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4506","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/36"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=4506"}],"version-history":[{"count":11,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4506\/revisions"}],"predecessor-version":[{"id":6262,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4506\/revisions\/6262"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/4509"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=4506"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=4506"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=4506"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=4506"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=4506"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=4506"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}