{"id":3385,"date":"2024-08-29T12:53:00","date_gmt":"2024-08-29T12:53:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=3385"},"modified":"2025-06-24T14:23:08","modified_gmt":"2025-06-24T12:23:08","slug":"korpusy-w-ai-w-2024-roku-w-kierunku-danych-lepszej-jakosci","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/korpusy-w-ai-w-2024-roku-w-kierunku-danych-lepszej-jakosci\/","title":{"rendered":"\ud83d\udd12 Korpusy w AI w 2024 roku. W kierunku danych lepszej jako\u015bci"},"content":{"rendered":"<p>Zacznijmy od przyjrzenia si\u0119 zbiorom, kt\u00f3re powsta\u0142y w ci\u0105gu ostatnich kilku lat i s\u0105 rozpoznawalne globalnie: The Pile, RedPajama, Dolma, Cosmopedia i Common Corpus. Rzucimy te\u017c okiem na kilka przyk\u0142ad\u00f3w danych polskoj\u0119zycznych.<br><br>Kilkana\u015bcie lat temu swoj\u0105 premier\u0119 mia\u0142 Common Crawl. To powszechnie znane repozytorium, kt\u00f3re zawiera obecnie ponad 250 miliard\u00f3w stron (dane na kwiecie\u0144 2024 roku \u2013 co miesi\u0105c przybywa oko\u0142o 3\u20135 mld). Common Crawl jest punktem odniesienia dla wi\u0119kszo\u015bci powstaj\u0105cych obecnie zbior\u00f3w treningowych, o kt\u00f3rych m\u00f3wi si\u0119, \u017ce s\u0105 tworzone w odpowiedzi na dane cz\u0119\u015bciowo niskiej jako\u015bci i uci\u0105\u017cliwe w bezpo\u015brednim stosowaniu w modelach, m.in. ze wzgl\u0119du na problemy z konwersj\u0105.<\/p><p>Jako\u015b\u0107 cz\u0119\u015bci zbior\u00f3w powsta\u0142ych w ostatnich latach wci\u0105\u017c pozostawia wiele do \u017cyczenia i korzystanie z nich wymaga przejrzenia danych, ewentualnej selekcji podkorpus\u00f3w, szerokiej obr\u00f3bki wst\u0119pnej (<em>preprocessing<\/em>). Warto te\u017c wczyta\u0107 si\u0119 w zapisy warunk\u00f3w licencyjnych. Na przyk\u0142ad je\u015bli chcemy nasz korpus treningowy upubliczni\u0107 i szczeg\u00f3\u0142owo opisa\u0107, istotne b\u0119d\u0105 kwestie praw autorskich i danych osobowych. Trzeba pami\u0119ta\u0107, \u017ce bazy mog\u0105 np. zawiera\u0107 dane wra\u017cliwe (np. osobowe), wprowadzaj\u0105ce w b\u0142\u0105d informacje, a tak\u017ce tre\u015bci potencjalnie szkodliwe. Przeciwdzia\u0142anie potencjalnym naruszeniom danych wynikaj\u0105cym z korzystania z takich zbior\u00f3w jest bardzo trudne, dlatego opr\u00f3cz kwestii prawnoautorskich warto r\u00f3wnie\u017c zobaczy\u0107, w jaki spos\u00f3b dane te by\u0142y czyszczone czy obrabiane i na ile rzeczywi\u015bcie mog\u0142o to podnie\u015b\u0107 ich jako\u015b\u0107.<\/p><h3 class=\"wp-block-heading\">The Pile<\/h3><p>The Pile (pol. sterta) to korpus z 2020 roku, kt\u00f3ry powsta\u0142 w odpowiedzi na wspomniane wy\u017cej problemy z Common Crawlem. Sk\u0142ada si\u0119 z ponad dwudziestu r\u00f3\u017cnorodnych zbior\u00f3w danych, do kt\u00f3rych nale\u017c\u0105 teksty naukowe, akty prawne, zbiory ksi\u0105\u017cek, Wikipedia, wypowiedzi parlamentarne czy nawet e-maile. Niekt\u00f3re dane w The Pile s\u0105 na otwartych licencjach, np. dokumenty z The Free Law Project, wypowiedzi z Parlamentu Europejskiego czy ksi\u0105\u017cki z Projektu Gutenberg. Znajduj\u0105 si\u0119 tam te\u017c dane o zr\u00f3\u017cnicowanych licencjach, np. z ArXiv (g\u0142\u00f3wnie teksty naukowe informatyczno-techniczne) i z GitHub. <strong>W\u015br\u00f3d zbior\u00f3w wymagaj\u0105cych szczeg\u00f3lnej ostro\u017cno\u015bci wymieni\u0107 mo\u017cna: Books3, OpenWeb Text2, OpenSubtitles, BookCorpus2 i YouTube Subtitles. Na przyk\u0142ad Books3 to oko\u0142o 200 tysi\u0119cy pirackich e-book\u00f3w. W The Pile znajduje si\u0119 r\u00f3wnie\u017c Pile-CC, kt\u00f3ry jest przefiltrowanym podzbiorem Common Crawl. Kolejnym kontrowersyjnym podkorpusem jest baza e-maili Enron, zawieraj\u0105ca teksty zebrane przez rz\u0105d ameryka\u0144ski w ramach prowadzonego \u015bledztwa<\/strong>. Osoby, kt\u00f3rych wiadomo\u015bci si\u0119 tam znalaz\u0142y, nie by\u0142y pytane o zgod\u0119 na ich udost\u0119pnienie.<\/p><p>Oczywi\u015bcie jest mo\u017cliwo\u015b\u0107, \u017ceby z The Pile wybra\u0107 tylko te dane, kt\u00f3re s\u0105 na otwartych licencjach. Jednak, jak w przypadku wielu innych zbior\u00f3w, s\u0105 to teksty stosunkowo nieaktualne, np. EuroParl ko\u0144czy si\u0119 na 2012 roku, a ksi\u0105\u017cki wybrane z Projektu Gutenberg na roku 1919.<\/p><p>Zbi\u00f3r znajduje si\u0119 <mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><a href=\"https:\/\/pile.eleuther.ai\/\" target=\"_blank\" rel=\"noopener\"><strong>TUTAJ<\/strong><\/a> <\/mark><\/p><h3 class=\"wp-block-heading\">RedPajama<\/h3><p>RedPajama to korpus wieloj\u0119zyczny, zawiera teksty m.in. w j\u0119zyku angielskim, niemieckim, francuskim, w\u0142oskim i hiszpa\u0144skim \u2013 \u0142\u0105cznie oko\u0142o 30,4 biliona token\u00f3w. Celem by\u0142o stworzenie konkurencyjnego, otwartego zbioru ze struktur\u0105 podobn\u0105 do tej, na kt\u00f3rej by\u0142y trenowane najwi\u0119ksze LLM-y (kt\u00f3re obecnie s\u0105 modelami komercyjnymi lub tylko cz\u0119\u015bciowo otwartymi). <strong>RedPajama zaprojektowano po to, \u017ceby ograniczy\u0107 czasoch\u0142onne zadania przy tworzeniu modeli, np. filtrowanie surowych danych. <\/strong>Jako\u015b\u0107 tekst\u00f3w podnoszono przez deduplikacj\u0119, stosowano te\u017c klasyfikatory jako\u015bci. Ulepszony zestaw danych w drugiej wersji RedPajama (V2) zawiera metadane, kt\u00f3re u\u0142atwiaj\u0105 filtrowanie w celu utworzenia w\u0142asnego korpusu danych do pretreningu. W korpusie znajduj\u0105 si\u0119 w wi\u0119kszo\u015bci dane z Common Crawl (84 zrzuty), C4, GitHuba, Books, Wikipedii i StackExchange.<\/p><p>Zbi\u00f3r znajduje si\u0119 <a href=\"https:\/\/github.com\/togethercomputer\/RedPajama-Data\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">TUTAJ<\/mark><\/strong><\/a><\/p><h3 class=\"wp-block-heading\">Dolma<\/h3><p>Data for Open Language Models\u2019 Appetite (Dolma) to udost\u0119pniony w styczniu tego roku otwarty korpus sk\u0142adaj\u0105cy si\u0119 z trzech bilion\u00f3w token\u00f3w. Wi\u0119kszo\u015b\u0107 danych pochodzi ze \u017ar\u00f3de\u0142 podobnych do tych obecnych w poprzednich pracach, w tym tekst\u00f3w internetowych z Common Crawl, tekst\u00f3w naukowych z Semantic Scholar, kodu z GitHub, ksi\u0105\u017cek z domeny publicznej, post\u00f3w z Reddita i wpis\u00f3w z Wikipedii. <strong>Dane z Dolmy zosta\u0142y poddane r\u00f3\u017cnym procedurom podnosz\u0105cym jako\u015b\u0107 i etyczno\u015b\u0107 zbioru, np. odfiltrowano teksty toksyczne, dokonano deduplikacji. <\/strong>O szczeg\u00f3\u0142ach na temat tych procedur oraz danych mo\u017cna przeczyta\u0107 w artykule <em>Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research<\/em>. W najnowszej wersji (1.7) udost\u0119pnionej w kwietniu 2024 roku dodano nowe \u017ar\u00f3d\u0142a; zmie- niono r\u00f3wnie\u017c licencj\u0119 na ODC-BY. Dolma zawiera obecnie 3 biliony token\u00f3w.<\/p><p>Zbi\u00f3r znajduje si\u0119 <strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><a href=\"https:\/\/allenai.github.io\/dolma\/\" target=\"_blank\" rel=\"noopener\">TUTAJ<\/a> <\/mark><\/strong><\/p><h3 class=\"wp-block-heading\">Cosmopedia<\/h3><p>Opublikowana r\u00f3wnie\u017c na pocz\u0105tku 2024 roku Cosmopedia zawiera dane generowane przez modele j\u0119zykowe. To zbi\u00f3r podr\u0119cznik\u00f3w, post\u00f3w, opowiada\u0144, artyku\u0142\u00f3w \u2013 ale, w odr\u00f3\u017cnieniu od poprzednich korpus\u00f3w w zestawieniu, wygenerowanych przez Mixtral-8x7B-Instruct-v0.1. <strong>Korpus zawiera ponad 30 milion\u00f3w plik\u00f3w i 25 miliard\u00f3w token\u00f3w \u2013 jest to obecnie najwi\u0119kszy otwarty syntetyczny zbi\u00f3r danych. <\/strong>Syntetyczne dane utworzono tak, aby odzwierciedla\u0142y wiedz\u0119 z innych, niesyntetycznych zbior\u00f3w, np. RefinedWeb i Red Pajama.<\/p><p>Zbi\u00f3r znajduje si\u0119 <a href=\"https:\/\/github.com\/huggingface\/cosmopedia\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">TUTAJ<\/mark><\/strong><\/a> <\/p><h3 class=\"wp-block-heading\">Common Corpus<\/h3><p>W 2023 roku OpenAI zakomunikowa\u0142o, \u017ce trenowanie wiod\u0105cych modeli AI bez korzystania z chronionych tre\u015bci by\u0142o dot\u0105d \u201eniemo\u017cliwe\u201d. W momencie gdy pojawi\u0142 si\u0119 Common Corpus, to stwierdzenie sta\u0142o si\u0119 nieaktualne. To zaawansowany i etyczny zbi\u00f3r danych opracowany w odpowiedzi na wspomniane wyzwania zwi\u0105zane z wykorzystaniem materia\u0142\u00f3w obj\u0119tych prawem autorskim w treningu modeli. Ten korpus to (p\u00f3ki co) najwi\u0119kszy na \u015bwiecie korpus tego typu sk\u0142adaj\u0105cy si\u0119 wy\u0142\u0105cznie z materia\u0142\u00f3w w domenie publicznej. Zawiera 500 miliard\u00f3w s\u0142\u00f3w z r\u00f3\u017cnorodnych \u017ar\u00f3de\u0142 w kilku j\u0119zykach, np. francuskim, holenderskim, hiszpa\u0144skim, niemieckim i w\u0142oskim. Sam angloj\u0119zyczny podkorpus zawiera 180 miliard\u00f3w s\u0142\u00f3w, w tym obszern\u0105 kolekcj\u0119 zdigitalizowanych gazet i obszerne zbiory monograficzne. Jest to r\u00f3wnie\u017c najwi\u0119kszy dot\u0105d otwarty zbi\u00f3r danych w j\u0119zyku francuskim (110 miliard\u00f3w s\u0142\u00f3w), niemieckim (30 miliard\u00f3w s\u0142\u00f3w) i innych. W korpusie znajduj\u0105 si\u0119 dane raczej wysokiej jako\u015bci \u2013 przewy\u017cszaj\u0105cej powszechnie u\u017cywane do trening\u00f3w zbiory danych np. z Common Crawl.<\/p><p>Zbi\u00f3r znajduje si\u0119 <a href=\"https:\/\/commoncrawl.org\/\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">TUTAJ<\/mark><\/strong><\/a> <\/p><h3 class=\"wp-block-heading\">Przyk\u0142ady korpus\u00f3w polskoj\u0119zycznych<\/h3><p>Powy\u017cej opisane zbiory s\u0105 na j\u0119zykach spo\u0142eczno\u015bci globalnej w 2024 roku i s\u0105 one si\u0142\u0105 rzeczy anglocentryczne. Rzadko znajdziemy w nich polskie dane \u2013 wyj\u0105tkiem jest The Common Corpus, z kt\u00f3rego pobierzemy Polish-PD. Korpusy polskoj\u0119zyczne to temat na odr\u0119bny tekst, tu ogranicz\u0119 si\u0119 jedynie do podania kilku przyk\u0142ad\u00f3w. Na pewno warto zwr\u00f3ci\u0107 uwag\u0119 na <a href=\"http:\/\/speakleash.org\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">Spichlerz<\/mark><\/strong><\/a>, <a href=\"https:\/\/paperswithcode.com\/dataset\/c4\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">C4<\/mark><\/strong><\/a>, <a href=\"https:\/\/huggingface.co\/datasets\/allenai\/MADLAD-400\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">MADLAD-400<\/mark><\/strong><\/a>, <a href=\"https:\/\/huggingface.co\/datasets\/uonlp\/CulturaX\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">CulturaX<\/mark><\/strong><\/a> czy budowany w\u0142a\u015bnie korpus w projekcie <a href=\"https:\/\/pllum.org.pl\/\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">PLLuM<\/mark><\/strong><\/a>, a tak\u017ce dane, kt\u00f3re powsta\u0142y raczej z my\u015bl\u0105 o badaniach j\u0119zykoznawczych ni\u017c o trenowaniu modeli, np. <a href=\"https:\/\/nkjp.pl\/\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">Narodowy Korpus J\u0119zyka Polskiego<\/mark><\/strong>,<\/a> <strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><a href=\"https:\/\/kwjp.ipipan.waw.pl\/texts\" target=\"_blank\" rel=\"noopener\">Korpus Wsp\u00f3\u0142czesnego J\u0119zyka Polskiego<\/a> <\/mark><\/strong>czy <a href=\"https:\/\/clarin-pl.eu\/index.php\/kdp\/\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">Korpus Dyskursu Parlamentarnego<\/mark><\/strong><\/a>.<\/p><h4 class=\"wp-block-heading\">Podsumowanie<\/h4><p>W zwi\u0105zku z wy\u015bcigiem na rynku, ale te\u017c wieloma wyzwaniami natury prawno-etycznej i potrzeb\u0105 tworzenia danych wy\u017cszej jako\u015bci ostatnio powstaj\u0105ce korpusy zmierzaj\u0105 w kierunku danych bardziej oczyszczonych, lepiej przemy\u015blanych pod k\u0105tem struktury, a przede wszystkim z mniej szkodliwymi tre\u015bciami, bardziej etycznych i zgodnych z obowi\u0105zuj\u0105cym prawem. Tw\u00f3rcy i tw\u00f3rczynie zbior\u00f3w pr\u00f3buj\u0105 szuka\u0107 nowych sposob\u00f3w na to, \u017ceby nie \u0142ama\u0107 praw autorskich. Jak wida\u0107 na przyk\u0142adach Cosmopedii czy Common Corpus, umo\u017cliwiaj\u0105 np. generowanie danych syntetycznych czy tworzenie ogromnych zbior\u00f3w danych tylko na otwartej licencji. Pozostaje czeka\u0107 na kolejne osi\u0105gni\u0119cia w tej dziedzinie i nast\u0119pne \u2013 jeszcze bardziej jako\u015bciowe i przemy\u015blane korpusy, ale r\u00f3wnie\u017c takie uwzgl\u0119dniaj\u0105ce wi\u0119kszy udzia\u0142 polskich danych do wykorzystania w uczeniu wielkich modeli j\u0119zykowych.<\/p>","protected":false},"excerpt":{"rendered":"<p>O premierach nowych modeli j\u0119zykowych s\u0142yszymy w ostatnich miesi\u0105cach w\u0142a\u015bciwie co chwil\u0119. Tempo tego wy\u015bcigu na \u015bwiecie, ale i czasoch\u0142onno\u015b\u0107 tworzenia od podstaw w\u0142asnych korpus\u00f3w do trenowania i dostrajania modeli sprawiaj\u0105, \u017ce na wag\u0119 z\u0142ota staje si\u0119 mo\u017cliwo\u015b\u0107 korzystania z ogromnych zbior\u00f3w dost\u0119pnych w darmowych repozytoriach. <\/p>\n","protected":false},"author":36,"featured_media":3386,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,756,759,754,389,403],"tags":[247,248,193],"popular":[],"difficulty-level":[37],"ppma_author":[362],"class_list":["post-3385","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_branza","category-edukacja","category-hai_premium","category-narzedzia","category-hai-magazine-1","tag-ai-datasets","tag-data","tag-llm-2","difficulty-level-hard"],"acf":[],"authors":[{"term_id":362,"user_id":36,"is_guest":0,"slug":"aleksandra-tomaszewska","display_name":"Aleksandra Tomaszewska","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/12\/Image-2.jpeg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/12\/Image-2.jpeg"},"first_name":"Aleksandra","last_name":"Tomaszewska","user_url":"","job_title":"","description":"Badaczka w IPI PAN, j\u0119zykoznawczyni, wyk\u0142adowczyni i t\u0142umaczka. W projekcie PLLuM koordynuje tworzenie polskoj\u0119zycznego korpusu i zasiada w projektowych komisjach. Wsp\u00f3\u0142tworzy otwarte narz\u0119dzia i zasoby j\u0119zykowe. Cz\u0142onkini GRAI, sekcja \u201eDane dla AI\u201d."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3385","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/36"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=3385"}],"version-history":[{"count":4,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3385\/revisions"}],"predecessor-version":[{"id":3851,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3385\/revisions\/3851"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/3386"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=3385"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=3385"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=3385"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=3385"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=3385"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=3385"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}