Twój koszyk jest obecnie pusty!
Zacznijmy od przyjrzenia się zbiorom, które powstały w ciągu ostatnich kilku lat i są rozpoznawalne globalnie: The Pile, RedPajama, Dolma, Cosmopedia i Common Corpus. Rzucimy też okiem na kilka przykładów danych polskojęzycznych.
Kilkanaście lat temu swoją premierę miał Common Crawl. To powszechnie znane repozytorium, które zawiera obecnie ponad 250 miliardów stron (dane na kwiecień 2024 roku – co miesiąc przybywa około 3–5 mld). Common Crawl jest punktem odniesienia dla większości powstających obecnie zbiorów treningowych, o których mówi się, że są tworzone w odpowiedzi na dane częściowo niskiej jakości i uciążliwe w bezpośrednim stosowaniu w modelach, m.in. ze względu na problemy z konwersją.
Jakość części zbiorów powstałych w ostatnich latach wciąż pozostawia wiele do życzenia i korzystanie z nich wymaga przejrzenia danych, ewentualnej selekcji podkorpusów, szerokiej obróbki wstępnej (preprocessing). Warto też wczytać się w zapisy warunków licencyjnych. Na przykład jeśli chcemy nasz korpus treningowy upublicznić i szczegółowo opisać, istotne będą kwestie praw autorskich i danych osobowych. Trzeba pamiętać, że bazy mogą np. zawierać dane wrażliwe (np. osobowe), wprowadzające w błąd informacje, a także treści potencjalnie szkodliwe. Przeciwdziałanie potencjalnym naruszeniom danych wynikającym z korzystania z takich zbiorów jest bardzo trudne, dlatego oprócz kwestii prawnoautorskich warto również zobaczyć, w jaki sposób dane te były czyszczone czy obrabiane i na ile rzeczywiście mogło to podnieść ich jakość.