Korpusy w AI w 2024 roku. W kierunku danych lepszej jakości

O premierach nowych modeli językowych słyszymy w ostatnich miesiącach właściwie co chwilę. Tempo tego wyścigu na świecie, ale i czasochłonność tworzenia od podstaw własnych korpusów do trenowania i dostrajania modeli sprawiają, że na wagę złota staje się możliwość korzystania z ogromnych zbiorów dostępnych w darmowych repozytoriach.

Zacznijmy od przyjrzenia się zbiorom, które powstały w ciągu ostatnich kilku lat i są rozpoznawalne globalnie: The Pile, RedPajama, Dolma, Cosmopedia i Common Corpus. Rzucimy też okiem na kilka przykładów danych polskojęzycznych.

Kilkanaście lat temu swoją premierę miał Common Crawl. To powszechnie znane repozytorium, które zawiera obecnie ponad 250 miliardów stron (dane na kwiecień 2024 roku – co miesiąc przybywa około 3–5 mld). Common Crawl jest punktem odniesienia dla większości powstających obecnie zbiorów treningowych, o których mówi się, że są tworzone w odpowiedzi na dane częściowo niskiej jakości i uciążliwe w bezpośrednim stosowaniu w modelach, m.in. ze względu na problemy z konwersją.

Jakość części zbiorów powstałych w ostatnich latach wciąż pozostawia wiele do życzenia i korzystanie z nich wymaga przejrzenia danych, ewentualnej selekcji podkorpusów, szerokiej obróbki wstępnej (preprocessing). Warto też wczytać się w zapisy warunków licencyjnych. Na przykład jeśli chcemy nasz korpus treningowy upublicznić i szczegółowo opisać, istotne będą kwestie praw autorskich i danych osobowych. Trzeba pamiętać, że bazy mogą np. zawierać dane wrażliwe (np. osobowe), wprowadzające w błąd informacje, a także treści potencjalnie szkodliwe. Przeciwdziałanie potencjalnym naruszeniom danych wynikającym z korzystania z takich zbiorów jest bardzo trudne, dlatego oprócz kwestii prawnoautorskich warto również zobaczyć, w jaki sposób dane te były czyszczone czy obrabiane i na ile rzeczywiście mogło to podnieść ich jakość.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

25 zł miesięcznie

Wykup dostęp

Aleksandra Tomaszewska

Językoznawczyni w Instytucie Podstaw Informatyki PAN i na Wydziale Lingwistyki Stosowanej Uniwersytetu Warszawskiego

Podziel się

Może Cię zainteresować