Korpusy w AI w 2024 roku. W kierunku danych lepszej jakości

O premierach nowych modeli językowych słyszymy w ostatnich miesiącach właściwie co chwilę. Tempo tego wyścigu na świecie, ale i czasochłonność tworzenia od podstaw własnych korpusów do trenowania i dostrajania modeli sprawiają, że na wagę złota staje się możliwość korzystania z ogromnych zbiorów dostępnych w darmowych repozytoriach.

Aleksandra Tomaszewska

Loading the Elevenlabs Text to Speech AudioNative Player…

Zacznijmy od przyjrzenia się zbiorom, które powstały w ciągu ostatnich kilku lat i są rozpoznawalne globalnie: The Pile, RedPajama, Dolma, Cosmopedia i Common Corpus. Rzucimy też okiem na kilka przykładów danych polskojęzycznych.

Kilkanaście lat temu swoją premierę miał Common Crawl. To powszechnie znane repozytorium, które zawiera obecnie ponad 250 miliardów stron (dane na kwiecień 2024 roku – co miesiąc przybywa około 3–5 mld). Common Crawl jest punktem odniesienia dla większości powstających obecnie zbiorów treningowych, o których mówi się, że są tworzone w odpowiedzi na dane częściowo niskiej jakości i uciążliwe w bezpośrednim stosowaniu w modelach, m.in. ze względu na problemy z konwersją.

Jakość części zbiorów powstałych w ostatnich latach wciąż pozostawia wiele do życzenia i korzystanie z nich wymaga przejrzenia danych, ewentualnej selekcji podkorpusów, szerokiej obróbki wstępnej (preprocessing). Warto też wczytać się w zapisy warunków licencyjnych. Na przykład jeśli chcemy nasz korpus treningowy upublicznić i szczegółowo opisać, istotne będą kwestie praw autorskich i danych osobowych. Trzeba pamiętać, że bazy mogą np. zawierać dane wrażliwe (np. osobowe), wprowadzające w błąd informacje, a także treści potencjalnie szkodliwe. Przeciwdziałanie potencjalnym naruszeniom danych wynikającym z korzystania z takich zbiorów jest bardzo trudne, dlatego oprócz kwestii prawnoautorskich warto również zobaczyć, w jaki sposób dane te były czyszczone czy obrabiane i na ile rzeczywiście mogło to podnieść ich jakość.

Ten artykuł jest częścią płatnej edycji hAI Magazine.

Możesz teraz skorzystać
z miesiąca bezpłatnego dostępu.

Wpisz adres e-mail, aby go aktywować.

Miesiąc za darmo dla nowych czytelników

Aktywuj

Badaczka w IPI PAN, językoznawczyni, wykładowczyni i tłumaczka. W projekcie PLLuM koordynuje tworzenie polskojęzycznego korpusu i zasiada w projektowych komisjach. Współtworzy otwarte narzędzia i zasoby językowe. Członkini GRAI, sekcja „Dane dla AI”.

Podziel się

Może Cię zainteresować