🔒 Korpusy w AI w 2024 roku. W kierunku danych lepszej jakości

O premierach nowych modeli językowych słyszymy w ostatnich miesiącach właściwie co chwilę. Tempo tego wyścigu na świecie, ale i czasochłonność tworzenia od podstaw własnych korpusów do trenowania i dostrajania modeli sprawiają, że na wagę złota staje się możliwość korzystania z ogromnych zbiorów dostępnych w darmowych repozytoriach.

Aleksandra Tomaszewska

29 sie 2024

Zacznijmy od przyjrzenia się zbiorom, które powstały w ciągu ostatnich kilku lat i są rozpoznawalne globalnie: The Pile, RedPajama, Dolma, Cosmopedia i Common Corpus. Rzucimy też okiem na kilka przykładów danych polskojęzycznych.

Kilkanaście lat temu swoją premierę miał Common Crawl. To powszechnie znane repozytorium, które zawiera obecnie ponad 250 miliardów stron (dane na kwiecień 2024 roku – co miesiąc przybywa około 3–5 mld). Common Crawl jest punktem odniesienia dla większości powstających obecnie zbiorów treningowych, o których mówi się, że są tworzone w odpowiedzi na dane częściowo niskiej jakości i uciążliwe w bezpośrednim stosowaniu w modelach, m.in. ze względu na problemy z konwersją.

Jakość części zbiorów powstałych w ostatnich latach wciąż pozostawia wiele do życzenia i korzystanie z nich wymaga przejrzenia danych, ewentualnej selekcji podkorpusów, szerokiej obróbki wstępnej (preprocessing). Warto też wczytać się w zapisy warunków licencyjnych. Na przykład jeśli chcemy nasz korpus treningowy upublicznić i szczegółowo opisać, istotne będą kwestie praw autorskich i danych osobowych. Trzeba pamiętać, że bazy mogą np. zawierać dane wrażliwe (np. osobowe), wprowadzające w błąd informacje, a także treści potencjalnie szkodliwe. Przeciwdziałanie potencjalnym naruszeniom danych wynikającym z korzystania z takich zbiorów jest bardzo trudne, dlatego oprócz kwestii prawnoautorskich warto również zobaczyć, w jaki sposób dane te były czyszczone czy obrabiane i na ile rzeczywiście mogło to podnieść ich jakość.

Ten artykuł jest częścią płatnej edycji hAI Magazine.

Możesz teraz skorzystać
z miesiąca bezpłatnego dostępu.

Wpisz adres e-mail, aby go aktywować.

Zaloguj Pakiety

Aleksandra Tomaszewska

Badaczka w IPI PAN, językoznawczyni, wykładowczyni i tłumaczka. W projekcie PLLuM koordynuje tworzenie polskojęzycznego korpusu i zasiada w projektowych komisjach. Współtworzy otwarte narzędzia i zasoby językowe. Członkini GRAI, sekcja „Dane dla AI”.

Podziel się

ai datasets, data, llm

Podziel się

Może Cię zainteresować

•••
Aleksandra Tomaszewska, Anna Jamka…

Jaki język, taki model – czy duże modele językowe dyskryminują ze względu na płeć w polszczyźnie?

Aleksandra Tomaszewska, dr Alina Wróblewska oraz Anna Jamka sprawdzają, jak mocno obraz męskiego bohatera i białego mężczyzny jako człowieka sukcesu zakorzeniły się w polszczyźnie.

17.12
Aleksandra Tomaszewska

🔒 Polskie zasoby językowe a rozwijanie rodzimych LLM-ów

Tworzenie wysokiej jakości modeli językowych to system naczyń połączonych. Wymaga on korzystania z odpowiedniej infrastruktury i zaangażowania kompetentnego zespołu, ale przede wszystkim dostępu do dużego zbioru starannie dobranych danych.

04.11

🔒 Korpusy w AI w 2024 roku. W kierunku danych lepszej jakości

Ten artykuł jest częścią płatnej edycji hAI Magazine.

Możesz teraz skorzystaćz miesiąca bezpłatnego dostępu.

Wpisz adres e-mail, aby go aktywować.

Podziel się

Podziel się

Może Cię zainteresować

Jaki język, taki model – czy duże modele językowe dyskryminują ze względu na płeć w polszczyźnie?

🔒 Polskie zasoby językowe a rozwijanie rodzimych LLM-ów

Możesz teraz skorzystać
z miesiąca bezpłatnego dostępu.