Dane syntetyczne i język polski

Na czym dokładnie polega proces generowania sztucznych danych tekstowych? Jak wpływa on na model? Jakie kryteria jakości należy uwzględnić przy tworzeniu takich danych? I jak ocenić ich zgodność z językiem polskim?

Adrian Gwoździej

31 mar 2025

O potencjale dużych modeli językowych mówi się w ostatnim czasie tak wiele, że do konieczności ich budowania chyba nie trzeba już nikogo przekonywać. Równie często mówi się też o danych – licznych i zróżnicowanych, których trening tych modeli wymaga. Tu i ówdzie pada stwierdzenie o wysychającym źródełku danych czy o nie dość dobrej jakości tych, które są dostępne. A jeśli myślimy o stworzeniu modelu specjalizującego się w przetwarzaniu języka nieszczególnie popularnego, jak np. język polski, te problemy stają się jeszcze bardziej palące. Palące, ale nie bez wyjścia. Bo, jak mówi stare polskie porzekadło, jak się nie ma, co się lubi, to się… rozsądnie podchodzi do danych syntetycznych.

W przeciwieństwie do danych naturalnych, które trzeba pozyskiwać i anotować – co niesie za sobą szereg wyzwań, z prawnymi na czele (co jest bardzo bolesne) – dane syntetyczne można po prostu wygenerować. Umożliwia to tworzenie treści dostosowanych do specyficznych potrzeb modelu i wzbogaca zbiory treningowe o dane, które są trud- no dostępne lub wręcz nieobecne w rzeczywistych źródłach (patrz: problemy prawne). Mogą to być dane obrazowe, imitujące sygnały np. z urządzeń diagnostycznych, klatki wideo, rozkłady cech kategorycznych czy – właśnie – dane tekstowe.

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Zaloguj Pakiety

Adrian Gwoździej

Inżynier uczenia maszynowego. Zawodowo działa w branży cyberbezpieczeństwa. Realizuje projekty z dziedziny przetwarzania języka naturalnego i wizji komputerowej. Współzałożyciel fundacji Speakleash, współtwórca polskiego dużego modelu językowego Bielik. Odpowiada za potok przygotowywania danych przy budowie LLM-ów.

Podziel się

Może Cię zainteresować

Zbigniew Rzepkowski

Klikam więc wiem? Mądrość w czasach AI

Mądrość nie wynika z ilości informacji, lecz z umiejętności nadawania im sensu. Jak w świecie gotowych odpowiedzi zachować umiejętność wyciągania własnych wniosków?

15.10
dr Iwona Burka

Nie mam czasu się uczyć, czyli jak kalendarz zjada ciekawość

W świecie, w którym nawet przerwy na kawę mają swoje sloty w kalendarzu Google’a, nauka stała się kolejnym punktem do odhaczenia. Chcemy się rozwijać, ale wciśnięci między spotkania i zadania, traktujemy uczenie…

14.10
Aureliusz Górski

Agent Builder od OpenAI jest jak samochód, którego producent każe Ci tankować tylko na swoich stacjach

Po dwóch dniach testowania OpenAI Agent Buildera mam jedno wrażenie: to nie narzędzie do automatyzacji, tylko raczej piaskownica do pokazania możliwości modelu GPT stworzonego przez OpenAI.

13.10
Karolina Ceroń

Intel wykłada kartę 18A – nowa generacja procesorów

Intel zapowiada procesory w technologii 18A. W tle walka o rynkową pozycję, nowa fabryka w Arizonie i wsparcie rządu USA.

10.10

Dane syntetyczne i język polski

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Podziel się

Podziel się

Może Cię zainteresować

Klikam więc wiem? Mądrość w czasach AI

Nie mam czasu się uczyć, czyli jak kalendarz zjada ciekawość

Agent Builder od OpenAI jest jak samochód, którego producent każe Ci tankować tylko na swoich stacjach

Intel wykłada kartę 18A – nowa generacja procesorów