🔒 Dane syntetyczne i język polski

Na czym dokładnie polega proces generowania sztucznych danych tekstowych? Jak wpływa on na model? Jakie kryteria jakości należy uwzględnić przy tworzeniu takich danych? I jak ocenić ich zgodność z językiem polskim?

Loading the Elevenlabs Text to Speech AudioNative Player…

O potencjale dużych modeli językowych mówi się w ostatnim czasie tak wiele, że do konieczności ich budowania chyba nie trzeba już nikogo przekonywać. Równie często mówi się też o danych – licznych i zróżnicowanych, których trening tych modeli wymaga. Tu i ówdzie pada stwierdzenie o wysychającym źródełku danych czy o nie dość dobrej jakości tych, które są dostępne. A jeśli myślimy o stworzeniu modelu specjalizującego się w przetwarzaniu języka nieszczególnie popularnego, jak np. język polski, te problemy stają się jeszcze bardziej palące. Palące, ale nie bez wyjścia. Bo, jak mówi stare polskie porzekadło, jak się nie ma, co się lubi, to się… rozsądnie podchodzi do danych syntetycznych.

W przeciwieństwie do danych naturalnych, które trzeba pozyskiwać i anotować – co niesie za sobą szereg wyzwań, z prawnymi na czele (co jest bardzo bolesne) – dane syntetyczne można po prostu wygenerować. Umożliwia to tworzenie treści dostosowanych do specyficznych potrzeb modelu i wzbogaca zbiory treningowe o dane, które są trud- no dostępne lub wręcz nieobecne w rzeczywistych źródłach (patrz: problemy prawne). Mogą to być dane obrazowe, imitujące sygnały np. z urządzeń diagnostycznych, klatki wideo, rozkłady cech kategorycznych czy – właśnie – dane tekstowe.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Inżynier uczenia maszynowego. Zawodowo działa w branży cyberbezpieczeństwa. Realizuje projekty z dziedziny przetwarzania języka naturalnego i wizji komputerowej. Współzałożyciel fundacji Speakleash, współtwórca polskiego dużego modelu językowego Bielik. Odpowiada za potok przygotowywania danych przy budowie LLM-ów.

Podziel się

Może Cię zainteresować