Twój koszyk jest obecnie pusty!
O potencjale dużych modeli językowych mówi się w ostatnim czasie tak wiele, że do konieczności ich budowania chyba nie trzeba już nikogo przekonywać. Równie często mówi się też o danych – licznych i zróżnicowanych, których trening tych modeli wymaga. Tu i ówdzie pada stwierdzenie o wysychającym źródełku danych czy o nie dość dobrej jakości tych, które są dostępne. A jeśli myślimy o stworzeniu modelu specjalizującego się w przetwarzaniu języka nieszczególnie popularnego, jak np. język polski, te problemy stają się jeszcze bardziej palące. Palące, ale nie bez wyjścia. Bo, jak mówi stare polskie porzekadło, jak się nie ma, co się lubi, to się… rozsądnie podchodzi do danych syntetycznych.
W przeciwieństwie do danych naturalnych, które trzeba pozyskiwać i anotować – co niesie za sobą szereg wyzwań, z prawnymi na czele (co jest bardzo bolesne) – dane syntetyczne można po prostu wygenerować. Umożliwia to tworzenie treści dostosowanych do specyficznych potrzeb modelu i wzbogaca zbiory treningowe o dane, które są trud- no dostępne lub wręcz nieobecne w rzeczywistych źródłach (patrz: problemy prawne). Mogą to być dane obrazowe, imitujące sygnały np. z urządzeń diagnostycznych, klatki wideo, rozkłady cech kategorycznych czy – właśnie – dane tekstowe.