Twój koszyk jest obecnie pusty!
Wymaga on korzystania z odpowiedniej infrastruktury i zaangażowania kompetentnego zespołu, ale przede wszystkim dostępu do dużego zbioru starannie dobranych danych. Jak mantrę powtarzamy hasło garbage in, garbage out [pol. śmieci na wejściu, śmieci na wyjściu]. W uproszczeniu – im lepszych korpusów użyjemy na wszystkich etapach tworzenia LLM-ów, tym bardziej satysfakcjonujące będą efekty naszej pracy. Ograniczanie się do niedostatecznie zweryfikowanych danych z różnego rodzaju crawli (danych pobranych ze stron internetowych przez automatyczne systemy kopiujące treści, tzw. crawlery) może skutkować niesatysfakcjonującą jakością modelu czy prowadzić do problemów natury prawno-etycznej.
W odpowiedzi na te wyzwania i w kontrze do niezbyt etycznych praktyk niektórych dużych korporacji w pracy nad lokalnymi modelami pojawia się ostatnio trend dążenia do wykorzystania dobrej jakości, bardziej zróżnicowanych, a przede wszystkim etycznie pozyskanych źródeł. Mogą to być teksty w domenie publicznej czy na innych (odpowiednich) licencjach Creative Commons, publikacje otrzymane od instytucji czy wydawców oraz istniejące już otwarte zasoby korpusowe.