🔒 Polskie zasoby językowe a rozwijanie rodzimych LLM-ów

Tworzenie wysokiej jakości modeli językowych to system naczyń połączonych. Wymaga on korzystania z odpowiedniej infrastruktury i zaangażowania kompetentnego zespołu, ale przede wszystkim dostępu do dużego zbioru starannie dobranych danych.

Wymaga on korzystania z odpowiedniej infrastruktury i zaangażowania kompetentnego zespołu, ale przede wszystkim dostępu do dużego zbioru starannie dobranych danych. Jak mantrę powtarzamy hasło garbage in, garbage out [pol. śmieci na wejściu, śmieci na wyjściu]. W uproszczeniu – im lepszych korpusów użyjemy na wszystkich etapach tworzenia LLM-ów, tym bardziej satysfakcjonujące będą efekty naszej pracy. Ograniczanie się do niedostatecznie zweryfikowanych danych z różnego rodzaju crawli (danych pobranych ze stron internetowych przez automatyczne systemy kopiujące treści, tzw. crawlery) może skutkować niesatysfakcjonującą jakością modelu czy prowadzić do problemów natury prawno-etycznej.

W odpowiedzi na te wyzwania i w kontrze do niezbyt etycznych praktyk niektórych dużych korporacji w pracy nad lokalnymi modelami pojawia się ostatnio trend dążenia do wykorzystania dobrej jakości, bardziej zróżnicowanych, a przede wszystkim etycznie pozyskanych źródeł. Mogą to być teksty w domenie publicznej czy na innych (odpowiednich) licencjach Creative Commons, publikacje otrzymane od instytucji czy wydawców oraz istniejące już otwarte zasoby korpusowe.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Aleksandra Tomaszewska

Badaczka w IPI PAN, językoznawczyni, wykładowczyni i tłumaczka. W projekcie PLLuM koordynuje tworzenie polskojęzycznego korpusu i zasiada w projektowych komisjach. Współtworzy otwarte narzędzia i zasoby językowe. Członkini GRAI, sekcja „Dane dla AI”.

Podziel się

Może Cię zainteresować