Polskie zasoby językowe a rozwijanie rodzimych LLM-ów

Tworzenie wysokiej jakości modeli językowych to system naczyń połączonych. Wymaga on korzystania z odpowiedniej infrastruktury i zaangażowania kompetentnego zespołu, ale przede wszystkim dostępu do dużego zbioru starannie dobranych danych.

Aleksandra Tomaszewska

4 lis 2024

Wymaga on korzystania z odpowiedniej infrastruktury i zaangażowania kompetentnego zespołu, ale przede wszystkim dostępu do dużego zbioru starannie dobranych danych. Jak mantrę powtarzamy hasło garbage in, garbage out [pol. śmieci na wejściu, śmieci na wyjściu]. W uproszczeniu – im lepszych korpusów użyjemy na wszystkich etapach tworzenia LLM-ów, tym bardziej satysfakcjonujące będą efekty naszej pracy. Ograniczanie się do niedostatecznie zweryfikowanych danych z różnego rodzaju crawli (danych pobranych ze stron internetowych przez automatyczne systemy kopiujące treści, tzw. crawlery) może skutkować niesatysfakcjonującą jakością modelu czy prowadzić do problemów natury prawno-etycznej.

W odpowiedzi na te wyzwania i w kontrze do niezbyt etycznych praktyk niektórych dużych korporacji w pracy nad lokalnymi modelami pojawia się ostatnio trend dążenia do wykorzystania dobrej jakości, bardziej zróżnicowanych, a przede wszystkim etycznie pozyskanych źródeł. Mogą to być teksty w domenie publicznej czy na innych (odpowiednich) licencjach Creative Commons, publikacje otrzymane od instytucji czy wydawców oraz istniejące już otwarte zasoby korpusowe.

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Zaloguj Pakiety

Aleksandra Tomaszewska

Badaczka w IPI PAN, językoznawczyni, wykładowczyni i tłumaczka. W projekcie PLLuM koordynuje tworzenie polskojęzycznego korpusu i zasiada w projektowych komisjach. Współtworzy otwarte narzędzia i zasoby językowe. Członkini GRAI, sekcja „Dane dla AI”.

Podziel się

Może Cię zainteresować

•••
Aleksandra Tomaszewska, Anna Jamka…

Jaki język, taki model – czy duże modele językowe dyskryminują ze względu na płeć w polszczyźnie?

Aleksandra Tomaszewska, dr Alina Wróblewska oraz Anna Jamka sprawdzają, jak mocno obraz męskiego bohatera i białego mężczyzny jako człowieka sukcesu zakorzeniły się w polszczyźnie.

17.12
Aleksandra Tomaszewska

Korpusy w AI w 2024 roku. W kierunku danych lepszej jakości

O premierach nowych modeli językowych słyszymy w ostatnich miesiącach właściwie co chwilę. Tempo tego wyścigu na świecie, ale i czasochłonność tworzenia od podstaw własnych korpusów do trenowania i dostrajania modeli sprawiają, że…

29.08

Polskie zasoby językowe a rozwijanie rodzimych LLM-ów

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Podziel się

Podziel się

Może Cię zainteresować

Jaki język, taki model – czy duże modele językowe dyskryminują ze względu na płeć w polszczyźnie?

Korpusy w AI w 2024 roku. W kierunku danych lepszej jakości