ChatGPT punktów za poprawność językową na maturze nie dostanie

Badacz z Uniwersytetu Jagiellońskiego postanowił przeanalizować język tekstów z Chatu GPT – co się okazało?

Nie da się ukryć, że teksty generowane przez sztuczną inteligencję (AI) coraz bardziej zalewają naszą przestrzeń – szczególnie cyfrową. Kiedyś mówiło się, że jeśli chcesz dobrze pisać, dużo czytaj – ale czy to sprawdzi się również przy czytaniu wygenerowanych treści?

Z pewnością jeśli AI będzie tworzyć coraz więcej treści w naszym otoczeniu, to wpłynie na kształt tzw. uzusu – czyli rzeczywistego sposobu używania języka. Jest to o tyle ważne, że zmiany norm językowych po części wynikają z tego, co w uzusie jest wyjątkowo popularne, często wykorzystywane.

Czy zatem treści, które otrzymujemy od sztucznej inteligencji, będą sprzyjały codziennemu poprawnemu używaniu języka polskiego czy też podświadomie będą psuły polszczyznę? To pytanie postawił sobie Rafał Mazur z Uniwersytetu Jagiellońskiego i postanowił przeanalizować język tekstów z Chatu GPT.

Założenia pierwszego badania poprawności tekstów generowanych po polsku

Głównym celem badania było sprawdzenie, czy ChatGPT poradzi sobie ze stworzeniem poprawnego językowo typowego wypracowania, jakie na maturze piszą polscy uczniowie. Wszystkie badane teksty pochodziły z modelu GPT-3.5 – w założeniu autora najpopularniejszego, bo dostępnego powszechnie za darmo.

Bez zaskoczenia: w tekstach ChatuGPT jest co poprawiać

Autor badania omawia różne typy błędów pochodzących z wygenerowanych tekstów, przy czym najczęstsze pomyłki Chatu dotyczyły prawidłowej składni języka polskiego (35% błędów), szczególnie w zdaniach złożonych. Często pojawiały się też błędy z zakresu leksyki (24% błędów) jak naruszenia łączliwości wyrazów, np. „popada w mroczne czyny” czy „namiętnie ambitny”, ale też wyrazy użyte całkiem wbrew znaczeniu jak w przypadku Makbeta, który „pod wpływem zgubnych ambicji i żądzy władzy staje się okrutnym tyranozaurusem”.

Co ciekawe tylko nieliczne lub nierażące błędy dotyczą obszarów fleksji (odmiany), słowotwórstwa i frazeologii (np. łączenia ze sobą różnych powiedzeń). Przeprowadzone badania potwierdziły też to, o czym od dawna mówi się w kontekście stylu ChatuGPT, który charakteryzuje się masą powtórzeń. Został jeszcze ostatni aspekt potocznie najczęściej kojarzony z „poprawnością” tekstów, czyli ortografia i interpunkcja. O ile z polską ortografią nie ma zasadniczo problemu, to w kwestii interpunkcji ChatGPT wykazuje się nawet nadgorliwością, bo aż 45 na 48 błędów z tego obszaru to nieuzasadnione dodanie znaku interpunkcyjnego.

Wygląda więc na to, że korzystanie z treści od ChatuGPT bez czujnego oka redaktorskiego na razie jest dość ryzykownym posunięciem, jeśli zależy nam na dobrym wizerunku (choć ciekawe też, jak w porównywalnych testach wypadłyby kolejne modele, np. częściowo też dostępny za darmo GPT-4o!).

Jak wskazuje autor badania:

Ograniczenia chatbota są widoczne zwłaszcza w tekstach  zawierających  bardziej  złożone  i  skomplikowane  konstrukcje,  których  ujednoznacznienie  wymaga  znajomości  szczegółowych  zasad  poprawnościowych SI,  w  przeciwieństwie  do  człowieka,  może  w  takich  wypadkach  korzystać  wyłącznie  z  wzorców  wyuczonych  podczas  analizy  danych  treningowych,  wśród  których  (ze względu na wymóg dostarczenia niezmiernie dużej liczby takich danych) prawdopodobnie  nie  brak  tekstów  w  mniejszym  lub  większym  stopniu  naruszających normy językowe.

Pozostaje mieć nadzieję, że łatwość takiego pozyskiwania tekstów nie sprawi, że bezrefleksyjnie zaczną zalewać naszą przestrzeń „w oryginalnym” brzmieniu, bo – jak wiadomo – z przyswajanych każdego dnia treści też pośrednio uczymy się poprawnego korzystania z polszczyzny.

Opis całych badań Rafała Mazura można przeczytać w artykule „O poprawności językowej tekstów generowanych przez SI na przykładzie ChatuGPT”, opublikowanym w językoznawczym czasopiśmie LingVaria, Rok XIX (2024), 1 (37), s.119–138 https://doi.org/10.12797/LV.19.2024.37.08, również w wersji online: https://journals.akademicka.pl/lv/article/view/5756/5360 [dostęp: 21.05.2024].

Katarzyna Jachymek

Od zawsze ze słowami: jak nie czyta, to pisze, a jak nie pisze, to redaguje. Dla równowagi śpiewa i tańczy swinga.

Podziel się

Może Cię zainteresować