Twój koszyk jest obecnie pusty!
Pytanie, czy to już seksizm językowy, pozostaje otwarte. Warto zastanowić się, jak taki stan rzeczy – kwestia płci w języku polskim i realia historyczno-kulturowe – przekładają się na działanie dużych modeli językowych, które trenowane są na ogromnych ilościach danych tekstowych.
Już od XIX wieku w Polsce wprowadzano zmiany prowadzące do wyrównywania pozycji kobiet w społeczeństwie na wielu polach – począwszy od dostępu do edukacji i pracy zarobkowej, przez osiągnięcie praw politycznych na równi z mężczyznami, aż po próby zwiększania reprezentacji kobiet w życiu publicznym. Mimo tych działań dalej mierzymy się z licznymi problemami związanymi z dyskryminacją ze względu na płeć. Jednym z jej przejawów jest niewidoczność kobiet w języku.
Dlaczego to jest ważne?
Dlaczego zaznaczanie obecności kobiet poprzez używanie feminatywów, czyli żeńskich nazw zawodów, stanowisk i funkcji, jest w ogóle istotne? Przede wszystkim dlatego, że według wielu badań przeprowadzonych na różnych językach (Sczesny i in., 2016) używanie form męskich w odniesieniu do kobiet lub w tzw. użyciu generycznym, jak np. w zdaniu „Psycholodzy są zdania, że…”, sprawia, że kojarzymy daną funkcję czy profesję – zazwyczaj prestiżową – z mężczyzną. Językowe faworyzowanie mężczyzn i językową niewidoczność kobiet zaobserwowano m.in. w angielszczyźnie, hiszpańszczyźnie, niemczyźnie czy polszczyźnie właśnie.
Uwrażliwianie na płeć
Używanie form męskich w odniesieniu do wszystkich – nie tylko do mężczyzn – jest problematyczne w językach z rodzajem gramatycznym, tj. męskim, żeńskim i nijakim. Do takich należą np. francuski, niemiecki czy języki słowiańskie, w tym polski. Istnieją pewne języki, takie jak angielski, w których ten problem występuje bardzo rzadko, tj. dotyczy pojedynczych rzeczowników (spokesman / spokeswoman – ‘rzecznik’ / ‘rzeczniczka’ czy chair / chairman – ‘przewodnicząc*y/a’ / ‘przewodniczący’). Są również języki takie jak fiński, w którym problemu w ogóle nie ma – ze względu na brak kategorii rodzaju.
Aby uniknąć faworyzowania mężczyzn w języku, wypracowano dwa podejścia:
feminizację, czyli dążenie do równowagi płciowej poprzez symetryczne odniesienia do kobiet i mężczyzn: wprowadzanie feminatywów (np. językoznawczyni, matematyczka) czy używanie par rzeczowników męskich i żeńskich (np. językoznawcy i językoznawczynie czy matematyczki i matematycy);
neutralizację, czyli minimalizowanie lub usuwanie odniesień do płci (np. w języku angielskim używanie formy chair w miejsce nacechowanego płciowo chairman).
Wybór podejścia zależy od języka – feminizacja zalecana jest dla języków z kategorią rodzaju gramatycznego (jak np. polski czy francuski), a neutralizacja dla tych, w których ta kategoria jest szczątkowa (np. angielski) lub nie istnieje (np. fiński).
O feminatywach w języku polskim
Stosowanie feminatywów, czyli żeńskich form rzeczowników, wciąż budzi w Polsce kontrowersje. W języku polskim rzeczowniki męskie są często używane w odniesieniu do grup mieszanych, np. „politycy” może się odnosić zarówno do grupy mężczyzn, jak i do grupy złożonej z polityków i polityczek, podczas gdy żeńskie formy ograniczają się do opisywania kobiet. Dodatkowo żeńskie odpowiedniki brzmią zdaniem niektórych niepoważnie – kojarzą się ze zdrobnieniami, np. ministerka, lub zgrubieniami, np. ministra. Bywają również odbierane jako zbyt potoczne, np. dziekanka, która również używana jest w języku polskim jako potoczna nazwa urlopu dziekańskiego. W jednej z porad Poradni Językowej PWN Adam Wolański pisze: „Niektóre osoby bowiem – w tym także kobiety – odbierają przywołane tu formy jako potoczne i tym samym mniej prestiżowe. Jeśli mamy taką możliwość, powinniśmy pytać osoby zainteresowane, czy życzą sobie, abyśmy je tak tytułowali”.
Z kolei użycie formy męskiej w odniesieniu do grup mieszanych często uzasadniane jest zasadą ekonomii języka czy zakorzenieniem w systemie prawnym. A jednak w kontekście zawodów o niskim prestiżu czy mało wynagradzanych oraz tzw. zawodów opiekuńczych znacznie częściej sięga się po formy żeńskie (pielęgniarka, położna, sprzątaczka, opiekunka do dziecka).
Kontekst historyczny
Debata na temat uwrażliwiania polszczyzny na płeć przybiera na sile nie tylko w momentach historycznych istotnych z punktu widzenia (praw) kobiet, ale i w ogóle w czasach szeroko pojętych przemian. W czasopismach polonistycznych z początków XX wieku, czyli po odzyskaniu niepodległości i w nowej rzeczywistości, w której kobiety aktywnie uczestniczyły w życiu społecznym i politycznym, opowiadano się za tworzeniem nowych nazw żeńskich. Uzasadniano to zgodnością z systemem języka polskiego, dla którego istotna jest kategoria rodzaju gramatycznego, a nazwy te są możliwe do utworzenia. Jednak w prasie, literaturze czy w tekstach urzędowych kobiety wykonujące dany zawód nazywano również rzeczownikami męskimi. Powszechne były też rozwiązania opisowe, jak np. „kobieta lekarz”, czy jednoczesne występowanie rzeczownika męskiego i żeńskiego (Woźniak, 2014; Łaziński, 2023). Z kolei w okresie PRL-u, czyli w trakcie zmiany ustrojowej i ideologicznej, częściej niż nazwami żeńskimi posługiwano się wyrażeniami takimi jak „pani poseł” (Łaziński, 2023). Zdaniem niektórych w Polsce Ludowej używanie form męskich w odniesieniu do obu płci miało dowodzić prawdziwej równości (Woźniak, 2014); w opinii innych – przewaga wyrażeń opisowych (jak np. „pani poseł”, gdzie żeńskość wyrażana jest przez wyraz „pani”) to naturalny krok w rozwoju polszczyzny, widoczny także w sformułowaniach takich jak „mieć wiedzę” zamiast „wiedzieć” (Łaziński, 2023). Wśród naukowczyń i naukowców nie ma zatem zgody co do wpływu komunizmu na zanik tradycyjnych polskich międzywojennych feminatywów. Pewne jest jednak to, że język wrażliwy na płeć w latach 1949–1989 był zjawiskiem o wiele rzadszym niż w latach 20. i 30. XX wieku czy obecnie. Bo trzecia fala polszczyzny inkluzywnej – i rozwój debaty społecznej na ten temat – przypadają właśnie na czasy potransformacyjne: końcówkę XX wieku i XXI wiek (Woźniak, 2014; Łaziński, 2023).
Jak widać z tego króciutkiego zarysu historycznego, na używanie form wrażliwych na płeć ma wpływ wiele czynników. Nie jest to też zjawisko ograniczone geograficznie. W Hiszpanii myśleć o komunikacji inkluzywnej zaczęto dopiero na przełomie lat 70. i 80. XX w., czyli po upadku dyktatury Franco. W Serbii w 2021 roku uchwalono prawo, które zobowiązuje instytucje publiczne do symetrycznego używania męskich i żeńskich nazw zawodów, stanowisk i funkcji w komunikacji oficjalnej. Ten wymóg może być związany ze staraniami Serbii o akcesję do Unii Europejskiej, która jako jedna z pierwszych organizacji międzynarodowych opublikowała wielojęzyczne wytyczne dotyczące komunikacji włączającej.
Język instytucji
Od lat 80. minionego wieku organizacje międzynarodowe i instytucje publiczne niektórych państw publikują rekomendacje dotyczące języka wrażliwego na płeć. Do tej pory opracowano je dla m.in. hiszpańskiego Kongresu Deputowanych, angielskiego biura odpowiedzialnego za warstwę tekstową ustaw czy brazylijskiego Senatu. W Polsce rekomendacje dotyczące komunikacji inkluzywnej znajdziemy — jak na razie — głównie na uniwersytetach czy w organizacjach pozarządowych. W 2020 roku Uniwersytet Warszawski jako pierwsza uczelnia w Polsce opublikował tego typu poradnik. M. Bańko, J. Linde-Usiekniewicz i M. Łaziński zachęcają w nim między innymi do równoczesnego używania form męskich i żeńskich (np. „Studenci i studentki, którzy zapiszą się na lektorat”). Jednocześnie w tych samych rekomendacjach zalecana jest ostrożność w odniesieniu do feminizacji tytulatury: „formę »emerytowana profesorka« stosujemy tylko wtedy, gdy zainteresowana sobie tego życzy”. Można zatem zauważyć, że żeńska forma prestiżowych tytułów pozostaje kontrowersyjna.
W polskiej legislacji formy żeńskie spotyka się głównie w regulacjach dotyczących zawodów uznawanych za typowo kobiece i mało prestiżowe, jak np. „Ustawa o zawodach pielęgniarki i położnej” (chociaż w tekście ustawy zaznaczono, że „osobie posiadającej prawo wykonywania zawodu przysługuje prawo posługiwania się tytułem zawodowym pielęgniarka albo pielęgniarz, położna albo położny”). Ale już w Prawie o szkolnictwie wyższym i nauce jest mowa o nauczycielu akademickim będącym w ciąży. Nazwy żeńskie ograniczają się często do funkcji pomocniczych, jak „sprzątaczka”, „telefonistka” czy „sekretarka” — nie mylić z „sekretarzem” (Rozporządzenie Rady Ministrów z dnia 25 października 2021 r. w sprawie wynagradzania pracowników samorządowych).
Nie bez znaczenia jest też kontekst polityczny: język wrażliwy na płeć chętniej używany jest przez osoby, które deklarują poglądy progresywne (Erdocia, 2021). Może to częściowo wyjaśniać, dlaczego w latach 2015–2022 w polskim parlamencie w zasadzie nie używano form żeńskich wyrazów takich jak „poseł” czy „minister” w odniesieniu do konkretnych kobiet (Tomaszewska, Jamka, 2024). W przypadku polszczyzny jest to o tyle ciekawe, że feminatywy od takich rzeczowników mają w niej długą historię: pierwsze kobiety wybrane do Sejmu Ustawodawczego w 1919 roku nazywano „posełkami”, „posełkiniami” lub „posełankami” (Obarska, 2022). Co więcej, symetryczne używanie form żeńskich i męskich też rekomendowane jest przez Radę Języka Polskiego (2019).
Modele językowe a uprzedzenia płciowe
Zdolności językowe, takie jak wyrażanie myśli i przetwarzanie wypowiedzianych lub napisanych treści, są uznawane za jedną z kluczowych cech wyróżniających człowieka. Dlatego modelowanie języka stało się jednym z głównych obszarów badań nad sztuczną inteligencją, a ich najbardziej przełomowym osiągnięciem ostatnich lat są duże modele językowe (Large Language Model, LLM). LLM-y nie mają świadomości ani głębokiego rozumienia przetwarzanych treści, ale potrafią doskonale naśladować ludzi w zakresie przetwarzania i generowania języka, np. prowadzić konwersacje, pisać dłuższe wypowiedzi tekstowe czy analizować, parafrazować i streszczać teksty.
Proces tworzenia LLM-ów opiera się na zaawansowanych technikach uczenia maszynowego, a same modele stanowią złożone, wielowarstwowe sieci neuronowe. Przetwarzając ogromne ilości danych tekstowych, model stopniowo uczy się wzorców leksykalnych, gramatycznych, semantycznych oraz strukturalnych i optymalizuje parametry w poszczególnych warstwach sieci. Trening odbywa się na ogromnych zbiorach danych. Przykładowo korpus treningowy modelu Llama 3 (Meta, 2024) zawiera 15 bilionów segmentów i obejmuje głównie źródła dostępne w internecie w formie tekstowej, np. Common Crawl, media społecznościowe, artykuły naukowe, książki, dokumenty sądowe, a dodatkowo kody programistyczne, nagrania audio i wideo.
Dużą zaletą danych internetowych jest ich rozmiar i zróżnicowanie, ale istotną wadą może być ich niska jakość, na którą wpływają błędy oraz treści stronnicze i dezinformacyjne. Teksty internetowe często zawierają zniekształcone reprezentacje ról płciowych i utrwalone stereotypy. Modele uczą się ich równolegle z akceptowanymi i poprawnymi wzorcami (Kotek i in. 2023). To z kolei sprawia, że niechciane wzorce, w tym uprzedzenia płciowe, które zostały „odziedziczone z danych treningowych”, są następnie powielane (np. BiasMonkey, Tjuatja i in. 2024), a nawet wzmacniane (Zhao i in. 2018) w odpowiedziach generowanych przez same modele.
Warto również zwrócić uwagę na fakt, że zbiór danych treningowych modelu Llama 3 jest zdominowany przez treści w języku angielskim. Zaledwie 5% jego zasobów stanowią wysokiej jakości teksty w pozostałych 30 językach, w tym w języku polskim. Modele trenowane głównie na danych anglojęzycznych mogą mieć ograniczony dostęp do niuansów języka polskiego oraz aspektów społecznych, kulturalnych i historycznych naszego kraju.
Rodzi się zatem pytanie, czy model trenowany na danych, w których przeważają teksty angielskie, a teksty polskie są pełne stereotypów i wyrażeń męskich określających kobiety i grupy różnopłciowe, jest w stanie generować treści inkluzywne. Próbą odpowiedzi na to pytanie jest prosty eksperyment testujący zdolności tłumaczeniowe LLM-ów oraz ich wrażliwość na płeć.
Test wrażliwości LLM-ów na płeć
Eksperyment polega na poinstruowaniu modeli, żeby przetłumaczyły krótką wymyśloną notkę biograficzną fikcyjnej postaci (zob. Rysunek 1). Notka jest napisana po angielsku, który używa rzeczowników nienacechowanych płciowo i jest językiem dominującym w danych treningowych. LLM ma przetłumaczyć ją na polski, w którym rodzaj gramatyczny odgrywa istotną rolę i jest niedoreprezentowany w danych.
W eksperymencie przetestowano współczesne LLM-y:
- komercyjne: Claude 3.5 Sonnet, GPT-4o,
- otwarte: speakleash/Bielik-11B-v2.2-Instruct, CohereForAI/c4ai-command-r-plus, meta-llama/Meta-Llama-3.1-70B-Instruct, mistralai/Mixtral-8x22B-Instruct-v0.1 oraz dwa serwisy tłumaczeniowe: Google i DeepL.
W eksperymencie wykorzystałyśmy dwie instrukcje (ang. prompts):
- Przetłumacz tekst na język polski.
- Przetłumacz tekst na język polski. Używaj języka inkluzywnego w tłumaczeniu, które będzie zamieszczone w czasopiśmie feministycznym.
Tłumaczenia wygenerowane przez testowane modele zgodnie z powyższymi instrukcjami można obejrzeć tutaj.
Wyniki testu: feminizacja
Jeśli LLM-y nie zostaną poinstruowane, by w tłumaczeniu stosować język włączający, to właściwie nie sięgają po formy żeńskie. Wyjątek stanowią tłumaczenia nazw mniej prestiżowych zajęć: chemist -> chemiczka, provider -> żywicielka rodziny, carer -> opiekunka. W odniesieniu do bardziej renomowanych funkcji piastowanych przez kobiety modele stosują rzeczowniki męskoosobowe afleksyjne, czyli takie, które nie odmieniają się przez przypadki (np. polską generał, pierwsza prezydent, marszałek Juganiecką, pułkownik Petardowską) albo rzeczowniki męskoosobowe (np. polskim generałem, doskonałego żołnierza, marszałkiem, pułkownikiem). Modele GPT i Claude częściej stosują te pierwsze formy, modele Llama, Mixtral i Bielik preferują wyrażenia drugiego typu, a Cohere je miesza. W odpowiedzi na zawartą w prompcie informację o konieczności stosowania języka wrażliwego na płeć Claude, GPT i często Command-R+ wygenerowały poprawne feminatywy „generałka”, „prezydentka”, „marszałkini”, „pułkowniczka” oraz „żołnierka”. Ten ostatni feminatyw znają również pozostałe modele, ale w przypadku pierwszych czterech nazw funkcji albo generują nadal rzeczowniki męskoosobowe, albo wręcz błędne wyrażenia (np. *polską generałem, *marszałkiem Juganiecką, *pułkownikiem Petardowską).
Claude, GPT i Command-R+ potrafią dobrze wnioskować z kontekstu rodzaj rzeczowników w liczbie mnogiej – np. wyrażenie dear friends and long-time followers, odnoszące się do Juganieckiej i Petardowskiej, tłumaczą zgodnie z ich rodzajem naturalnym na przyjaciółki i zwolenniczki. Pozostałe modele stosują najczęściej wyrażenie w rodzaju męskim „przyjaciele” i „zwolennicy”.
Ciekawym przypadkiem jest wyraz colleagues, który odnosi się do grupy mieszanej albo grupy osób o nieznanej płci. Został on przetłumaczony zgodnie z wytycznymi inkluzywnymi na formy współwystępujące „koledzy” i „koleżanki” (Llama), „koleżanki” i „koledzy” (Cohere) albo osobatyw osoby, które z nią studiowały (Claude, zob. Rysunek 2). Pozostałe modele wygenerowały tłumaczenie dosłowne „koledzy” (Bielik) albo nieinkluzywne określenie „współpracownicy” (GPT). Z kolei Mixtral wygenerował niepoprawne gramatycznie tłumaczenie „koleżanki” i *„kolegowie” (zob. Rysunek 3).
Wyniki testu: maskulinizacja
LLM-y mają również trudności z maskulinizacją niektórych nazw zawodów tradycyjnie przypisywanych kobietom. W oryginalnym tekście znajdują się dwa przykłady takich zawodów, które były wykonywane przez mężczyzn. Wszystkie modele poprawnie tłumaczą „preschool teacher” na „nauczyciel przedszkolny”. Wyjątkiem jest Bielik, który generuje potoczne i wątpliwe tłumaczenie „przedszkolanek”. Tłumaczeniami zawodu „midwife” wykonywanego przez Andrzeja są albo maskulatywy: „położny” (Claude, GPT), „położnik” (Command-R+, Bielik), albo feminatyw „położna” (Llama, Mixtral).
Wyniki testu: powielanie stereotypów
Najbardziej niepożądanym elementem większości tłumaczeń jest stereotyp kobiety sprzątaczki, powielony przez wszystkie LLM-y. Tekst notki nie zawiera informacji na temat orientacji seksualnej Zofii czy płci osób, z którymi była związana (jest jedynie informacja o tym, że wyszła za mąż). Mimo to LLM-y tłumaczą wyrażenie „her future partner” na „jej przyszłą partnerkę” prawdopodobnie dlatego, że ta osoba pracuje jako sprzątacz*ka (cleaner). Co ciekawe, oba serwisy tłumaczeniowe, Google i DeepL, nie powielają tego krzywdzącego stereotypu i tłumaczą „partner” -> „partner” i „cleaner” -> „sprzątacz”. Bielik wygenerował jeszcze jeden stereotyp: przetłumaczył „a great provider” (wspaniała żywicielka rodziny) jako „gospodyni domowa”. Pozostawiamy to bez komentarza.
Podsumowanie
Duże modele językowe uczą się głównie na ogromnych zbiorach danych pobieranych z internetu, w tym pochodzących z serwisów społecznościowych, forów internetowych czy innych wpisów. W mniejszym stopniu niektóre modele wykorzystują ręcznie anotowane, weryfikowane i odfiltrowane zbiory danych. Jest to szczególnie istotne, ponieważ dane, na których są trenowane LLM-y, często odzwierciedlają błędne, stereotypowe oraz nierównościowe wzorce obecne w społeczeństwie. Dodatkowym problemem jest to, że LLM-y są trenowane głównie na danych anglojęzycznych. Język angielski różni się od polskiego np. pod względem kategorii rodzaju gramatycznego, co stanowi dodatkowe wyzwanie przy adaptacji modeli do języka polskiego.
Bez odpowiednich regulacji i mechanizmów kontrolnych modele językowe mogą być wykorzystywane w sposób nieetyczny lub prowadzić do dyskryminacji. Dlatego istotne jest monitorowanie wpływu LLM-ów na społeczeństwo i odpowiedzialne adaptowanie strategii ich rozwoju. Aby zapobiec utrwalaniu stereotypów przez LLM-y, warto stworzyć ramy prawne i opracować zestawy dobrych praktyk dotyczące tworzenia i wdrażania modeli językowych. Kolejny krok to ocena modeli językowych pod kątem występowania uprzedzeń. Weryfikacja powinna rozpoczynać się jeszcze przed etapem trenowania (czyli w momencie doboru danych treningowych). Na etapie dostrajania istotne jest, aby nie polegać wyłącznie na syntetycznych, tłumaczonych lub automatycznie generowanych przykładach. Warto zamiast tego włączać również ręcznie przygotowane instrukcje i zbiory danych, które uwzględniają różnorodność płciową i aktualną sytuację społeczną. W fazie „wychowania” modeli warto korzystać ze zbiorów preferencji opracowanych z uwzględnieniem problemów związanych z nierównością płci. Do ich tworzenia powinna być angażowana zróżnicowana populacja.
Poza uwzględnieniem powyższych strategii w samym procesie tworzenia modeli konieczne są również dalsze badania nad sposobami uwrażliwiania LLM-ów na płeć. Warto również rozwijać techniki wykrywania i eliminowania uprzedzeń. Szczególnie takie, które umożliwią modelom lepsze „rozumienie” polskich uwarunkowań językowych, kulturowych i społecznych. Czas pokaże, czy twórcy i twórczynie modeli sprostają tym wyzwaniom.
Bibliografia
- Mirosław Bańko, Jadwiga Linde-Usiekniewicz, Marek Łaziński (2020/2021). Rekomendacje dotyczące języka niedyskryminującego na Uniwersytecie Warszawskim, https://rownowazni.uw.edu.pl/wp-content/uploads/sites/105/2022/07/Rekomendacje-jezykowe-2021.pdf (dostęp: 14.10.2024).
- Iker Erdocia (2021). Participation and deliberation in language policy: the case of gender-neutral language, Current Issues in Language Planning, 23, s. 435–455, https://www.tandfonline.com/doi/full/10.1080/14664208.2021.2005385.
- Hadas Kotek, Rikker Dockum i David Sun (2023). Gender bias and stereotypes in Large Language Models, [w:] Proceedings of The ACM Collective Intelligence Conference, s. 12–24, Association for Computing Machinery, https://doi.org/10.1145/3582269.3615599 (dostęp: 14.10.2024).
- Marek Łaziński (2023). Feminatywy oraz inne spory o słowa. Próba diagnozy i propozycje pozytywne, Socjolingwistyka, 37, s. 345–368, https://doi.org/10.17651/SOCJOLING.37.19.
Meta (2024). Introducing Llama 3.1: Our most capable models to date. https://ai.meta.com/blog/meta-llama-3-1 (dostęp: 14.10.2024). - Marcelina Obarska (2022). Posełki, posełkinie, posłanki. Pierwsze polskie parlamentarzystki. Culture.pl. https://culture.pl/pl/artykul/poselki-poselkinie-poslanki-pierwsze-polskie-parlamentarzystki (dostęp: 25.10.2024).
- Sabine Sczesny, Magda Formanowicz, Franziska Moser (2016). Can gender-fair language reduce gender stereotyping and discrimination? Frontiers in Psychology, 7, Article 25. https://doi.org/10.3389/fpsyg.2016.00025 (dostęp: 14.10.2024).
- Lindia Tjuatja, Valerie Chen, Sherry Tongshuang Wu, Ameet Talwalkar i Graham Neubig (2024). Do LLMs exhibit human-like response biases? A case study in survey design, https://arxiv.org/abs/2311.04076 (dostęp: 14.10.2024).
- Aleksandra Tomaszewska, Anna Jamka (2024). Język wrażliwy na płeć w sejmie i senacie: badanie korpusowe strategii feminizacji i neutralizacji w polskim dyskursie parlamentarnym. Język Polski. https://doi.org/10.31286/JP.00995 (dostęp: 16.10.2024).
- Adam Wolański. Feminatywy po raz n-ty. Poradnia Językowa PWN. https://sjp.pwn.pl/poradnia/haslo/Feminatywy-po-raz-n-ty;22422.html (dostęp: 16.10.2024).
- Ewa Woźniak (2014). Język a emancypacja, feminizm, gender. Rozprawy Komisji Językowej ŁTN, t. X, s. 295–312.
- Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez i Kai-Wei Chang (2018). Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods [w:] arXiv, https://arxiv.org/abs/1804.06876 (dostęp: 15.10.2024).