POLygraph – polskie narzędzie do wykrywania fake newsów

Nowe technologie sprzyjają coraz większej dezinformacji, ale jednocześnie mogą stać się bronią przeciwko zalewowi fake newsów. Obiecujące narzędzia do rozpoznawania fałszywych informacji właśnie powstają na UAM w Poznaniu.

POLygraph - polskie narzędzie do wykrywania fake newsów

Fake newsy mogą przybierać różne formy: od sensacyjnych nagłówków, przez zmanipulowane fotografie aż po artykuły w części lub całości opierające się na nieprawdzie. Najczęściej służyć mają wywołaniu sensacji, zdobyciu kliknięć i przez to zarabianiu na reklamach. Niekiedy jednak świadomie manipuluje się opinią publiczną w celach politycznych czy komercyjnych.

Dlaczego fake newsy mają się tak dobrze?

Jednym z głównych powodów, dla których fake newsy zyskują na sile, jest algorytmiczne działanie platform społecznościowych. Znaczy to tyle, że algorytmy promują treści generujące wysokie zaangażowanie użytkowników – niezależnie od ich prawdziwości. W rezultacie fałszywe informacje często osiągają większy zasięg niż rzetelne wiadomości, publikowane w zgodzie ze standardami etycznymi. Ponadto zjawisko tzw. baniek informacyjnych sprawia, że użytkownicy w sieci częściej spotykają się z treściami zgodnymi z ich przekonaniami, co z kolei utrudnia weryfikację informacji i sprzyja dalszemu rozprzestrzenianiu się fake newsów.

Niestety obecność fejków w naszej codzienności opiera się nie tylko na tym, że często znajdujemy bazujące na nieprawdzie lub niepełnej prawdzie potwierdzenie własnych przekonań. W sferze politycznej fałszywe informacje mogą wpływać na wyniki wyborów, destabilizować rządy i podważać zaufanie obywateli do instytucji demokratycznych (pewnie przynajmniej raz słyszeliście o tym, że próba zamachu na Trumpa była ustawką). W kontekście zdrowia publicznego fake newsy dotyczące medycyny mogą prowadzić do szkodliwych decyzji, takich jak rezygnacja ze szczepień czy stosowanie niebezpiecznych „alternatywnych” terapii. Ostatnio w przestrzeni internetowej mogliśmy nawet zobaczyć, jak Daniel Olbrychski zachęcał do stosowania „cudownego lekarstwa” na chorobę zwyrodnieniową stawów! Oczywiście okazało się, że nie był to słynny aktor, lecz jego wizerunek wygenerowany przy pomocy technologii deepfake. Jak widać, fake newsy oddziałują więc na cały nasz społeczny ekosystem. Jak możemy się przed nimi bronić?

Oczywiście podstawą jest samodzielna weryfikacja znajdowanych informacji, szczególnie gdy chcemy na ich podstawie podejmować kluczowe decyzje. Możemy szukać potwierdzenia w kilku źródłach lub wypowiedziach ekspertów z branży, jednak jasne jest, że ciągłe weryfikowanie wszystkiego, co spotykamy w sieci, to właściwie pełnoetatowe zajęciem. Ale żebyśmy w ogóle poczuli potrzebę weryfikacji, coś najpierw zwykle musi wzbudzić nasze podejrzenia. A jeżeli w danym temacie brakuje nam wiedzy, możemy nie dostrzegać sygnałów, które powinny aktywować naszą ostrożność. Dlatego też wiele informacji zadomawia się w naszych głowach bez większego sceptycyzmu. Dla walki z zalewem fake newsów istotne staje się więc podejście do problemu z drugiej strony: ocenianie tego, co w ogóle publikowane jest w sieci. Tu z pomocą przychodzą nam m.in. instytucje fact–checkingowe. 

Gdzie warto szukać potwierdzonych informacji na bieżące tematy?

  • Fake Hunter – niezależna strona, która agreguje i weryfikuje newsy. Znajdziesz tam popularne fejki, które obiegają cały internet: kompletny blackout podczas igrzysk w Paryżu, ukraińskie inwestycje w kampanię Trumpa oraz informacje o tym, co stoi na przeszkodzie, by Kamala Harris kandydowała na prezydentkę USA. Każda informacja jest opatrzona źródłem oraz eksperckim raportem wyjaśniającym, dlaczego to fake.
  • Demagog – organizacja, która za cel stawia sobie poprawę jakości debaty publicznej i aby go osiągnąć, walczy z dezinformacją i dostarcza wyłącznie sprawdzone informacje. Na jej stronie przeczytasz analizy z omówieniem zarówno fałszywych, jak i opierających się na prawdzie, zweryfikowanych newsów, które funkcjonują w przestrzeni publicznej.
  • EUvsDisinfo – niezależny serwis zagraniczny prowadzony przez grupę zadaniową East StratCom, która wchodzi w skład Europejskiej Służby Działań Zewnętrznych. Głównym zadaniem ekspertów z EUvsDisinfo jest demaskowanie dezinformacyjnych działań rosyjskich. Zweryfikowane newsy można tam wyszukiwać za pomocą filtrów wskazujących na datę publikacji, język, tematyczne tagi czy kraj/region, którego dotyczą wiadomości.

Praca nad bieżącą oceną newsów również może stać łatwiejsza, jeśli do procesu włączymy narzędzia napędzane AI! M.in. Sensity AI, czyli bazująca na algorytmach głębokiego uczenia się platforma, która wykrywa materiały typu deep fake, czy Operation Minerva oceniająca deep fake wideo dzięki porównaniu modyfikowanych filmów z innymi materiałami wideo i dostępnymi w bazie. A na pomysł na polskie rozwiązanie, które mogłoby wspierać walkę z fejkami, wpadli ostatnio poznańscy naukowcy!

POLygraph – model do wykrywania fake newsów w języku polskim

Nad stworzeniem skutecznego narzędzia do identyfikacji i zwalczania fake newsów pracuje obecnie interdyscyplinarny zespół z Zakładu Sztucznej Inteligencji Uniwersytetu Adama Mickiewicza w Poznaniu. Badacze wykorzystują nie tylko metody przetwarzania języka naturalnego i big data, ale też techniki narracyjne, porównawcze i socjologiczne. Wszystko, by stworzyć model służący ocenie treści zamieszczanych w internecie.

Jak stworzono bazy danych w POLygraph?

W ramach projektu POLygraph powstały dwie główne bazy danych:

  1. Zbiór danych „fake-or-not”: zawiera 11 360 par artykułów prasowych (identyfikowanych przez adresy URL) oraz etykiety wskazujące, czy wiadomość jest fałszywa, czy nie.
  2. Zbiór danych „fake-they-say”: obejmuje 5082 artykuły prasowe (również identyfikowane przez adresy URL) i komentujące je tweety. Do każdego tweeta dołączona jest etykieta wyrażająca opinię komentatora na temat prawdziwości artykułu.

Wykorzystywane w badaniu dane zostały zebrane w całości z Internetu. Zespół badawczy zaprojektował mechanizm wykorzystujący dwie metody: dostęp do danych API i web scraping. Punktem wyjścia do uzyskania bazy danych był tweety wyrażające opinie na temat artykułów prasowych – zbiór obejmował aż 4 155 466 „ćwierknięć”. Na etapie formowania bazy odrzucono m.in. wpisy w innych językach niż polski oraz te, które nie odnosiły się do żadnych zewnętrznych adresów URL, ponieważ analizie miały zostać poddane oryginalne artykuły (więcej o wyłączeniach można przeczytać w częściach 3.2 i 3.3 opisu badania). Zadbano również o to, by treści do anotacji prezentowały się w takiej formie, w jakiej widzieli je odbiorcy. W tym celu stworzono web crawler, który zebrał screenshoty stron z artykułami i komentarzami w oryginalnym układzie.

Najpierw nauczmy model naszych kryteriów wiarygodności, czyli o anotacji danych

Przy formułowaniu kryteriów anotacyjnych badacze inspirowali się rodzajami informacji wyodrębnionymi w japońskim badaniu fake newsów, czyli:
1) prawdziwości wiadomości,
2) intencji nadawcy,
3) adresata wiadomości,
4) postawy nadawcy wobec odbiorcy,
5) celu wiadomości,
6) stopnia szkodliwości społecznej wiadomości,
7) rodzaju szkody, jaką może wyrządzić wiadomość.

Ostateczna wersja katalogu analizowanych aspektów wykracza poza powyższe dane. Choć pytania badawcze skupiają się głównie na samej zawartości tekstów, niektóre mają także na celu m.in. określenie stosunku anotatora do treści. W ten sposób można również zbadać, jak poszczególne wiadomości oddziałują na odbiorcę, np. jakie emocje czy postawy wywołują po przeczytaniu. Całkowita liczba artykułów prasowych z adnotacjami wyniosła 7006, z czego 6339 artykułów zostało opatrzonych komentarzami co najmniej dwóch niezależnych komentatorów.

Komentatorzy musieli również ocenić stosunek autora tweeta do treści artykułu przy pomocy jednej z sześciu etykiet:

  • hard-claim-fake (twierdzi, że artykuł jest fałszywy)
  • hard-claim-not-fake (twierdzi, że artykuł jest prawdziwy)
  • brak wyrażonego zdania (nie można określić opinii)
  • sarkazm (sarkastyczne odniesienie do tematu)
  • soft-claim-fake (prawdopodobnie uważa, że artykuł jest fałszywy)
  • soft-claim-not-fake (prawdopodobnie uważa, że artykuł jest prawdziwy)

Anotację na platformie Doccano wykonało 161 komentatorów – ekspertów oraz studentów nauk politycznych i dziennikarstwa, którzy przed rozpoczęciem pracy przeszli szczegółowe szkolenie. 

Celem jest ocena całej dyskusji publicznej

Tworząc POLygraph, wykorzystano zaawansowane techniki przetwarzania języka naturalnego oraz big data, aby analizować i oceniać artykuły prasowe oraz powiązane z nimi komentarze. Proces analizy danych opierał się na dwóch głównych zadaniach:

  1. Stworzenie modelu, który na podstawie adresu URL określi, czy artykuł opiera się na prawdziwych wiadomościach.
  2. Stworzenie modelu, który na podstawie tekstu tweeta i adresu URL określi, co autor tweeta myśli o artykule.

Razem tworzą one nowy zbiór danych do wykrywania fałszywych wiadomości w języku polskim. W przeciwieństwie do istniejących zbiorów danych ten stworzony w POLygraph nie opiera się wyłącznie lub głównie na binarnej klasyfikacji prawda i fałsz, ale czerpie z różnych podejść proponowanych w literaturze źródłowej. Co równie istotne, badacze w tym przypadku nie skupiają się tylko na wiadomościach oryginalnych, ale też całej dyskusji, jaka toczy się w danym temacie – a to przecież w ten sposób często powstają popularne nadinterpretacje i przekłamania.

Do tej pory zbiór danych POLygraph służył do przeprowadzenia projektu pilotażowego polegającego na wykrywaniu fałszywych wiadomości – nie wykorzystano go jeszcze w rzeczywistych scenariuszach. Badacze zakładają, że dalsza eksploracja zebranych danych pozwoli stworzyć narzędzie, które przyspieszać będzie proces wykrywania fałszywych wiadomości, co z kolei istotnie ułatwi pracę m.in. instytucjom zajmującym się bezpieczeństwem państwowym czy mediom odpowiedzialnym za podtrzymywanie merytorycznych dyskusji w dyskursie publicznym.

Szczegółowy opis baz danych oraz przeprowadzonych testów można znaleźć w artykule POLygraph: Polish Fake News Dataset, który w lipcu 2024 r. ukazał się na portalu „arxiv.org”.

Katarzyna Jachymek

Od zawsze ze słowami: jak nie czyta, to pisze, a jak nie pisze, to redaguje. Dla równowagi śpiewa i tańczy swinga.

Podziel się

Może Cię zainteresować