Ponad 50 narzędzi online, które przyspieszą Twoje badania tekstów

Lista słów kluczowych, zidentyfikowanie wydźwięku emocjonalnego tekstu, a nawet analiza stylu – wszystko to możesz mieć podane na tacy! Poznaj bezpłatne narzędzia badawcze dostępne na stronie CLARIN-PL.

Narzędzia online do badania tekstów

Czy kiedykolwiek zdarzyło Ci się analizować duże zbiory tekstów? Z pewnością wielu naukowców zgodzi się, że przeszukiwanie stosów dokumentów w poszukiwaniu kluczowych informacji bywa wyjątkowo żmudne. Jednak z wykorzystaniem narzędzi opartych na uczeniu maszynowym i sztucznej inteligencji przetwarzanie, analizowanie i przeszukiwanie nawet ogromnych zbiorów tekstów, które dawniej trwałoby tygodnie, staje się o wiele szybsze. Dzięki temu podczas badań można skupić się na rozpoznawaniu zależności i wyciąganiu wniosków, zamiast na ręcznym przeszukiwaniu danych. Na stronie konsorcjum CLARIN-PL znajdziesz ponad 50 różnych narzędzi online, usprawniających badania tekstów – do czego Ci się przydadzą?

Opracowanie tekstów

Dzięki narzędziom z tej grupy zautomatyzujesz takie procesy jak transkrypcja, poprawa pisowni czy lematyzacja i szybko przekształcisz surowe dane w czysty, znormalizowany materiał gotowy do dalszej analizy.

Automatyczna transkrypcja i przetwarzanie mowy

Narzędzie Mowa umożliwia – co, ze względu na nazwę, chyba niespecjalnie nas dziwi – transkrypcję mowy na tekst. Jeśli w badaniach korzystasz z nagrań rozmów, wywiadów czy przemówień to narzędzie jest z gatunku must have. Nie będziesz musiał dłużej ręcznie przygotowywać transkrypcji, dzięki czemu oszczędzisz mnóstwo czasu i szybko przejdziesz do kolejnych etapów analizy.

Automatyczne streszczanie tekstów

Summarize i ShortTxTSummary pozwalają na automatyczne tworzenie skrótów tekstów. Pierwsze z narzędzi będzie wyjątkowo pomocne przy przeglądaniu dużych dokumentów, takich jak raporty czy artykuły naukowe. Jeżeli nie wiesz, z którymi materiałami warto się zapoznać lub chcesz zostawić sobie na później podpowiedź-przypomnienie na temat głównych idei w tekstach, z którymi się już zapoznałeś, to narzędzie jest dla Ciebie. Z kolei drugie służy do streszczania tekstów liczących maksymalnie 5000 tokenów, czyli około 400 słów.

Dzięki ShortTxTSummary w kilka sekund otrzymasz podsumowanie o maksymalnej objętości 1/3 tekstu wprowadzenia.

Poprawa tekstów i czyszczenie z elementów zbędnych

Nie jest Ci po drodze ze słownikiem i zasadami pisowni? Speller i Punctuator poprawią za Ciebie ortografię, interpunkcję czy skorygują literówki – zarówno w zgromadzonym materiale badawczym, jak i finalnej wersji Twojego artykułu. Nawet jeśli Twój tekst jest całkowicie pozbawiony znaków interpunkcyjnych, zobacz poniżej!

Przykład poprawienia tekstu przez Punctuator.

Anotacja i lematyzacja korpusów

Inforex jest narzędziem do anotacji tekstów. Umożliwia znakowanie różnych elementów, takich jak części mowy, frazy nominalne czy czasowniki w dużych zbiorach danych. Nieocenione okazuje się szczególnie w badaniach lingwistycznych, w których kluczowa jest analiza zależności między różnymi elementami języka. Wystarczy zaznaczyć interesujące Cię fragmenty, by w dowolnym momencie wrócić do nich dzięki określonym tagom. Z kolei Lem i InterLem umożliwiają lematyzację wszystkich wyrazów w zbiorze – czyli przekształcają je do form podstawowych. To przyda się np. podczas analiz tekstów literackich, aby zbadać częstotliwość występowania konkretnych słów bez względu na ich odmiany gramatyczne.

Analizowanie tekstów

Zaprezentowane w tej grupie narzędzia pomagają zrozumieć gramatykę, strukturę, emocje, styl i tematy występujące w dużych zbiorach danych. Dzięki nim możesz szybko odkryć ukryte wzorce i zależności, które mogłyby umknąć przy ręcznym przetwarzaniu danych.

Analiza cech gramatycznych i składniowych

WebSty, Verbs, KonText, Korpusomat, Chronocorpus i ComCorp to narzędzia, które umożliwiają analizę gramatyczną i składniową tekstów. Mogą być wykorzystywane np. w badaniach nad ewolucją języka. Analiza zmian w strukturze zdań w tekstach z różnych okresów może ujawnić zmiany w stylu czy składni. Z kolei wyszukiwanie specyficznych konstrukcji gramatycznych przydaje się w diachronicznych badaniach nad językiem. Nawet już sprawdzono, jak można wykorzystać Korpusomat do analizy języka tekstów prawnych!

Analiza emocji i wydźwięku

A jakie zabarwienie emocjonalne mają interesujące Cię teksty? Tego dowiesz się, używając Multiemo, Sentemo, AspectEmo i Wydźwięku, które oferują możliwości analizy emocji i sentymentu. W ten sposób możesz przyspieszyć np. analizę nastrojów społecznych na podstawie postów w mediach społecznościowych, artykułów prasowych czy transkrypcji przemówień politycznych. Dodatkowo tego typu analiza ilościowa może być świetnym uzupełnieniem badań jakościowych. Zamiast korzystać z własnych kategoryzacji, poprzyj swoje wnioski mniej podatną na ludzkie błędy i stronniczość automatyczną analizą emocji. Jeśli interesują Cię praktyczne zastosowania tych narzędzi, zajrzyj do artykułu Katarzyny Jarzyńskiej, która przetestowała je do badania fake newsów

Przykład analizy prostej opinii o restauracji w narzędziu AspectEmo. Co ważne, operuje ono na wydźwięku pojedynczych słów, więc potrafi wskazać pozytywne i negatywne nacechowanie w obrębie jednego zdania, podczas gdy pozostałe narzędzia przedstawiają ogólną ocenę całego zdania lub tekstu.

Analiza stylometryczna i tematyczna

WebSty i Verbs są używane do identyfikacji autorstwa tekstów na podstawie charakterystycznych cech stylu pisania lub wydobywania z treści cech poszczególnych idiolektów. Z kolei Topic służy do analizy tematycznej, czyli klasyfikacji treści ze względu na różne występujące w nich tematy. Możemy używać go na przykład w badaniach nad mediami, by przeprowadzić analizę dominujących tematów w artykułach prasowych z danego okresu.

Wyszukiwanie konkretnych informacji w tekstach

Czasem zależy nam po prostu na tym, by jak najszybciej dotrzeć do konkretnej informacji. Narzędzia do wyszukiwania danych w tekstach pozwalają na błyskawiczną identyfikację nazw własnych, słów kluczowych, wyrażeń czasowych czy przestrzennych. Dzięki nim łatwo wydobędziesz najistotniejsze elementy z nawet najbardziej rozbudowanych tekstów. NER identyfikuje nazwy własne i wyrażenia czasowe, Geolocation – określenia przestrzenne, a Inkluz pozwoli Ci szybko wydobyć wyrazy obce z podanych tekstów. Mogą Ci się przydać np. w analizach zapożyczeń/wtrąceń czy badaniach nad historią regionu, dzięki czemu automatycznie zidentyfikujesz odniesienia do miejsc, osób i wydarzeń historycznych.

Praca z korpusami

Kompleksowe narzędzia do pracy z korpusami pozwalają na tworzenie, przeglądanie i zarządzanie dużymi zbiorami tekstów. Dzięki nim możesz porównywać różne korpusy, tworzyć statystyki i analizować dane na nieosiągalnym dotychczas poziomie.

Tworzenie, przeglądanie i statystyki korpusów

Korpusomat, DSpace, CLARIN Cloud, KonText i Inforex to bezpłatnie dostępne narzędzia, które pozwolą Ci tworzyć korpusy oraz nimi zarządzać. Ich tworzenie jest kluczowe w badaniach lingwistycznych, literackich i społecznych, w których analizy muszą być oparte na dużych zbiorach tekstów. Dzięki nowym narzędziom zgromadzisz wszystkie potrzebne materiały w systematycznej formie i za pomocą specjalnych zapytań będziesz mógł wyszukiwać w nich informacje, których potrzebujesz na danym etapie badań. Niektóre z narzędzi oprócz systemu zapytań mają również automatycznie generowane, systemowe statystyki, np. w Korpusomacie są to lista słów kluczowych, lista frekwencyjna, słownictwo charakterystyczne czy kolokacje. Inforex, Korpusomat i DSpace umożliwiają też łatwe zarządzanie metadanymi, co jest niezbędne przy pracy z dużymi zbiorami tekstów.

W systemowych statystykach Korpusomatu dla każdego utworzonego korpusu tworzone są listy kolokacji i słownictwa charakterystycznego oraz lista frekwencyjna, a także chmura tagów graficznie obrazująca słowa kluczowe dla zbioru tekstów.

Od automatycznej transkrypcji, przez zaawansowane analizy gramatyczne, emocjonalne i tematyczne, aż po zarządzanie korpusami – teraz narzędzia online pozwalają zarówno znacznie oszczędzić czas podczas badań, jak i uzyskać nowe, wartościowe wyniki, które wcześniej były poza zasięgiem tradycyjnych metod analizy. A to jeszcze nie wszystko – pełną listę udostępnianych narzędzi znajdziesz na stronie konsorcjum CLARIN-PL. A jak możesz wykorzystać je we własnej pracy naukowej? Tego dowiesz się podczas warsztatów CLARIN-PL w praktyce badawczej, które odbędą się w Poznaniu już 23-24 września tego roku. Udział jest bezpłatny – wystarczy zarejestrować się do 31 sierpnia 2024 r. przez formularz.

Katarzyna Jachymek

Od zawsze ze słowami: jak nie czyta, to pisze, a jak nie pisze, to redaguje. Dla równowagi śpiewa i tańczy swinga.

Podziel się

Może Cię zainteresować