{"id":6718,"date":"2024-12-17T18:30:00","date_gmt":"2024-12-17T17:30:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=6718"},"modified":"2025-06-26T10:08:06","modified_gmt":"2025-06-26T08:08:06","slug":"chce-na-jezyk-migowy-przetlumaczyc-caly-internet","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/chce-na-jezyk-migowy-przetlumaczyc-caly-internet\/","title":{"rendered":"\ud83d\udd12 Chc\u0119 na j\u0119zyk migowy przet\u0142umaczy\u0107 ca\u0142y internet"},"content":{"rendered":"<p><strong>Inez Okulska: Do tej pory raczej mocno zajmowa\u0142e\u015b si\u0119 projektami z dzia\u0142ki rozrywkowej (gra hybrydowa, Story Weaver). A tu nagle powa\u017cny projekt rozwi\u0105zuj\u0105cy realny problem spo\u0142eczny. Sk\u0105d si\u0119 to wzi\u0119\u0142o, co ci\u0119 do tego sk\u0142oni\u0142o?<\/strong><\/p><p><strong>Max Salamonowicz:<\/strong> Raczej kto. Przemek Ku\u015bmierek \u2013 cz\u0142owiek orkiestra, zarazi\u0142 mnie ide\u0105 i to w do\u015b\u0107 niesamowity spos\u00f3b. Ot\u00f3\u017c zacz\u0105\u0142 od udowodnienia mi, \u017ce by\u0142em idiot\u0105 i w dodatku \u015blepym. Ale spokojnie, zrobi\u0142 to w bardzo delikatny spos\u00f3b i tym samym sprawi\u0142, \u017ce sam doszed\u0142em do kluczowych wniosk\u00f3w, bez szwanku dla naszej znajomo\u015bci. <\/p><p>Cz\u0119sto uwa\u017camy si\u0119 za empatycznych homo sapiens, kt\u00f3rzy chc\u0105 spowodowa\u0107, \u017ce \u015bwiat wok\u00f3\u0142 nich b\u0119dzie lepszy \u2013 chcemy pomaga\u0107 innym. Gdy widzimy osob\u0119 na w\u00f3zku inwalidzkim w przestrzeni, kt\u00f3ra zupe\u0142nie nie jest na ni\u0105 przygotowana, to natychmiast robi nam si\u0119 przykro i chcemy pom\u00f3c. Jak przed przej\u015bciem dla pieszych na ruchliwej ulicy widzimy osob\u0119 z bia\u0142\u0105 lask\u0105 i w ciemnych okularach, to te\u017c natychmiast budzi si\u0119 w nas ch\u0119\u0107 pomocy. Natomiast kiedy na tej samej ulicy widzimy osob\u0119 g\u0142uch\u0105, to\u2026 najcz\u0119\u015bciej jej w sumie przecie\u017c nie widzimy.<\/p><p><strong>IO: A przynajmniej do momentu, w kt\u00f3rym nie zacznie u\u017cywa\u0107 j\u0119zyka migowego, bo bez tego ta niepe\u0142nosprawno\u015b\u0107 jest po prostu niezauwa\u017calna. <\/strong><\/p><p><strong>MS<\/strong>: Dok\u0142adnie, ale co gorsza nawet, gdy si\u0119 \u201eujawni&#8221; i dowiemy si\u0119, \u017ce dana osoba jest G\u0142ucha, to najcz\u0119\u015bciej odruchowo pojawi si\u0119 my\u015bl, \u017ce \u201eprzynajmniej widzi i mo\u017ce czyta\u0107&#8221;. I tak, oczywi\u015bcie, \u017ce mo\u017ce czyta\u0107, ksi\u0105\u017cki, napisy, informacje w przestrzeni miasta albo prowadzi\u0107 dialog, pisz\u0105c wiadomo\u015bci na kartce czy w telefonie. Tylko problem polega na tym, \u017ce je\u017celi kto\u015b urodzi\u0142 si\u0119 g\u0142uchy i uczy\u0142 si\u0119 od dziecka j\u0119zyka migowego, kt\u00f3ry ma zupe\u0142nie inn\u0105 form\u0119, bo jest j\u0119zykiem przestrzennym i skupia si\u0119 na wizualnym przedstawieniu relacji (np. \u201eja&#8221; wskazuje na siebie, a \u201ety&#8221; na rozm\u00f3wc\u0119) i nie ma struktur gramatycznych opartych na fleksji czy linearnej sk\u0142adni, to nie b\u0119dzie czu\u0142 si\u0119 w j\u0119zyku pisanym swobodnie, jak u\u017cytkownicy natywni. Poza tym w j\u0119zyku pisanym jeste\u015bmy przyzwyczajeni do silnej roli interpunkcji, kt\u00f3ra jest zapisem prozodii, a wi\u0119c d\u017awi\u0119ku, intonacji. D\u017awi\u0119kowo wsp\u00f3lne dla wielu kultur komunikaty s\u0105 na tyle zrozumia\u0142e, \u017ce mog\u0119 wyczyta\u0107 emocje nawet z wypowiedzi w j\u0119zyku, kt\u00f3rego nie znam \u2013 to dodatkowe, istotne elementy przekazu, kt\u00f3re niestety pozostaj\u0105 poza zasi\u0119giem G\u0142uchych. W przypadku j\u0119zyka migowego to mimika twarzy jest jedynym no\u015bnikiem emocji, intencji, ale te\u017c sk\u0142adni \u2013 np. gdy chcemy sformu\u0142owa\u0107 pytanie. G\u0142usi nie us\u0142ysz\u0105 ich w g\u0142osie, wi\u0119c je\u015bli nie zobacz\u0105 towarzysz\u0105cego wypowiedzi wyrazu twarzy, suchy zapis dialogu mo\u017ce nie wystarczy\u0107. <\/p><p>Dla os\u00f3b G\u0142uchych \u2013 zw\u0142aszcza g\u0142uchych od urodzenia \u2013 kt\u00f3re nie pozna\u0142y tego, jak j\u0119zyki dzia\u0142aj\u0105 od strony d\u017awi\u0119kowej, taki odarty z intonacji j\u0119zyk wydaje si\u0119 bardzo sztuczny. Nie niesie ze sob\u0105 pe\u0142nego kontekstu \u2013 prawdopodobnie tak samo jak dla nas j\u0119zyk migowy, nawet je\u015bli nauczymy si\u0119 rozumie\u0107 poszczeg\u00f3lne ruchy r\u0105k, ale bez wyczucia tego, co pomi\u0119dzy.<\/p><p><strong>IO: To brzmi troch\u0119 jak problem \u201etokenizacji&#8221;, m\u00f3wi\u0105c j\u0119zykiem AI. \u017be dla G\u0142uchych natywnie wypowied\u017a dzieli si\u0119 na inne elementy, na inne cz\u0105stki sensu, inne \u201etokeny&#8221; ni\u017c oddzielone spacj\u0105 znane nam ze s\u0142ownika wyrazy. <\/strong><\/p><p><strong>MK: <\/strong>Tak, oni maj\u0105 jakby zupe\u0142nie inny \u201etokenizer&#8221; ni\u017c my. To by\u0142a jedna z najwi\u0119kszych bol\u0105czek przy budowie modelu. Bo pracuj\u0105c nad takim zagadnieniem, nie mo\u017cna wzi\u0105\u0107 gotowego projektu z otwartego repozytorium, np. GitHuba, ani nieotwartego modelu, jak cho\u0107by Llama. Nie ma na czym si\u0119 oprze\u0107. Musisz wykona\u0107 prac\u0119 u podstaw i od postaw wymy\u015bla\u0107 architektur\u0119, kt\u00f3ra b\u0119dzie mia\u0142a r\u00f3wnie\u017c natur\u0119 temporaln\u0105, bo m\u00f3wimy o odtworzeniu animacji, czyli zmianie klatek wideo w czasie. Musimy w przestrzeni tr\u00f3jwymiarowej wygenerowa\u0107 chmur\u0119 punkt\u00f3w, kt\u00f3ra b\u0119dzie mia\u0142a sens, b\u0119dzie kodowa\u0142a znaczenie i relacje pomi\u0119dzy nimi. Chodzi o to, by na ekranie nie otrzyma\u0107 postaci, kt\u00f3re mo\u017ce i b\u0119d\u0105 m\u00f3wi\u0107 w j\u0119zyku migowym, ale za to b\u0119d\u0105 mia\u0142y trzy barki. Albo tylko jeden. D\u0142onie musz\u0105 by\u0107 wewn\u0105trz kadru, a nie jak w pierwszej wersji, w kt\u00f3rej jedna d\u0142o\u0144 rado\u015bnie odlatywa\u0142a sobie poza kadr. W og\u00f3le w pocz\u0105tkowych fazach bardzo cz\u0119sto strasznie si\u0119 nam \u0142ama\u0142y te awatary w zupe\u0142nie nieanatomicznych pozach. Wygl\u0105da\u0142o to naprawd\u0119 przera\u017caj\u0105co. Taki AI Halloween. Ale uda\u0142o nam si\u0119 upora\u0107 z tym problemem. <\/p><p><strong>IO: A miewa\u0142y czasem sze\u015b\u0107 palc\u00f3w czy od pocz\u0105tku tylko pi\u0119\u0107? <\/strong><\/p><p><strong>MS:<\/strong> [\u015bmiech] Wiesz co, my raczej mieli\u015bmy problem z tym, \u017ce brakowa\u0142o ca\u0142ej r\u0119ki. Gdzie\u015b po drodze w inferencji po prostu jaka\u015b r\u0119ka si\u0119 nie wygenerowa\u0142a. A tak naprawd\u0119 wi\u0119kszym problemem jest fakt, \u017ce ludzkie oko jest bardzo wyczulone na to, co jest naturalne w ruchu cia\u0142a. Zazwyczaj w og\u00f3le oczywi\u015bcie nie my\u015blimy o tym, \u017ce d\u0142o\u0144 ma inercj\u0119, natomiast od razu dostrzegamy, gdy jej brak. Kiedy r\u0119ka wykonuje gwa\u0142towny gest, musi te\u017c zd\u0105\u017cy\u0107 wyhamowa\u0107. To wp\u0142ywa na pozycj\u0119 \u0142okcia, na pozycj\u0119 barku w przestrzeni tr\u00f3jwymiarowej, bo przecie\u017c ta r\u0119ka ma swoj\u0105 mas\u0119. Je\u017celi ruch jest szybki, bezwiednie kompensujemy go mi\u0119\u015bniami z wyprzedzeniem. I tego typu charakter ruchu trzeba by\u0142o odda\u0107 za pomoc\u0105 awatara. <\/p><p><strong>IO: Ile os\u00f3b pracowa\u0142o nad tym aspektem? <\/strong><\/p><p><strong>MS:<\/strong> System ma dw\u00f3ch g\u0142\u00f3wnych autor\u00f3w \u2013 mnie i Micha\u0142a Pen\u0119. Wsp\u00f3lnie odpowiadamy za ca\u0142\u0105 architektur\u0119 i wykonanie. Natomiast w kwestie interfejsu graficznego i tego, jak ca\u0142y system ma funkcjonowa\u0107, zaanga\u017cowanych by\u0142o oczywi\u015bcie wi\u0119cej os\u00f3b. No i przed nami te\u017c nad tym projektem pracowa\u0142o sporo os\u00f3b, ale go nie zrealizowa\u0142y. Nie chodzi\u0142o nawet o same te osoby, po prostu to nie by\u0142 jeszcze w\u0142a\u015bciwy moment. Nie by\u0142o wtedy jeszcze odpowiednich dataset\u00f3w.<\/p><p><strong>IO: Nad rozk\u0142adaniem ruchu na cz\u0119\u015bci pierwsze pracowali\u015bcie te\u017c tylko we dw\u00f3jk\u0119 czy pomaga\u0142 wam kto\u015b z wi\u0119ksz\u0105 wiedz\u0105 anatomiczn\u0105? A mo\u017ce po prostu studiowali\u015bcie ten temat ad hoc? <\/strong><\/p><p><strong>MS:<\/strong> Zacz\u0119\u0142o si\u0119 od Wikipedii, p\u00f3\u017aniej zag\u0142\u0119bi\u0142em si\u0119 w specjalistyczne publikacje naukowe. Musia\u0142em nauczy\u0107 si\u0119, jaka jest struktura kostna d\u0142oni, po\u0142\u0105czenia ko\u015bci \u015br\u00f3dr\u0119cza, ich zakresy ruchu, jak wygl\u0105daj\u0105 mi\u0119\u015bnie wewn\u0105trz r\u0105k i tak dalej. To spory kawa\u0142 wiedzy, ale dopiero dzi\u0119ki niej mo\u017cna zrealizowa\u0107 taki projekt. Ale \u017ce jestem typem wiecznego studenta, kt\u00f3ry wci\u0105\u017c uwielbia si\u0119 uczy\u0107 czego\u015b nowego, to sprawia mi to satysfakcj\u0119. A dodatkowo najcz\u0119\u015bciej nie wiem, \u017ce czego\u015b si\u0119 nie da zrobi\u0107, wi\u0119c si\u0119 za to zabieram i pracuj\u0119 do skutku. W tym celu czytam, dr\u0105\u017c\u0119, ucz\u0119 si\u0119. <\/p><p><strong>IO: Na razie, jak rozumiem, to LLM-y maj\u0105 ci czego zazdro\u015bci\u0107, \u017ce tak dobrze si\u0119 uczysz. <\/strong><\/p><p><strong>MS: <\/strong>No, na pewno mniej halucynuj\u0119 [\u015bmiech]. Chyba \u017ce jestem przepracowany. <\/p><p><strong>IO: A je\u015bli chodzi o umiej\u0119tno\u015b\u0107 migania, to skoro sp\u0119dzili\u015bcie tyle godzin ucz\u0105c modele AI j\u0119zyka migowego \u2014 i to z powodzeniem \u2014 to sami te\u017c zd\u0105\u017cyli\u015bcie go ju\u017c opanowa\u0107? <\/strong><\/p><p><strong>MS: <\/strong>Zupe\u0142nie nie. Wprawdzie wiem bardzo du\u017co na temat r\u00f3\u017cnych j\u0119zyk\u00f3w migowych, znam r\u00f3\u017cnice mi\u0119dzy nimi, ale cho\u0107 bardzo chcia\u0142em si\u0119 nauczy\u0107 naprawd\u0119 nimi pos\u0142ugiwa\u0107, to po prostu akurat na to nie starczy\u0142o mi czasu. Wola\u0142em spo\u017cytkowa\u0107 go na prac\u0119 nad kodem. <\/p><p><strong>IO: To kto odpowiada\u0142 za walidacj\u0119 wynik\u00f3w, sprawdzanie, czy wszystko si\u0119 zgadza w j\u0119zyku migowym? <\/strong><\/p><p><strong>MS:<\/strong> Ogromna liczba ekspert\u00f3w. MIGAM dzia\u0142a na rynku t\u0142umacze\u0144 tr\u00f3jstronnych od ponad dekady. Od lat dostarczaj\u0105 t\u0119 warto\u015b\u0107, kt\u00f3r\u0105 teraz b\u0119dziemy mogli jeszcze bardziej zoptymalizowa\u0107 i zautomatyzowa\u0107. B\u0119dziemy mogli zmniejszy\u0107 koszty o 70% i zwi\u0119kszy\u0107 dost\u0119pno\u015b\u0107 do poziomu 24\/7, a to ona jest g\u0142\u00f3wny problemem. Obecnie do t\u0142umacze\u0144 u\u017cywamy \u201eautomat\u00f3w bia\u0142kowych&#8221;, czyli \u017cywych t\u0142umaczy, co z biznesowego punktu widzenia jest po prostu bardzo kosztownym rozwi\u0105zaniem. Warto doda\u0107, \u017ce t\u0142umacze migowi to wci\u0105\u017c rzadki i cenny zas\u00f3b. To z kolei sprawia, \u017ce t\u0142umaczonych jest stosunkowo niewiele materia\u0142\u00f3w i tre\u015bci. <\/p><p><strong>IO: Czyli zak\u0142adamy, \u017ce profesjonalni t\u0142umacze nie strac\u0105 pracy, tylko b\u0119d\u0105 tam, gdzie s\u0105 potrzebni ludzie na \u017cywo, tak? Z kolei we wszystkich innych miejscach b\u0119dzie mo\u017cna rozszerzy\u0107 dost\u0119pno\u015b\u0107 tre\u015bci dla os\u00f3b G\u0142uchych dzi\u0119ki aplikacji? <\/strong><\/p><p><strong>MS: <\/strong>Dok\u0142adnie tak. T\u0142umacz jest i b\u0119dzie bardzo po\u017c\u0105dan\u0105 osob\u0105, bo \u015bwietnie obs\u0142uguje kontekst. I w d\u0142u\u017cszej rozmowie t\u0142umacz ma przewag\u0119 nad naszym systemem. I b\u0119dzie j\u0105 mia\u0142 jeszcze przez bardzo d\u0142ugi czas, je\u015bli nie zawsze. <\/p><p>Bo walka o kontekst jest bardzo trudna. Przez d\u0142ugi czas starali\u015bmy si\u0119 znale\u017a\u0107 z\u0142oty \u015brodek. Zastanawiali\u015bmy si\u0119, jak zrobi\u0107 t\u0142umaczenie, kt\u00f3re b\u0119dzie si\u0119 zaczyna\u0142o szybko, najlepiej w czasie rzeczywistym, a z drugiej strony nie b\u0119dzie zwyk\u0142ym t\u0142umaczeniem maszynowym. Bo tu nie chodzi tylko o to, by po prostu przet\u0142umaczy\u0107 wyraz na gloss, czyli z wyrazu angielskiego zrobi\u0107 jaki\u015b gest w przestrzeni tr\u00f3jwymiarowej j\u0119zyka migowego. Po pierwsze, w j\u0119zyku migowym jest inna gramatyka. Jest te\u017c inne s\u0142ownictwo o innych cechach. Nie da si\u0119 u\u017cy\u0107 prostej analogii. Podobie\u0144stwo kosinusowe (ang. semantic similarity, inaczej komputerowo rozumiana \u201ebliskoznaczno\u015b\u0107&#8221;), jak Piotr Migda\u0142 zwraca\u0142 uwag\u0119, te\u017c nie rozwi\u0105zuje problemu \u2013 w\u0142a\u015bnie dlatego, \u017ce nie mo\u017cna t\u0142umaczy\u0107 s\u0142owo po s\u0142owie, \u017ce konieczna jest analiza od razu szerszego kontekstu, najlepiej ca\u0142ych akapit\u00f3w.<\/p><p><strong>IO: A czy korzystali\u015bcie jako\u015b z do\u015bwiadcze\u0144 t\u0142umaczy j\u0119zyka chi\u0144skiego czy japo\u0144skiego? My\u015bl\u0119 te\u017c o t\u0142umaczeniach pisemnych w parach j\u0119zyk\u00f3w z zupe\u0142nie innych rodzin. <\/strong><\/p><p><strong>MS:<\/strong> Sporo uczy\u0142em si\u0119 na temat t\u0142umaczenia j\u0119zyk\u00f3w, kt\u00f3re nie maj\u0105 wsp\u00f3lnego fundamentu. Bo wiadomo, \u017ce je\u015bli chodzi o przet\u0142umaczenie czego\u015b na przyk\u0142ad z hiszpa\u0144skiego na francuski, to sprawa jest zdecydowanie prostsza. Musia\u0142em wykona\u0107 du\u017co pracy domowej, \u017ceby zrozumie\u0107, gdzie tak naprawd\u0119 le\u017cy problem, jakie metody wykorzystuje si\u0119 w takich niesymetrycznych przyk\u0142adach. Z pomoc\u0105 dodatkowo przysz\u0142a specyfika klasycznych modeli AI \u2013 je\u015bli zarzucisz je odpowiednio du\u017c\u0105 ilo\u015bci\u0105 dobrych jako\u015bciowo danych, to b\u0119d\u0105 naprawd\u0119 pomocne. <\/p><p><strong>IO: Czy mieli\u015bcie jakie\u015b korpusy paralelne mi\u0119dzy w\u0142a\u015bciwie nawet nie obrazami, tylko nagraniami g\u0142osu i gestu? Skupili\u015bcie si\u0119 raczej na danych pokazuj\u0105cych finalny gest, np. rysunek, czy nagraniu ruchu jego wykonania?<\/strong><\/p><p><strong>MS: <\/strong>Przed tym, jak do\u0142\u0105czy\u0142em do projektu, MIGAM realizowa\u0142 bardzo ambitne za\u0142o\u017cenia \u2013 zrobiono akwizycj\u0119 obraz\u00f3w 3D na przyk\u0142ad za pomoc\u0105 Microsoft Kinect lub dw\u00f3ch kamer do obrazu stereoskopowego, \u017ceby zebra\u0107 dane o osobie migaj\u0105cej w przestrzeni tr\u00f3jwymiarowej. By\u0142o to bardzo dobre jako\u015bciowo, ale niestety nieefektywne kosztowo. A do tego dochodzi\u0142o r\u0119czne etykietowanie tych danych, co sprawia\u0142o, \u017ce by\u0142a to biznesowa katastrofa. <\/p><p>Z pomoc\u0105 przyszli\u015bmy ja i Tomek Kolinko. Tomek zaproponowa\u0142 bardzo dobre \u017ar\u00f3d\u0142a danych \u2013 r\u00f3\u017cne programy telewizyjne z wbudowanymi t\u0142umaczami. Ja z kolei zaproponowa\u0142em, \u017ce b\u0119dziemy budowa\u0107 model pracuj\u0105cy kontekstowo nad tekstem, a nie nad pojedynczymi gestami. Nauczymy go rozumienia kontekstu i powi\u0105zanych z nim struktur w przestrzeni tr\u00f3jwymiarowej, roz\u0142o\u017conych w czasie. <\/p><p>Wydawa\u0142o si\u0119 to trudniejsze, ale w praktyce okaza\u0142o si\u0119 zdecydowanie bardziej efektywne kosztowo. Zastosowali\u015bmy model oparty na encoderze VQ View. Najpierw w zbiorze danych \u201eobdzieramy&#8221; osob\u0119 migaj\u0105c\u0105 ze sk\u00f3ry, by pozostawi\u0107 sam szkielet. U\u017cywamy do tego zmodyfikowanych narz\u0119dzi opartych na MediaPipe, OpenPose i MANO \u2013 \u015bwietnym niemieckim projekcie do modelowania d\u0142oni. <\/p><p>W ten spos\u00f3b budujemy tr\u00f3jwymiarow\u0105 reprezentacj\u0119 osoby migaj\u0105cej, kt\u00f3ra jest od razu normalizowana \u2013 nie ma znaczenia, czy kto\u015b ma szerokie barki, biodra, bardziej lub mniej macha. W procesie normalizacji wszyscy staj\u0105 si\u0119 zunifikowanym cz\u0142owiekiem.<\/p><p><strong>IO: A jak sobie radzicie z halucynacjami modelu? Czy zdarzy\u0142y wam si\u0119 jakie\u015b wyj\u0105tkowo ciekawe przypadki? <\/strong><\/p><p><strong>MS:<\/strong> Mieli\u015bmy kilka fal problem\u00f3w. Jednym z najwi\u0119kszych by\u0142o to, kiedy model powinien przesta\u0107 miga\u0107, wyj\u015b\u0107 z trybu generowania gloss\u00f3w. Przy tym zagadnieniu metody normalnie stosowane w modelach j\u0119zykowych zupe\u0142nie nie dzia\u0142a\u0142y. Trzy miesi\u0105ce ci\u0119\u017ckiej pracy zaj\u0119\u0142o nam zrozumienie od strony matematycznej, co dzieje si\u0119 pod mask\u0105. <\/p><p>Halucynacje w przypadku typowych LLM-\u00f3w wi\u0119kszo\u015b\u0107 ludzi postrzega jako generowanie nieprawdziwych informacji. U nas jest inaczej \u2013 nie mamy jako takiego wnioskowania, wi\u0119c ten typ halucynacji praktycznie nie wyst\u0119puje. U nas halucynacje to raczej problemy techniczne \u2013 brak jednej r\u0119ki albo uciekaj\u0105cy bark. Mamy te\u017c zjawisko, kt\u00f3re okre\u015blili\u015bmy jako \u201esemantyczne zbli\u017cenia&#8221;. Czasami model dobiera nieprawid\u0142owy gloss (pojedyncze migni\u0119cie) w ramach d\u0142u\u017cszej wypowiedzi, ale nie jest to kompletnie b\u0142\u0119dne \u2013 raczej gest, kt\u00f3ry m\u00f3g\u0142by by\u0107 u\u017cyty w danym kontek\u015bcie. To si\u0119 zdarza g\u0142\u00f3wnie przy kr\u00f3tkich wypowiedziach, gdy model ma niewielki kontekst. <\/p><p><strong>IO: A zdarzy\u0142o si\u0119, \u017ce wyst\u0105pi\u0142a taka halucynacja czy b\u0142\u0105d w t\u0142umaczeniu, \u017ce pojawi\u0142 si\u0119 gest, kt\u00f3ry jest dobry i prawdopodobny, ale oznacza co\u015b zupe\u0142nie innego? <\/strong><\/p><p><strong>MS: <\/strong>Takich sytuacji zasadniczo nie ma. Mo\u017ce si\u0119 zdarzy\u0107 przy t\u0142umaczeniu kr\u00f3tkiego zdania, np. dw\u00f3ch wyraz\u00f3w, bo model wtedy nie ma kontekstu. On bardzo mocno opiera si\u0119 w\u0142a\u015bnie na kontek\u015bcie i potrzebuje pe\u0142nego zdania, \u017ceby wiedzie\u0107, czego dotyczy tekst, kt\u00f3ry ma t\u0142umaczy\u0107. Je\u015bli tej informacji nie ma, mo\u017ce nieprawid\u0142owo dobra\u0107 t\u0142umaczenie. Ale to przypadek brzegowy. Je\u017celi ma do dyspozycji ca\u0142e akapity, radzi sobie \u015bwietnie. <\/p><p>Ciekawa sytuacja pojawia si\u0119 przy t\u0142umaczeniu na \u017cywo, gdy kto\u015b si\u0119 zastanawia, zawiesza g\u0142os. Model ma wtedy propagacj\u0119 wsteczn\u0105 \u2013 potrafi poprawi\u0107 wyraz poprzedzaj\u0105cy albo nawet dwa\u2013trzy wyrazy wstecz, \u017ceby lepiej odpowiada\u0142y temu, co faktycznie zosta\u0142o wypowiedziane<\/p><p><strong>IO: A jak to wszystko wygl\u0105da w wymiarze praktycznym i biznesowym? <\/strong><\/p><p><strong>MS:<\/strong> Mamy w tej chwili zako\u0144czony ma\u0142y model ASL, czyli ameryka\u0144skiego j\u0119zyka migowego. Budujemy wersj\u0119, kt\u00f3ra b\u0119dzie ju\u017c docelowa. Mamy bardzo du\u017co dataset\u00f3w BSL, czyli brytyjskiego j\u0119zyka migowego, kt\u00f3ry jest totalnie inny od ASL. Prawdopodobnie nied\u0142ugo b\u0119dziemy robi\u0107 PJM, czyli polski j\u0119zyk migowy. <\/p><p>Rynek t\u0142umacze\u0144 w USA jest wyceniany na 900 milion\u00f3w do 1,2 miliarda dolar\u00f3w rocznie, wi\u0119c da si\u0119 zrobi\u0107 na tym naprawd\u0119 dobry biznes. Je\u015bli chodzi o odbiorc\u00f3w, kierujemy si\u0119 w kilka r\u00f3\u017cnych stron. Przede wszystkim uczelnie \u2013 w Stanach Zjednoczonych rozpoczynamy wsp\u00f3\u0142prac\u0119 ze Stanfordem, w Polsce prowadzimy rozmowy z Uniwersytetem Warszawskim, szczeg\u00f3lnie \u017ce maj\u0105 tam pracowni\u0119 zajmuj\u0105c\u0105 si\u0119 lingwistyk\u0105 migow\u0105. Je\u015bli chodzi o kwestie biznesowe, rozmawiamy z platformami streamingowymi. Jeste\u015bmy r\u00f3wnie\u017c w kontakcie z Roku, kt\u00f3ry jest najwi\u0119kszym graczem na terenie Stan\u00f3w Zjednoczonych. Mo\u017ce to si\u0119 nawet sko\u0144czy\u0107 integracj\u0105 w ich telewizorach, co by\u0142oby bezprecedensowe. Blisko wsp\u00f3\u0142pracujemy z Microsoftem, dzia\u0142amy tak\u017ce w przestrzeni finansowej \u2013 prowadzimy rozmowy z dwoma ogromnymi bankami w USA. <\/p><p>Strategia Przemka Ku\u015bmierka, naszego prezesa, jest ultraagresywna i bardzo ameryka\u0144ska \u2013 w ci\u0105gu dw\u00f3ch lat chcemy mie\u0107 30 j\u0119zyk\u00f3w i by\u0107 obecni na co najmniej 40\u201350 rynkach. Chcemy dostarcza\u0107 us\u0142ugi o 70% ta\u0144sze ni\u017c obecne rozwi\u0105zania z \u017cywymi t\u0142umaczami. <\/p><p><strong>IO: A jaka jest twoja osobista misja na najbli\u017csz\u0105 przysz\u0142o\u015b\u0107? <\/strong><\/p><p><strong>MS:<\/strong> Przet\u0142umaczy\u0107 ca\u0142y internet. Dos\u0142ownie. Chc\u0119, \u017ceby osoby G\u0142uche mog\u0142y konsumowa\u0107 tre\u015bci de tak jak ty czy ja. Moj\u0105 ambicj\u0105 jest, \u017ceby nasze narz\u0119dzia nie by\u0142y traktowane jako dodatek, o kt\u00f3rym trzeba pomy\u015ble\u0107 i za kt\u00f3ry trzeba zap\u0142aci\u0107, tylko \u017ceby sta\u0142y si\u0119 transparentn\u0105 cz\u0119\u015bci\u0105 normalnych ekosystem\u00f3w. \u017beby by\u0142o to co\u015b podstawowego: odpalasz Netflixa czy Disney+ i po prostu masz, opr\u00f3cz napis\u00f3w CC, t\u0142umaczenie na j\u0119zyk migowy. Przysz\u0142y rok b\u0119dzie bardzo ciekawy, bo b\u0119dziemy rozwija\u0107 model w wersj\u0119 dwukierunkow\u0105, \u017ceby nie tylko t\u0142umaczy\u0142 na glossy, lecz tak\u017ce z migowego na pisany. To bardzo ambitny plan, ale wiem, \u017ce go zrealizujemy. <\/p><p><strong>IO: Bo jeste\u015b w tym dobry i w dodatku szalony, tak? Ja ju\u017c ci wierz\u0119. Cokolwiek obiecasz. <\/strong><\/p><p><strong>MS:<\/strong> [\u015bmiech] Plan jest ambitny, ale ja si\u0119 nie boj\u0119. To znaczy, jeszcze si\u0119 nie boj\u0119, bo wci\u0105\u017c nie zacz\u0119li\u015bmy tej drugiej cz\u0119\u015bci. Natomiast mamy ju\u017c wszystkie elementy uk\u0142adanki. Wystarczy je po\u0142\u0105czy\u0107. Poza wszystkim, mo\u017cna powiedzie\u0107, \u017ce gdy robili\u015bmy datasety, to poniek\u0105d pracowali\u015bmy r\u00f3wnie\u017c nad tym odwr\u00f3conym procesem. S\u0105 plany, s\u0105 realne mo\u017cliwo\u015bci. Teraz moim najwi\u0119kszym problemem \u017cyciowym jest to, \u017ce doba ma tylko 24 godziny. A jest jeszcze tyle fajnych rzeczy do zrobienia!<\/p><p><\/p>","protected":false},"excerpt":{"rendered":"<p>Max Salamonowicz dzieli si\u0119 inspiruj\u0105c\u0105 histori\u0105 o projekcie, kt\u00f3ry zmienia spos\u00f3b porozumiewania si\u0119 dla os\u00f3b G\u0142uchych i pokazuje, jak technologia AI mo\u017ce prze\u0142ama\u0107 bariery j\u0119zykowe, t\u0142umacz\u0105c tekst na j\u0119zyk migowy w spos\u00f3b uwzgl\u0119dniaj\u0105cy kontekst. Dzi\u0119ki innowacyjnej analizie 3D i tr\u00f3jwymiarowej reprezentacji, jego projekt nie tylko poprawia dost\u0119pno\u015b\u0107 t\u0142umacze\u0144 migowych, ale tak\u017ce rewolucjonizuje codzienn\u0105 komunikacj\u0119.<\/p>\n","protected":false},"author":173,"featured_media":7013,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,405],"tags":[465,462,463],"popular":[],"difficulty-level":[38],"ppma_author":[418],"class_list":["post-6718","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-3","tag-dostepnosc","tag-jezyk-migowy","tag-max-salamonowicz","difficulty-level-medium"],"acf":[],"authors":[{"term_id":418,"user_id":173,"is_guest":0,"slug":"max-salamonowicz","display_name":"Max Salamonowicz","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/12\/GRZEDZINSKI_20241104_GRZ_3830-scaled.jpg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/12\/GRZEDZINSKI_20241104_GRZ_3830-scaled.jpg"},"first_name":"","last_name":"","user_url":"","job_title":"","description":"Ekspert AI\/ML, by\u0142y programista, in\u017cynier robotyki, entuzjasta dron\u00f3w, tw\u00f3rca gier i wszechstronny mened\u017cer projekt\u00f3w."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/6718","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/173"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=6718"}],"version-history":[{"count":7,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/6718\/revisions"}],"predecessor-version":[{"id":7314,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/6718\/revisions\/7314"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/7013"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=6718"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=6718"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=6718"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=6718"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=6718"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=6718"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}