{"id":4576,"date":"2024-11-12T08:56:16","date_gmt":"2024-11-12T07:56:16","guid":{"rendered":"https:\/\/haimagazine.com\/?p=4576"},"modified":"2025-06-26T11:35:50","modified_gmt":"2025-06-26T09:35:50","slug":"modele-wizyjne","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/modele-wizyjne\/","title":{"rendered":"\ud83d\udd12 Modele wizyjne"},"content":{"rendered":"<p class=\"wp-block-paragraph\">Sztuka ta obejmuje ona szereg technik i algorytm\u00f3w, kt\u00f3re pozwalaj\u0105 komputerom na analiz\u0119, przetwarzanie i \u201erozumienie\u201d obraz\u00f3w i film\u00f3w w spos\u00f3b zbli\u017cony do ludzkiego. Dla komputera obraz to nic innego jak tablica liczb (Rys. 1). Ka\u017cdy piksel (czyli najmniejszy kwadratowy fragment obrazu, co\u015b jak znak w s\u0142owie) jest reprezentowany przez warto\u015b\u0107 lub zestaw warto\u015bci (w przypadku obraz\u00f3w kolorowych). Modele wizyjne przetwarzaj\u0105 te liczby przez szereg warstw, ka\u017cda z nich wyodr\u0119bnia coraz bardziej z\u0142o\u017cone cechy \u2013 od prostych kraw\u0119dzi obiekt\u00f3w po ca\u0142e obiekty widoczne na zdj\u0119ciach.<\/p><p class=\"has-text-align-center wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"500\" height=\"377\" class=\"wp-image-5415\" style=\"width: 500px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/mysz.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/mysz.png 783w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/mysz-300x226.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/mysz-768x580.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/mysz-600x453.png 600w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><br><em>Rys. 1. Ilustracja sposobu, w jaki komputer widzi obraz<\/em><\/p><p class=\"wp-block-paragraph\">Modele wizyjne maj\u0105 szereg zastosowa\u0144. W medycynie najszersze zastosowanie maj\u0105 w dziedzinie radiologii. S\u0105 pomocnym narz\u0119dziem wspieraj\u0105cym lekarzy radiolog\u00f3w w diagnostyce w charakterze \u201edrugiej opinii\u201d. Trwaj\u0105 te\u017c badania nad modelami, kt\u00f3re pomog\u0142yby na przyk\u0142ad zmniejszy\u0107 konieczno\u015b\u0107 podawania pacjentom kontrastu przy badaniach tomografii komputerowej. Model wizyjny m\u00f3g\u0142by wygenerowa\u0107 obrazy przypominaj\u0105ce te uzyskiwane po podaniu \u015brodka kontrastowego wy\u0142\u0105cznie na podstawie obraz\u00f3w bez kontrastu. Inny przyk\u0142ad to samochody autonomiczne. Sztuczna inteligencja umo\u017cliwia pojazdom \u201ewidzenie\u201d drogi, rozpoznawanie znak\u00f3w drogowych i innych uczestnik\u00f3w ruchu oraz wykrywanie zagro\u017ce\u0144 na drodze.Modele wizyjne maj\u0105 te\u017c szerokie zastosowanie w przemy\u015ble przy wykrywaniu usterek, kontroli jako\u015bci na liniach produkcyjnych oraz monitorowaniu stanu maszyn i wykrywaniu awarii. W \u017cyciu codziennym korzystamy z nich na przyk\u0142ad podczas logowania si\u0119 przy pomocy twarzy czy odcisku palca \u2013 to w\u0142a\u015bnie modele wizyjne odpowiadaj\u0105 za weryfikacj\u0119 ich zgodno\u015bci.<\/p><p class=\"wp-block-paragraph\">Historia modeli wizyjnych rozpocz\u0119\u0142a si\u0119 od prostych zada\u0144, takich jak rozpoznawanie r\u0119cznie pisanych cyfr. MNIST \u2013 zbi\u00f3r danych zawieraj\u0105cy 70 000 obraz\u00f3w cyfr, wraz z sieci\u0105 LeNet, sta\u0142y si\u0119 kamieniem milowym w rozwoju tej dziedziny. Rozpoznawanie cyfr by\u0142o pierwszym kluczowym komercyjnym zastosowaniem sieci neuronowych. Przy pomocy sieci LeNet w Stanach Zjednoczonych w latach dziewi\u0119\u0107dziesi\u0105tych odczytywano kody pocztowe oraz wp\u0142aty czek\u00f3w.<\/p><p class=\"wp-block-paragraph\">Zastosowanie modeli wizyjnych na szerok\u0105 skal\u0119 sta\u0142o si\u0119 jednak mo\u017cliwe dopiero znacznie p\u00f3\u017aniej. Kluczowym problemem by\u0142 brak wystarczaj\u0105co obszernych zbior\u00f3w danych do treningu modeli oraz brak dostatecznie du\u017cej mocy obliczeniowej. W 2009 roku zesp\u00f3\u0142 Fei Fei Li z Princeton wypu\u015bci\u0142 zbi\u00f3r ImageNet, kt\u00f3ry zawiera\u0142 3 miliony obraz\u00f3w. Ka\u017cdy obraz nale\u017ca\u0142 do 1 z 5000 kategorii przypisanej przez cz\u0142owieka. Opracowanie zbioru danych zaj\u0119\u0142o dwa lata. ImageNet by\u0142 jak otwarcie oczu komputer\u00f3w na ca\u0142e bogactwo wizualnego \u015bwiata. Nagle modele mia\u0142y dost\u0119p do ogromnej r\u00f3\u017cnorodno\u015bci obraz\u00f3w, od zwierz\u0105t po przedmioty codziennego u\u017cytku.<\/p><p class=\"wp-block-paragraph\">Prawdziwa rewolucja nast\u0105pi\u0142a jednak w 2012 roku, gdy AlexNet, g\u0142\u0119boka sie\u0107 neuronowa, wygra\u0142a konkurs ImageNet, demonstruj\u0105c niespotykan\u0105 wcze\u015bniej dok\u0142adno\u015b\u0107 w rozpoznawaniu obraz\u00f3w. AlexNet by\u0142 oparty o splotowe sieci neuronowe (ang. <strong>convolutional neural network<\/strong>) i jako jeden z pierwszych wykonywa\u0142 obliczenia na karcie graficznej (czyli szeroko u\u017cywanych dzi\u015b GPU). Warstwy splotowe w sieciach neuronowych przetwarzaj\u0105 dane wej\u015bciowe poprzez zastosowanie filtr\u00f3w, kt\u00f3re wykrywaj\u0105 lokalne wzorce i cechy.<\/p><p class=\"wp-block-paragraph\">Nast\u0119pne prze\u0142omowe architektury splotowe modeli wizyjnych (VGG, Inception ResNet, EfficientNet) pokonywa\u0142y kolejne wyzwania, co umo\u017cliwi\u0142o tworzenie jeszcze g\u0142\u0119bszych i bardziej z\u0142o\u017conych sieci. Kolejne lata przynios\u0142y szereg innych innowacji, takich jak model YOLO (You Only Look Once), kt\u00f3ry zrewolucjonizowa\u0142 detekcj\u0119 obiekt\u00f3w w czasie rzeczywistym.<\/p><p class=\"wp-block-paragraph\">Modele dyfuzyjne, takie jak Stable Diffusion, ustanowi\u0142y kolejny prze\u0142om w generowaniu obraz\u00f3w. Te modele tworz\u0105 obrazy, stopniowo \u201eoczyszczaj\u0105c\u201d losowy szum. Mo\u017cna to sobie wyobrazi\u0107 jako proces tw\u00f3rczy artysty, kt\u00f3ry zaczyna od chaotycznego szkicu i stopniowo dopracowuje detale, a\u017c powstanie pe\u0142ny obraz. Najnowszym trendem s\u0105 modele multimodalne, kt\u00f3re potrafi\u0105 pracowa\u0107 jednocze\u015bnie z r\u00f3\u017cnymi rodzajami danych \u2013 tekstem, obrazem, d\u017awi\u0119kiem. To jak opracowywanie AI z ca\u0142ym zestawem ludzkich zmys\u0142\u00f3w.<\/p><p class=\"wp-block-paragraph\">Modele wizyjne rozwi\u0105zuj\u0105 szereg zada\u0144 (Rys. 2). Najbardziej podstawowym jest klasyfikacja obrazu. To zadanie polega na przypisaniu obrazu do wybranej kategorii spo\u015br\u00f3d predefiniowanej listy. Przyk\u0142adem klasyfikacji jest okre\u015blenie, czy na obrazie jest kot czy pies. Przejd\u017amy o krok dalej. Co, je\u015bli chcemy nie tylko wiedzie\u0107, co jest na obrazie, ale te\u017c gdzie dok\u0142adnie si\u0119 to znajduje? Tu wkracza detekcja obiekt\u00f3w. Jest ona realizowana poprzez wykrycie prostok\u0105ta, w kt\u00f3rym znajduje si\u0119 obiekt, oraz przypisanie go do odpowiedniej klasy. Jeszcze bardziej precyzyjna analiza zachodzi przy segmentacji. Modele wizyjne potrafi\u0105 nie tylko wykry\u0107 obiekty, lecz tak\u017ce precyzyjnie okre\u015bli\u0107 ich kszta\u0142t i granice. Komputer mo\u017ce to uczyni\u0107 poprzez \u201epokolorowanie\u201d ka\u017cdego piksela obrazu i przypisanie go do konkretnego obiektu lub t\u0142a. To przydatne w medycynie (np. analiza zdj\u0119\u0107 rentgenowskich) czy w edycji zdj\u0119\u0107 (automatyczne wycinanie t\u0142a). A co, gdyby\u015bmy chcieli stworzy\u0107 zupe\u0142nie nowy obraz? Tu wkraczaj\u0105 generatywne modele wizyjne. Potrafi\u0105 one tworzy\u0107 realistyczne obrazy na podstawie opis\u00f3w tekstowych lub modyfikowa\u0107 istniej\u0105ce zdj\u0119cia. Ta technologia znajduje zastosowanie w sztuce, projektowaniu, a nawet w tworzeniu efekt\u00f3w specjalnych w filmach.<\/p><p class=\"has-text-align-center wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"500\" height=\"701\" class=\"wp-image-5334\" style=\"width: 500px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-11.00.21.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-11.00.21.png 488w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-11.00.21-214x300.png 214w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><br><em>Rys. 2. Podstawowe zadania modeli wizyjnych<\/em><\/p><p class=\"wp-block-paragraph\">Jak wygl\u0105da proces opracowywania modelu wizyjnego? Pierwszym krokiem jest precyzyjne okre\u015blenie problemu, kt\u00f3ry chcemy rozwi\u0105za\u0107. Czy nasz model ma rozpoznawa\u0107 twarze? A mo\u017ce klasyfikowa\u0107 gatunki zwierz\u0105t? Wa\u017cnym elementem jest wyb\u00f3r punktu odniesienia (czy kto\u015b ju\u017c wcze\u015bniej rozwi\u0105zywa\u0142 ten problem, jakie uzyska\u0142 wyniki?) oraz odpowiedniej miary (<strong>metric<\/strong>), kt\u00f3ra pomo\u017ce nam oceni\u0107 adekwatno\u015b\u0107 modelu do wykonywanego zadania. Kolejnym etapem jest opracowanie zbioru danych. Zwykle jest to najbardziej z\u0142o\u017cony etap modelu, kt\u00f3ry wymaga cz\u0119sto r\u0119cznego przejrzenia obraz\u00f3w i przypisaniu ich do odpowiednich kategorii. Nast\u0119pnie przyst\u0119pujemy do przetwarzania wst\u0119pnego (ang. <strong>preprocessing<\/strong>). Usuwamy nieodpowiednie lub b\u0142\u0119dnie oznaczone obrazy. Ujednolicamy rozmiar i format obraz\u00f3w. P\u00f3\u017aniej rozpoczynamy projektowanie architektury i trening modelu. Trening warstw modelu to proces, w kt\u00f3rym sie\u0107 uczy si\u0119 rozpoznawa\u0107 wa\u017cne cechy obraz\u00f3w poprzez stopniowe dostosowywanie swoich filtr\u00f3w. Dalej przeprowadzamy ewaluacj\u0119 modelu. Sprawdzamy go na nowych danych. Analizujemy b\u0142\u0119dy i por\u00f3wnujemy nasz model z wybranym punktem odniesienia.<\/p><p class=\"wp-block-paragraph\">Kluczowym zagadnieniem przy opracowywaniu modeli wizyjnych w dalszym ci\u0105gu pozostaje ograniczony dost\u0119p do danych i trudno\u015b\u0107 w ich oznaczeniu. Ten problem jest szczeg\u00f3lnie widoczny w bran\u017cach takich jak opieka zdrowotna, gdzie pos\u0142ugiwanie si\u0119 danymi medycznymi jest obwarowane rygorystycznymi regu\u0142ami, a oznaczenie takich danych wymaga specjalistycznej wiedzy. Wa\u017cnymi technikami, kt\u00f3re opracowano dla tych problem\u00f3w, s\u0105 transfer wiedzy (ang. <strong>transfer learning<\/strong>) i uczenie samonadzorowane (ang. <strong>self-supervised learning<\/strong>). Transfer wiedzy polega na wykorzystaniu wiedzy zdobytej przy rozwi\u0105zywaniu jednego zadania do wykonywania kolejnego, nowego zadania (Rys. 3). To poj\u0119cie, kt\u00f3rego my sami r\u00f3wnie\u017c mogli\u015bmy do\u015bwiadczy\u0107, je\u015bli na przyk\u0142ad po\u015bwi\u0119cili\u015bmy wiele lat na opanowanie francuskiego, a nast\u0119pnie ju\u017c bez wi\u0119kszych trudno\u015bci przyswoili\u015bmy hiszpa\u0144ski. Uczenie samonadzorowane polega na uczeniu modelu na nieoznakowanych danych poprzez tworzenie pomocniczych zada\u0144. Zadania te tworzone s\u0105 sztucznie i maj\u0105 na celu nauczy\u0107 model og\u00f3lnych cech i struktur obecnych na obrazach. Przyk\u0142adem takich zada\u0144 mo\u017ce by\u0107, kolorowanie obrazu, uk\u0142adanie obrazu z puzzli czy przewidywanie brakuj\u0105cych element\u00f3w obrazu. Transfer learning i self-supervised learning pozwalaj\u0105 znacz\u0105co zredukowa\u0107 liczb\u0119 oznaczonych danych potrzebnych do wytrenowania modelu.<\/p><p class=\"wp-block-paragraph\">Modele wizyjne stale ewoluuj\u0105, oferuj\u0105c nowe mo\u017cliwo\u015bci w r\u00f3\u017cnych dziedzinach \u2013 od medycyny po sztuk\u0119. Przysz\u0142o\u015b\u0107 tej technologii jest fascynuj\u0105ca i pe\u0142na potencja\u0142u, a dalszy rozw\u00f3j modeli wizyjnych z pewno\u015bci\u0105 przyniesie kolejne prze\u0142omowe odkrycia i zastosowania.<\/p><p class=\"has-text-align-center wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"436\" class=\"wp-image-5417\" style=\"width: 700px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/model.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/model.png 1889w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/model-300x187.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/model-1024x638.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/model-768x479.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/model-1536x957.png 1536w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/model-600x374.png 600w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><br><em>Rys. 3. Ilustracja procesu transfer learning<br><\/em><\/p>","protected":false},"excerpt":{"rendered":"<p>Modele wizyjne (ang. computer vision models) to ga\u0142\u0105\u017a sztucznej inteligencji, kt\u00f3ra zajmuje si\u0119 uczeniem maszyn interpretacji i rozumienia \u015bwiata widzialnego. W najprostszym uj\u0119ciu to sztuka przekszta\u0142cania danych obrazowych w u\u017cyteczne informacje i decyzje.<\/p>\n","protected":false},"author":91,"featured_media":4579,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,404],"tags":[],"popular":[],"difficulty-level":[36],"ppma_author":[386],"class_list":["post-4576","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-2","difficulty-level-easy"],"acf":[],"authors":[{"term_id":386,"user_id":91,"is_guest":0,"slug":"barbara-klaudel","display_name":"Barbara Klaudel","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/barbara-klaudel.jpg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/barbara-klaudel.jpg"},"first_name":"Barbara","last_name":"Klaudel","user_url":"","job_title":"","description":"Wsp\u00f3\u0142za\u0142o\u017cycielka TheLion.ai, grupy badawczej tworz\u0105cej rozwi\u0105zania AI. Specjalizuje si\u0119 w zastosowaniach sztucznej inteligencji w medycynie, \u0142\u0105cz\u0105c prac\u0119 in\u017cynier\u00f3w i specjalist\u00f3w ochrony zdrowia oraz prowadz\u0105c zaj\u0119cia z deep learningu na Politechnice Gda\u0144skiej."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4576","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/91"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=4576"}],"version-history":[{"count":4,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4576\/revisions"}],"predecessor-version":[{"id":6342,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4576\/revisions\/6342"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/4579"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=4576"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=4576"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=4576"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=4576"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=4576"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=4576"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}