Twój koszyk jest obecnie pusty!
Google DeepMind zaprezentowało nową generację swoich modeli AI dla robotyki: Gemini Robotics 1.5 i Gemini Robotics-ER 1.5. To znaczące rozszerzenie rozwiązań z marca 2024 roku, które wyposaża roboty w zdolność planowania wieloetapowego i korzystania z internetu w celu uzupełniania danych. Dzięki nowym modelom maszyny mogą planować działania z kilkukrokowym wyprzedzeniem, co pozwala im rozwiązywać złożone zadania w świecie fizycznym.
Jak to działa? Dwuetapowa architektura
Sercem systemu jest współpraca dwóch wyspecjalizowanych modeli. Pierwszy z nich, Gemini Robotics-ER 1.5, pełni funkcję komponentu do analizy i planowania. Przetwarza on dane o otoczeniu i celu, wykorzystuje narzędzia cyfrowe do wyszukania potrzebnych informacji (np. lokalnych przepisów), a następnie generuje plan działania w języku naturalnym. Instrukcje te trafiają do drugiego modelu, Gemini Robotics 1.5. Jest to system wykonawczy typu VLA (wizja-język-akcja), który otrzymany plan przekłada na konkretne, fizyczne operacje robota. Taka architektura oznacza fundamentalną zmianę: przejście od wykonywania prostych, pojedynczych poleceń do autonomicznego, wieloetapowego realizowania zadań.
Nowe zdolności: od sortowania po recykling zależny od lokalnych zasad
Nowe możliwości robotów zilustrowano praktycznymi przykładami. Potrafią one posortować pranie, spakować walizkę po uprzednim sprawdzeniu prognozy pogody w miejscu docelowym, a nawet pomóc w segregacji odpadów zgodnie z lokalnymi wytycznymi wyszukanymi w internecie. Zadania te wymagają nie tylko rozpoznawania obiektów, ale przede wszystkim dostępu do zewnętrznych danych i sekwencyjnego planowania działań.
Transfer umiejętności między robotami
Jednym z najważniejszych przełomów jest możliwość przenoszenia wyuczonych zdolności między robotami o zupełnie innej budowie. Zespół Google DeepMind pokazał, że model wytrenowany na dwuramiennym robocie ALOHA2 może być z powodzeniem zastosowany do sterowania robotem Franka czy humanoidem Apollo. Taka uniwersalność pozwala pokonać jedno z największych wyzwań w robotyce – konieczność kosztownego trenowania modeli od zera dla każdej nowej platformy sprzętowej.
Dostępność dla deweloperów
Google udostępnia nowe narzędzia deweloperom w przemyślany sposób. Model odpowiedzialny za analizę i planowanie, Gemini Robotics-ER 1.5, jest dostępny publicznie poprzez Gemini API w Google AI Studio. Natomiast model wykonawczy, Gemini Robotics 1.5, jest na razie dostępny jedynie dla wybranych partnerów, co pozwala na bardziej kontrolowane wdrożenia w warstwie fizycznej.
Wyzwania i perspektywy
Mimo widocznego postępu, eksperci wskazują na wciąż istniejące wyzwania. Kwestie takie jak zręczność manualna, bezpieczeństwo interakcji z człowiekiem oraz niezawodność w zmiennych warunkach pozostają kluczowymi obszarami do dalszych badań. Osiągnięcie standardów wymaganych w zastosowaniach przemysłowych będzie wymagało jeszcze wielu testów.
Nowe modele od Google DeepMind wyznaczają ważny kierunek rozwoju robotyki. Dla inżynierów oznaczają one możliwość tworzenia systemów, które dynamicznie planują zadania, łącząc percepcję z danymi z internetu. Obniżają też koszty wdrożeń dzięki przenośności oprogramowania między różnymi platformami. Premiera Gemini Robotics 1.5 to krok w stronę maszyn, które nie tylko wykonują polecenia, ale także interpretują kontekst i samodzielnie planują swoje działania.