Aktualizacja, która uczy roboty planować i korzystać z internetu

Google DeepMind zaprezentowało modele, które łączą rozumowanie w świecie fizycznym z wyszukiwaniem w sieci i transferem umiejętności między robotami. Cel? Zadania wieloetapowe i mniej skryptów.

Karolina Ceroń

Loading the Elevenlabs Text to Speech AudioNative Player…

Google DeepMind zaprezentowało nową generację swoich modeli AI dla robotyki: Gemini Robotics 1.5 i Gemini Robotics-ER 1.5. To znaczące rozszerzenie rozwiązań z marca 2024 roku, które wyposaża roboty w zdolność planowania wieloetapowego i korzystania z internetu w celu uzupełniania danych. Dzięki nowym modelom maszyny mogą planować działania z kilkukrokowym wyprzedzeniem, co pozwala im rozwiązywać złożone zadania w świecie fizycznym.

Jak to działa? Dwuetapowa architektura

Sercem systemu jest współpraca dwóch wyspecjalizowanych modeli. Pierwszy z nich, Gemini Robotics-ER 1.5, pełni funkcję komponentu do analizy i planowania. Przetwarza on dane o otoczeniu i celu, wykorzystuje narzędzia cyfrowe do wyszukania potrzebnych informacji (np. lokalnych przepisów), a następnie generuje plan działania w języku naturalnym. Instrukcje te trafiają do drugiego modelu, Gemini Robotics 1.5. Jest to system wykonawczy typu VLA (wizja-język-akcja), który otrzymany plan przekłada na konkretne, fizyczne operacje robota. Taka architektura oznacza fundamentalną zmianę: przejście od wykonywania prostych, pojedynczych poleceń do autonomicznego, wieloetapowego realizowania zadań.

Nowe zdolności: od sortowania po recykling zależny od lokalnych zasad

Nowe możliwości robotów zilustrowano praktycznymi przykładami. Potrafią one posortować pranie, spakować walizkę po uprzednim sprawdzeniu prognozy pogody w miejscu docelowym, a nawet pomóc w segregacji odpadów zgodnie z lokalnymi wytycznymi wyszukanymi w internecie. Zadania te wymagają nie tylko rozpoznawania obiektów, ale przede wszystkim dostępu do zewnętrznych danych i sekwencyjnego planowania działań.

Transfer umiejętności między robotami

Jednym z najważniejszych przełomów jest możliwość przenoszenia wyuczonych zdolności między robotami o zupełnie innej budowie. Zespół Google DeepMind pokazał, że model wytrenowany na dwuramiennym robocie ALOHA2 może być z powodzeniem zastosowany do sterowania robotem Franka czy humanoidem Apollo. Taka uniwersalność pozwala pokonać jedno z największych wyzwań w robotyce – konieczność kosztownego trenowania modeli od zera dla każdej nowej platformy sprzętowej.

Dostępność dla deweloperów

Google udostępnia nowe narzędzia deweloperom w przemyślany sposób. Model odpowiedzialny za analizę i planowanie, Gemini Robotics-ER 1.5, jest dostępny publicznie poprzez Gemini API w Google AI Studio. Natomiast model wykonawczy, Gemini Robotics 1.5, jest na razie dostępny jedynie dla wybranych partnerów, co pozwala na bardziej kontrolowane wdrożenia w warstwie fizycznej.

Wyzwania i perspektywy

Mimo widocznego postępu, eksperci wskazują na wciąż istniejące wyzwania. Kwestie takie jak zręczność manualna, bezpieczeństwo interakcji z człowiekiem oraz niezawodność w zmiennych warunkach pozostają kluczowymi obszarami do dalszych badań. Osiągnięcie standardów wymaganych w zastosowaniach przemysłowych będzie wymagało jeszcze wielu testów.

Nowe modele od Google DeepMind wyznaczają ważny kierunek rozwoju robotyki. Dla inżynierów oznaczają one możliwość tworzenia systemów, które dynamicznie planują zadania, łącząc percepcję z danymi z internetu. Obniżają też koszty wdrożeń dzięki przenośności oprogramowania między różnymi platformami. Premiera Gemini Robotics 1.5 to krok w stronę maszyn, które nie tylko wykonują polecenia, ale także interpretują kontekst i samodzielnie planują swoje działania.

Współtwórczyni newslettera AI Flash, studentka psychologii i pasjonatka sztucznej inteligencji. Interesuję się wpływem nowych technologii na człowieka, a w wolnych chwilach eksperymentuję z generatywną grafiką w Midjourney.

Podziel się

Może Cię zainteresować