Szkolenie robota z pomocą inteligentnych okularów?
Inteligentne okulary zapewniają skalowalne dane treningowe w porównaniu z kamerami statycznymi.Roboty uczą się zadań manipulacji bezpośrednio z interakcji ludzkich obiektów przechwyconych w codziennych środowiskach.
Robotyka ogólne i AI Lab na New York University wprowadziło Egozero, ramy wykorzystujące inteligentne okulary do generowania danych szkoleniowych dla robotów.System wykorzystuje egocentryczne śledzenie wideo i przestrzenne w celu szkolenia modeli manipulacji ogólnego przeznaczenia bez potrzeby danych demonstracyjnych robota.Część Egozero „ego” odnosi się do „egocentrycznego” charakteru danych, co oznacza, że jest on zebrany z perspektywy osoby wykonującej zadanie.
Egazero działa na egocentrycznych nagraniach z Project Aria okularów.Urządzenia te przechwytują ciągłe informacje o filmie i przestrzenne, ponieważ ludzie wykonują codzienne zadania.Dane są przetwarzane przez rurociąg, który lokalizuje punkty obiektowe w 3D za pomocą trajektorii kamery i triangulacji.Ręczne modele szacowania Pose zapewniają kluczowe punkty, które są przekonwertowane na „punkty działania”, reprezentujące wektory kontaktu i ruchu.
System pozwala uniknąć przesyłania obrazu surowego.Zamiast tego zmniejsza nagrywania na trajektorie punktowe w przestrzeni 3D.Ta abstrakcja punktowa omija niedopasowanie wizualne między ludzkimi rękami a robotycznymi efektami końcowymi.Ramiona robota następnie powtarzają względny ruch tych punktów w odniesieniu do obiektów, zamiast próbować odtworzyć wygląd ruchu człowieka.
W eksperymentach dowodowych koncepcji zarejestrowano 20 minut demonstracji międzyludzkich dla każdego z siedmiu zadań, w tym działań typu pick-and na miejscu.Roboty przeszkolone tylko na podstawie tych egocentrycznych danych osiągnęły 70 -procentowy wskaźnik sukcesu po wdrożeniu zadań fizycznych.
Architektura zapewnia przenośność i skalowalność.Inteligentne okulary automatycznie przechwytują odpowiednie szczegóły zadania, ponieważ użytkownicy orientują swój pogląd na obszary krytyczne.Zwiększa to dane istotne dla zadań w porównaniu ze statycznymi kamerami zewnętrznymi.Usuwa również potrzebę gromadzenia danych specyficznych dla robota, które jest czasochłonne i zależne od sprzętu.
Oprócz Egazero naukowcy opracowali ręczny chwytak z nadrukiem 3D z aparatem smartfona, aby powtórzyć roboty chwytanie.Ta równoległa metoda stosuje tę samą zasadę śledzenia przestrzeni punktowej i oferuje tanie ścieżkę do większego gromadzenia danych na skalę.
Egazero stanowi krok w kierunku skalowalnych zestawów danych interakcji człowieka-obiekty, porównywalne z danymi tekstowymi w skali internetowej dla modeli językowych, mające na celu przyspieszenie robotyki ogólnego zastosowania.