Apple gebruikt Vision Pro om humanoïde robots te trainen met gegevens uit menselijk perspectief

Het nieuwe onderzoek van Apple, beschreven in ‘Humanoid Policy – ​​Human Policy’, introduceert een baanbrekende manier om humanoïde robots te trainen. Deze innovatieve aanpak, een samenwerking met topuniversiteiten, maakt gebruik van menselijke demonstraties uit de eerste persoon, vaak vastgelegd met een Apple Vision Pro, om het leren van robots efficiënter en betaalbaarder te maken. Het is een aanzienlijke sprong ten opzichte van de traditionele, complexe methoden om robots te onderwijzen.

Het kernidee is het verzamelen van egocentrische menselijke demonstraties, dit zijn video's van mensen die taken uitvoeren vanuit hun eigen perspectief. Dit staat in schril contrast met het dure en arbeidsintensieve proces waarbij alleen door robots gegenereerde trainingsgegevens worden verzameld. Door meer dan 25.000 menselijke en 1.500 robotdemonstraties te combineren in een uniforme dataset genaamd PH2D, wil Apple één enkel AI-beleid creëren dat zowel menselijke als robotacties begrijpt, waardoor de efficiëntie enorm wordt verbeterd.

Om dit te bereiken heeft Apple een specifieke app ontwikkeld voor de Vision Pro. Het maakt gebruik van de camera van de headset en ARKit om nauwkeurige 3D-hoofd- en handbewegingen vast te leggen, waardoor de gedetailleerde actiegegevens worden geleverd die robots nodig hebben. Om dit toegankelijk te maken, heeft Apple ook een houder gemaakt voor een ZED Mini-stereocamera, waarmee gegevens van vergelijkbare hoge kwaliteit kunnen worden vastgelegd met goedkopere headsets zoals de Meta Quest 3.

Deze nieuwe methode verbetert de trainingsefficiëntie drastisch. Terwijl traditionele teleoperaties eeuwen kunnen duren, registreert de aanpak van Apple volledige demonstraties in enkele seconden, waardoor de kosten worden verlaagd en de schaalbaarheid wordt vergroot. Interessant is dat demonstratievideo's van mensen tijdens de training met een factor vier worden vertraagd om de robotsnelheden te evenaren, waardoor het leerproces wordt vereenvoudigd zonder extra aanpassingen.

Aanbevolen leesmateriaal:Apple ontwikkelt slimme thuisrobots, maar verwacht ze niet vóór 2028

De kern van dit systeem is het Human Action Transformer (HAT)-model. HAT verwerkt zowel mens- als robotdemonstraties in een uniform formaat en leert universele regels voor manipulatietaken. Dankzij deze geïntegreerde aanpak kunnen robots nieuwe en onbekende taken effectiever beheersen, waarbij minder gegevens nodig zijn dan traditionele training met alleen robots.

Het onderzoek ‘Humanoid Policy – ​​Human Policy’ toont een cruciaal moment in AI en robotica en laat zien hoe menselijke inzichten de ontwikkeling van geavanceerde humanoïde robots kunnen versnellen.

Bekijk het volledige documenthier.