Motion capture avec Kinect
Présentation du matériel
Les composants du Kinect
Kinect est constitué d'une barre horizontale connectée à sa base via un petit moteur. Celui-ci permet à la caméra d'effectuer des petits mouvements vers le haut ou le bas (27°) afin d'adapter la perception de la caméra en fonction de votre position dans la pièce.
La barre horizontale constitue l'élément principal de la technologie Kinect. Elle contient une série de multimicrophones, une caméra RGB, et enfin un “3D depth sensor″ permettant d'améliorer l'analyse de mouvement par rapport à une caméra comme l'EyeToy.
L'association de ces trois technologies devrait ainsi permettre la reconnaissance vocale et faciale de l'utilisateur, ainsi que la “capture” de l'ensemble de la pièce (et donc du corps) en 3D.
Ce que permet Kinect
L'ensemble des capteurs du Kinect permet donc d'effectuer du tracking de squelette (jusqu’à 2 personnes) avec 20 points clés (“joints”) du corps humain, de déterminer la position dans l'espace (jusqu'à 4 personnes) et de traiter des commandes vocales.
Architecture
Les capteurs Kinect envoient vers le système un ensemble de trois flux:
- Le flux image
- Le flux profondeur
- Le flux audio
Le flux image peut être affiché comme pour n’importe quelle caméra (pour par exemple faire de la réalité augmentée). Le capteur Kinect peut retourner le flux en 640x480 (à 30 images par seconde) et en 1280x1024 (mais à 15 images par seconde).
Le flux de profondeur qui va donner à chaque pixel une profondeur depuis le capteur. Ainsi en plus de la position en 2D de chaque pixel (et de leur couleur) nous disposons désormais de leur profondeur. Cela va énormément faciliter les recherches de formes.
Le flux audio en provenance des quatre microphones du Kinect qui appliquent trois algorithmes, la réduction du bruit ambiant, l'annulation de l'écho et le tracking de la source.
Le point clef ici concerne donc la capacité du Kinect à nous donner des informations tridimensionnelles. En utilisant ces dernières la librairie NUI (qui est fournie avec le SDK et qui est l’acronyme de Natural User Interfaces) est capable de détecter la présence d’humains en face du capteur. Elle peut ainsi “voir” jusqu’à 4 personnes et en suivre précisément deux.