You are here

Deep Learning for end-to-end visual servoing

Team and supervisors
Department / Team: 
Team Web Site: 
https://team.inria.fr/lacodam/fr/
PhD Director
Elisa Fromont
Co-director(s), co-supervisor(s)
Contact(s)
PhD subject
Abstract

Les techniques d'asservissement visuel [1] consistent à contrôler les mouvements d'un système robotique à l'aide d'informations visuelles acquises par un système de vision et intégrées au sein de lois de commande en boucle fermée. Ce type de commande consiste à déplacer le robot en comparant en permanence la situation observée avec la situation souhaitée. Une tâche classique d’asservissement visuel est, par exemple, de réaliser une tâche de positionnement en déplaçant la caméra de façon à ce que l’image perçue corresponde à une image désirée.

Afin de comparer la vue courante et la vue désirée, il est nécessaire d’extraire de l’information visuelle des images. Ces informations visuelles sont classiquement de type géométrique (point, droite, cercle, etc) et des algorithmes de suivi spatio-temporel ou de mise en correspondance (résultant d’une phase de traitement d’image) doivent être mis en œuvre. Cette étape de suivi est complexe et nous souhaiterions pouvoir la supprimer à l’occasion de ce travail de thèse.

Une nouvelle classe d’asservissement visuel est en train de voir le jour. Elle consiste à travailler sur l’ensemble de l’image en utilisant l’information photométrique de l’ensemble des pixels [2] au lieu des primitives décrites précédemment. Cette approche est séduisante puisqu’elle permet d’obtenir une excellente précision de positionnement et permet de se passer de l’étape de suivi et de mise en correspondance (en ce sens on parlera d’asservissement visuel direct). Cette solution souffre par contre d’un domaine de convergence plus local (i.e. la position initiale du robot ne doit pas être trop éloignée de la position finale) et d’une faible robustesse aux modifications de l’environnement. 

Récemment, il a été démontré qu’il était possible d’utiliser des réseaux de neurones convolutifs (CNN – Convolutional Neural Network) pour calculer la position d’une caméra par rapport à une scène [3]. Cette position peut ensuite être utilisée pour développer une loi de commande permettant de positionner une caméra montée sur l’effecteur d’un robot [4]. Cette méthode fonctionne correctement si le réseau est entrainé avec des images (simulées) de la scène considérée.

Pour aller plus loin, plusieurs questions restent à étudier :

  • « End-to-end visual servoing » : peut-on définir une loi de commande du robot qui évite l’étape de localisation (aussi appelée « calcul de pose ») ? Les techniques actuelles reposent sur un processus de localisation de la camera. A partir de cette localisation, une loi de commande est dérivée. Nous souhaitons éviter cette étape de localisation car c’est un processus complexe et souvent très bruité menant à une commande instable de la camera.
  • Quelle structure donner au réseau pour optimiser le processus de régression ? Les réseaux de neurones classiques sont principalement entrainés pour des tâches de classification (ex : « il y a un chat dans cette image ») ou de regression pour la détection (ex : « les coordonnées d’une boite englobant le chat sur l’image ») [5]. Dans le cadre de cette thèse, nous nous intéressons à un problème de regression dans un espace plus complexe : le special Euclidian group se(3).  Il conviendra d’étudier donc tant la structure optimale du réseau, afin de maximiser sa capacité de généralisation, que de déterminer des fonctions de perte adaptées à l’espace considéré (et donc de définir des métriques efficaces et des opérations d’échantillonnage de cet espace).
  • Toujours en se focalisant sur la structure du réseau, il apparaît indispensable de contraindre la trajectoire physique du robot. Le recours à des réseaux récurrents (ex : LSTM) est envisagé pour apprendre non seulement la commande à envoyer au robot mais aussi la trajectoire optimale de celui-ci). L’idée est bien d’introduire des contraintes spatio-temporelle dans le processus d’apprentissage et donc dans la trajectoire calculée en ligne lors de l’exécution de la tâche.
  • L’un des points bloquants de l’utilisation des approches d’apprentissage en robotique concerne la construction de manière efficace de l’ensemble d’apprentissage. Nous envisagerons de recourir à l’utilisation d’un simulateur pour simplifier et accélérer le processus d’apprentissage. L’utilisation d’images de synthèse ne permet cependant pas une bonne généralisation c’est pourquoi le recours à des processus d’augmentation de données consistant à utiliser conjointement des images réelles et de synthèses devrait permettre de grandement améliorer les capacités de généralisation du réseau et donc d’améliorer la robustesse aux modifications de l’environnement.
Bibliography

[1] F. Chaumette, S. Hutchinson. Visual servo control, Part I: Basic approaches. IEEE Robotics and Automation Magazine, 13(4):82-90, Décembre 2006.

[2] C. Collewet, E. Marchand. Photometric visual servoing. IEEE Trans. on Robotics, 27(4):828-834, Août 2011.

[3] Kendall, A., Grimes, M., & Cipolla, R. (2015). Posenet: A convolutional network for real-time 6-dof camera relocalization. In Proceedings of the IEEE international conference on computer vision (pp. 2938-2946)

[4] Q. Bateux, E. Marchand, J. Leitner, F. Chaumette, P. Corke. Training Deep Neural Networks for Visual Servoing. In IEEE Int. Conf. on Robotics and Automation, ICRA'18, Pages 3307-3314, Brisbane, Australia, Mai 2018.

[5] D. Fourure, R. Emonet, E. Fromont, D. Muselet, N. Neverova, A. Trémeau, C. Wolf
Multi-task, Multi-domain Learning: Application to Semantic Segmentation and Pose Regression. Neurocomputing, Vol. 251, 16 August 2017, Pages 68-80

Work start date: 
Septembre 2019
Keywords: 
Asservissement visuel, Deep learning
Place: 
IRISA - Campus universitaire de Beaulieu, Rennes