Nos experts ont la parole
>

 

Après une belle édition 2017 à Nantes, la communauté scientifique internationale de la réalité augmentée s’est réunie cette année à Munich pour une nouvelle édition de l’International Symposium on Mixed and Augmented Reality (ISMAR). Une communauté toujours plus importante, puisque ces journées ont rassemblé plus de 440 participants, majoritairement européens cette année il est vrai, pour échanger et assister aux présentations des 18 papiers sélectionnés sur 119 soumis.

Nous étions présents, témoins d’une tendance forte dans le domaine de la reconstruction 3D d’environnements et des afficheurs volumétriques. Voici un compte-rendu des papiers qui ont le plus retenus notre attention.

Les approches de type SLAM occupent toujours une bonne partie des travaux récents, avec une tendance à uniformiser leurs cas d’usages. Jusqu’à présent, lors de la mise en œuvre d’un problème nécessitant de la localisation et de la cartographie d’environnement simultanés (SLAM), les performances des implémentations actuelles imposaient de trouver un compromis entre des temps de calculs acceptables pour une application temps-réel et la densité du nuage de points caractéristiques de l’environnement (landmarks dans le vocable SLAM) généré.

Soit on s’intéressait plus à la partie localisation, et on constituait une carte de points peu dense pour privilégier la vitesse d’exécution, soit on s’intéressait plus à la carte de points, pour des applications de reconstruction géométrique par exemple, et on sacrifiait la rapidité d’exécution au profit d’un nuage de points plus dense.

D’après [3], le principal goulot d’étranglement se situe au niveau de l’intégration de nouveaux points dans les voxels généralement utilisés pour discrétiser l’environnement.

En combinant une rasterisation rapide des nouveaux points sur GPU et une structure de données hiérarchique (là où la littérature n’utilisait que l’un ou l’autre), ils réussissent à intégrer jusqu’à 120 frames de profondeur de 512x424 pixels par secondes dans une grille de voxels de 4mm d’arête[1]. Cela signifie entre autres que le goulot d’étranglement est maintenant déplacé vers les performances du matériel d’acquisition. D’un point de vue applicatif, cela signifie également qu’une reconstruction géométrique dense et rapide est à portée de main.

Une autre tendance consiste à faire sortir le SLAM des environnements statiques en lui permettant de s’adapter à des environnements constitués d’objets mobiles. En pratique, il s’agit de contraindre les nuages de points caractéristiques en les segmentant selon différents critères. Une première approche [4] propose d’exploiter les quantités de mouvement des pixels pour les regrouper par vitesses relatives similaires. Pour ce faire, ils exploitent, entre autres, un réseau de neurones profond qui leur permet de créer une carte de probabilités de conflits de mouvement, qui permet de distinguer en particulier un mouvement principal d’un mouvement secondaire. MaskFusion [5] s’intéresse au même problème mais propose d’exploiter cette fois une combinaison de segmentations sémantique et géométrique. La segmentation sémantique, basée sur Mask R-CNN [6], est capable de fournir une segmentation 2D au niveau des instances d’objets reconnus, mais souffre de contours approximatifs et de temps de calcul pour l’instant élevés (4Hz au mieux). Par ailleurs, la segmentation géométrique [7], basée sur des hypothèses de continuité et de convexité des objets (également exploitée dans [8], avec en plus une prise en compte des couleurs), est capable de s’exécuter à des fréquences exploitables en temps réel, fournit des contours précis, mais a tendance à sur-segmenter les objets. L’intégration de ces 2 segmentations réalisée par MaskFusion permet d’en exploiter les avantages individuels tout en contournant leurs limitations. Les possibilités ainsi ouvertes sont multiples : reconstruction géométrique, mais aussi sémantique des objets de la scène filmée, tracking d’objets multiples sans marqueur, filtrage des landmarks à prendre en compte (élimination de ceux attachés à une personne par exemple) lors d’une cartographie et/ou d’un tracking,…

Comme on le voit, la reconstruction de scène 3D concentre des efforts importants de la communauté scientifique.

Les travaux évoqués ci-dessus reposent tous sur l’acquisition de nuages de points pour représenter l’environnement. Une autre approche basée sur la déformation d’un modèle 3D prédéfini tente de définir ce que pourrait être le futur de la reconstruction ego-centrée [9].

Leur solution est extrêmement contrainte par le matériel utilisé : le système se compose uniquement de huit caméras portées sur la tête et près du corps, car il se veut préfigurer un matériel plausible pour une utilisation réelle d’ici quelques années. De ce fait, la vision des caméras du corps et du visage de la personne qui les porte n’est que très partielle, ce qui rend la reconstruction complexe. A partir de ces vues partielles, un réseau de neurones convolutionnel est mis en œuvre pour définir un squelette permettant de déformer le maillage pré-défini du corps de l’utilisateur[2]. Pour le visage, cette approche est complétée par une analyse audio de la parole pour compenser le faible nombre d’informations visuelles. La principale limitation de cette approche réside dans l’incapacité à filmer les jambes de l’utilisateur, majoritairement masquées par les membres supérieurs.

Concernant le hardware, au-delà des dispositifs de capture, on observe également que la gestion de la distance d’accommodation sur les images virtuelles dans un affichage optical see-through est au centre des préoccupations actuelles. Pour adresser ce problème, la piste des afficheurs volumétriques est explorée dans [12]. Ces travaux présentent un afficheur volumétrique de type near-eye display permettant d’afficher des images sur une profondeur allant de 15cm à 4m.

Leur approche consiste à faire balayer en profondeur le plan focal image sur toute la zone d’affichage grâce à une lentille à mise au point variable pilotée électriquement, le tout à une fréquence de 60Hz. L’affichage des objets virtuels est décomposé en 280 tranches selon la profondeur, et chacune de ces tranches est affichée au moment où la distance d’accommodation perçue à travers la lentille correspond à sa profondeur. Une autre approche, présentée dans [10], propose une maquette de lunettes auto-focus permettant d’accommoder aussi bien sur les images virtuelles que sur les objets réels. Les deux problèmes sont traités de manières différentes : la mise au point sur les objets réels est réalisée là encore par des lentilles à mise au point variable pilotées électriquement, tandis que la mise au point sur les objets virtuels repose sur un combineur optique varifocal [11] (miroir transparent déformable). L’idée étant de synchroniser les distances d’accommodation des deux systèmes. La portée de ces travaux dépasse largement le cadre de la réalité augmentée et commencent à adresser le thème bien plus étendu de l’humain augmenté.

Vous avez des questions ? vous souhaitez en savoir plus sur les tendances de la Réalité Augmentée ? Vous avez un projet ?

Nos experts se tiennent à votre disposition.

Références

[1]          P. Rojtberg et A. Kuijper, « Efficient Pose Selection for Interactive Camera Calibration », in Proceedings of the IEEE International Symposium for Mixed and Augmented Reality 2018, 2018.

[2]          K. Moser, M. S. Arefin, et J. E. Swan, « Impact of Alignment Point Distance and Posture on SPAAM Calibration of Optical See-Through Head-Mounted Displays », in Proceedings of the IEEE International Symposium for Mixed and Augmented Reality 2018, 2018.

[3]          C. Kunert, T. Schwandt, et W. Broll, « Efficient Point Cloud Rasterization for Real Time Volumetric Integration in Mixed Reality Applications », in Proceedings of the IEEE International Symposium for Mixed and Augmented Reality 2018 (To appear), 2018.

[4]          B. P. Wisely Babu, Z. Yan, M. Ye, et L. Ren, « On Exploiting Per-Pixel Motion Conflicts to Extract Secondary Motions », in Proceedings of the IEEE International Symposium for Mixed and Augmented Reality 2018 (To appear), 2018.

[5]          M. Rünz, M. Buffier, et L. Agapito, « MaskFusion: Real-Time Recognition, Tracking and Reconstruction of Multiple Moving Objects », arXiv:1804.09194 [cs], avr. 2018.

[6]          K. He, G. Gkioxari, P. Dollár, et R. Girshick, « Mask R-CNN », mars 2017.

[7]          K. Tateno, F. Tombari, et N. Navab, « Real-time and scalable incremental segmentation on dense SLAM », in 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2015, p. 4465‑4472.

[8]          J. Zillner, E. Mendez, et D. Wagner, « Augmented Reality Remote Collaboration with Dense Reconstruction », in Adjunct Proceedings of the IEEE International Symposium for Mixed and Augmented Reality 2018 (To appear), 2018.

[9]          Y.-W. Cha et al., « Towards Fully Mobile 3D Face, Body, and Environment Capture Using Only Head-worn Cameras », IEEE Trans Vis Comput Graph, sept. 2018.

[10]        P. Chakravarthula, D. Dunn, K. Aksit, et H. Fuchs, « FocusAR: Auto-focus Augmented Reality Eyeglasses for both Real and Virtual. », IEEE transactions on visualization and computer graphics, 2018.

[11]        D. Dunn et al., « Wide Field Of View Varifocal Near-Eye Display Using See-Through Deformable Membrane Mirrors », IEEE Transactions on Visualization and Computer Graphics, vol. 23, no 4, p. 1322‑1331, avr. 2017.

[12]        K. Rathinavel, H. Wang, A. Blate, et H. Fuchs, « An Extended Depth-at-Field Volumetric Near-Eye Augmented Reality Display », IEEE Transactions on Visualization and Computer Graphics, vol. 24, no 11, p. 2857‑2866, nov. 2018.

 

[1] Dans une grille de 1024x1024x1024 voxels

[2] Scan réalisé au préalable par la solution itSeez3D.

Nous contacter

02 43 59 13 97

Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

Rue Marie Curie
53810 CHANGE

>
Retour haut