| Résumé | Avec la croissance du volume des données multimédia au format numérique durant la dernière décennie, il est devenu nécessaire de mettre au pointe des nouvelles formes de représentation et codage de ces données. Dans ce qui concerne les données vidéo, la représentation en termes d’objets et de régions s’est avérée intéressante aussi bien pour le codage des données visuelles que pour la manipulation, l’accès et la description de leur contenu. La segmentation spatio-temporelle des séquences d’images animées est l’outil méthodologique nécessaire à la construction des partitions d’une scène animée en entités homogènes telles que régions et objets. Elle a été tout d’abord développée dans l’optique du codage efficace des séquences d’images par compensation du mouvement.
Cette nouvelle forme de codage dite « basée région » a été une extension naturelle des méthodes du codage des images fixes par contour – texture.
La première contribution du travail a consisté à proposer une méthodologie de construction de la segmentation spatio-temporelle des scènes génériques orientée codage. Celle-ci comporte trois grandes phases : l’initialisation, le suivi et le codage structurel.
En premier lieu une nouvelle méthodologie ascendante d’initialisation de la segmentation a été proposée. Elle s’appuie sur la segmentation spatiale du plan image au début d’une séquence animée en régions homogènes en luminance. La méthode de la construction de la segmentation spatiale suit une approche coopérative. Elle exploite à la fois les ruptures de continuité locale du signal de luminance (détection du contour) et l’homogénéité globale (croissance des régions). Le modèle affine du mouvement apparent est ensuite estimé sur chaque région par une approche différentielle. La méthode d’estimation prend en compte la topologie de la segmentation dans la phase de la relaxation déterministe. Finalement, une méthodologie de fusion des régions initiales en régions spatio-temporelles homogènes vis-à-vis des critères basés mouvement est mise en œuvre. L’avantage de l’approche proposée réside dans sa généricité. Aucun modèle à priori du contenu des scènes animées n’est supposé.
Cette méthode générique a été spécialisée au cas de l’analyse des séquences vidéo provenant des communications vidéo mobiles. Un modèle de scène simple sous forme de gabarit elliptique pour le visage de personnage est ici supposé. Le détecteur des visages a été mis en œuvre par une approche multi-résolution et géométrique sur les images couleurs.
Le suivi des segmentations spatio-temporelles au cours du temps représente un problème complexe dont la résolution a comme objectif de produire la segmentation à l’instant de temps courant à partir de sa connaissance par le passé et des informations disponibles dans l’image courante. Un ensemble d’outils méthodologiques permettant la prédiction de la segmentation, son ajustement spatial et temporel, la gestion des occultations et la décomposition des régions basée mouvement a été développé. Dans ce cadre, un nouveau modèle de contours actifs polygonaux a été introduit pour ajuster les frontières de la segmentation prédite aux contours réels présents dans l’image. La complémentarité des modèles et des outils développés permet de gérer des scènes de complexité importante avec de multiples objets de mouvements hétérogènes. Les partitions de scènes génériques de topologique complexe nécessitent des méthodes de codage efficace de la composante structurelle. Ainsi, un schéma complet de codage de la topologie et de la géométrie des frontières optimal au sens débit - distorsion a été développé.
Avec l’émergence de nouveaux services multimédia et des nouveaux standards de représentation et de description des contenus de données multimédia (MPEG4, MPEG7), l’insuffisance des outils existants d’extraction et d’analyse du contenu de la vidéo est devenue patente. Notamment, la notion de gradualité objet introduite par MPEG4 a nécessité des outils pertinents d’extraction et de représentation avec un niveau de détail variable des objets des scènes vidéo. Une méthode de segmentation spatio-temporelle hiérarchique des contenus de scènes animées a été proposée. Cette méthode s’est appuyée sur le nouveau critère d’homogénéité spatio-temporelle des régions dans le plan image. Deux stratégies de construction des partitions hiérarchiques -ascendante et coopérative- ont été mises au point. La dernière méthodologie coopérative s’appuie sur les mesures du mouvement global dans la scène afin d’esquisser la localisation des objets ayant un mouvement propre. La segmentation hiérarchique ascendante à l’intérieur des zones d’intérêts permet ensuite de construire les partitions hiérarchiques pertinentes des objets.
L’ordre de profondeur relative des régions par rapport au point d’observation est une information importante quant à la composition spatiale des scènes animées suivant le modèle 2D et 1/2. Une méthodologie d’extraction de cette information dans des séquences animées monoculaires a été proposée. Elle est basée sur l’analyse de l’erreur de compensation du mouvement dans les zones d’occultation.
L’extraction des objets en mouvement des scènes animées n’est qu’une partie du schéma global de l’analyse du contenu de la vidéo numérique pour sa description et son indexation efficaces. Cet objectif est propre au nouveau standard MPEG7. Afin de décrire les documents vidéo sous forme d’entités logiques cohérentes (scènes et plans de montage), il est nécessaire de proposer des méthodes automatiques de structuration de la vidéo. Une caractéristique importante permettant de mesurer précisément la continuité d’une scène spatio-temporelle est le mouvement. L’estimation globale du mouvement par les techniques 2D reste coûteuse en temps. Une nouvelle approche par l’estimation du mouvement dans le domaine du signal 1D (transformée projective « Mojette ») a été proposée. Elle a permis de détecter les changements de plan en mesurant la corrélation des images compensées.
L’estimation robuste du mouvement dans le domaine de « Mojette » et l’analyse statistique des coefficients de corrélation locale ont permis de détecter les masques des objets en mouvement, proposant ainsi une vision globale du contenu de la scène en termes objets – fond.
Les travaux présentés se sont déroulés dans le cadre des contrats de recherche en amont aussi bien au niveau national qu’international.
Les perspectives des travaux sont nombreuses. Elles ouvrent la voie à des méthodes efficaces de segmentation basées sur la perception des images vidéo par l’utilisateur, à la structuration et à l’indexation des documents multimédia dans le domaine compressé. |