|
Codage basé régions de séquences vidéos avec optimisation débit-distorsion |
|
S. Pateux C. Labit
Contact: S. Pateux
Dans les schémas de codage vidéo normalisés tels MPEG1, MPEG2, MPEG4, H261, H263, une compensation en mouvement par blocs est réalisée afin d'obtenir une bonne prédiction des images futures. Toutefois cette technique de prédiciton pêche par l'utilisation d'un découpage en blocs ayant un mouvement purement translationnel (apparition de phénomènes de blocs à bas débit, non prise en compte de mouvement réel tels les mouvement de rotation et de zoom, non homogénéité du mouvement au sein d'un bloc).
Afin de palier à ces problèmes, une technique dite de seconde génération a été proposée. Cette technique consiste en l'utilisation d'un découpage en régions afin de réaliser la compensation en mouvement. Les mouvements utilisés sont de type affine paramétrique permettant de mieux représenter les mouvements naturels (translation, rotation, zoom, stretching). L'intéret de ce type de technique est alors de coller au plus près de la physique de la scène (prise en compte de la forme des objets présents et de leur déplacement).
Dans cette étude, une technique de découpe en régions de chaque image est proposée afin d'optimiser le codage. Cette optimisation est nécessaire car une segmentation fine permet d'avoir une bonne qualité de prédiction mais au prix d'un coût de description élevé, alors qu'une segmentation grossière offre une prédiction moyenne mais avec un coût de description modéré.
Afin de définir la découpe en région idéale pour le codage, un algorithme a été mis au point. Cet algorithme est basé sur l'étiquetage d'une segmentation initiale en régions homogènes au sens du mouvement. L'étiquetage est réalisé conjointement à l'ajustement des paramètres de quantification de l'erreur résiduelle de façon itérative afin d'optimiser un compromis débit-distorsion.
Le schéma de codage résultant est comparé à des schémas de codage vidéo normalisé. Les résultats obtenus montrent une amélioration nette de la qualité pour le schéma de codage proposé. L'image est plus stable, et les effets de blocs disparaissent. Quantitativement, le gain est de l'ordre de 2 à 3dB par rapport à un schéma de codage MPEG2, et pour des scènes de visiophonie, il est de l'ordre de grandeur d'un codeur H263, voire mieux dans certains cas (+1dB).
![]() |
![]() |
Détail:![]() |
Détail:![]() |
| Séquence reconstruite: AVI sans pertes (8Mo) | Séquence reconstruite: AVI sans pertes (8Mo) |
| Codage MPEG 1Mb/s | Codage proposé 1Mb/s |
|---|
Pour la séquence traitée ci-dessus, voici le type de segmentation que l'on peut obtenir:

La segmentation ne détecte que les objets en véritable mouvement, et ne recherche pas les détails fins du mouvement (mouvement de la raquette) qui serait trop coûteux par rapport au gain qu'ils peuvent apporter au codage.
![]() |
![]() |
| Séquence reconstruite: AVI sans pertes (5 Mo) | Séquence reconstruite: AVI sans pertes (5 Mo) |
| Codage MPEG2 400Kb/S | Codage proposé 400Kb/S |
|---|
Sur cette séquence, on peut observer encore une fois un fort gain visuel par rapport à un codage MPEG2. Les phénomènes de blocs dans le champ de fleurs au premier plan ont quasiment disparu, et les maisons en arrière plan ne souffrent pas de phénomènes de ringing..