Auto-encodeur optimisé au sens débit-distorsion : indépendant de la quantification?
 

"Auto-encodeur optimisé au sens débit-distorsion : indépendant de la quantification?", GRETSI 2017. [pdf]
Contacts: T. Dumas, A. Roumy, C. Guillemot

Résumé

Ce travail s'inscrit dans le cadre de la compression d'image via une transformée apprise par un auto-encodeur. Il essaie d'adapter la quantification à cette transformée au lieu de la figer. Nous proposons d'une part d'apprendre conjointement la transformée et la quantification. D'autre part, nous analysons si une multitude de pas de quantification peut s'appliquer lors du test sur une transformée apprise pour un pas. Nous montrons que la seconde approche corrige le défaut du meilleur auto-encodeur pour la compression d'image : devoir effectuer un apprentissage par débit de compression.

Résultats

Des auto-encodeurs optimisés au sens débit-distorsion (EAEs) ont été préalablement appris sur une base d'apprentissage contenant 24000 images de luminance de taille 256x256. Cette base d'apprentissage a été construite à partir d'ImageNet [ImageNetWebPage]. L'expérience ci-dessous utilise une base de test contenant 24 images de luminance de taille 512x768. Cette base de test a été élaborée à partir de la base Kodak [KodakWebPage]. Nous comparons la courbe de débit-distorsion moyenne de chaque auto-encodeur optimisé au sens débit-distorsion (EAE) avec la courbe débit-distorsion moyenne de JPEG2000. Une courbe débit-distorsion moyenne est une moyenne sur 24 courbes de débit-distorsion, chaque courbe étant associée à une image de luminance de la base de test.

γ est un paramètre d'apprentissage. Il pondère la contrainte sur l'erreur de reconstruction par rapport à la contrainte sur l'entropie de la représentation quantifiée.
δ est un paramètre d'apprentissage. C'est le pas de quantification lors de l'apprentissage.

Courbe orange avec des marqueurs x
Sept EAEs ont été appris avec δ = 1.0 et une valeur de γ différente pour chacun (γ est dans S1 = {10000.0, 12000.0, 16000.0, 24000.0, 40000.0, 72000.0 et 96000.0}). Lors du test, le pas de quantification est 1.0.

Courbe rouge avec des flèches
Un seul EAE a été appris avec δ = 1.0 et γ = 10000.0. Lors du test, le pas de quantification croît de 1.0 à 10.0.

Courbe verte avec des marqueurs +
Quatre EAEs ont été appris avec une valeur de γ différente pour chacun et δ est appris. Lors du test, le pas de quantification est celui obtenu en fin d'apprentissage.

Courbe noire avec des carrés
JPEG2000.

Courbes débit-distorsion moyennées sur les 24 images de luminance de la base de test
4ième image de luminance de test

JPEG2000 (PNSR = 31.66 dB, rate = 0.12 bbp)
EAE orange (PNSR = 32.09 dB, rate = 0.13 bbp)

EAE rouge (PNSR = 31.43 dB, rate = 0.10 bbp)
EAE vert (PNSR = 31.80 dB, rate = 0.11 bbp)

4ième image 1ière crop
JPEG2000
EAE orange
EAE rouge
EAE vert

4ième image 2ième crop
JPEG2000
EAE orange
EAE rouge
EAE vert

9ième image de luminance de test

JPEG2000 (PNSR = 31.35 dB, rate = 0.11 bbp)
EAE orange (PNSR = 32.48 dB, rate = 0.14 bbp)

EAE rouge (PNSR = 32.85 dB, rate = 0.16 bbp)
EAE vert (PNSR = 32.08 dB, rate = 0.12 bbp)

9ième image 1ière crop
JPEG2000
EAE orange
EAE rouge
EAE vert

9ième image 2ième crop
JPEG2000
EAE orange
EAE rouge
EAE vert

10ième image de luminance de test

JPEG2000 (PNSR = 31.45 dB, rate = 0.13 bbp)
EAE orange (PNSR = 32.04 dB, rate = 0.15 bbp)

EAE rouge (PNSR = 31.02 dB, rate = 0.11 bbp)
EAE vert (PNSR = 31.25 dB, rate = 0.13 bbp)

10ième image 1ière crop
JPEG2000
EAE orange
EAE rouge
EAE vert

10ième image 2ième crop
JPEG2000
EAE orange
EAE rouge
EAE vert

17ième image de luminance de test

JPEG2000 (PNSR = 31.66 dB, rate = 0.18 bbp)
EAE orange (PNSR = 31.46 dB, rate = 0.16 bbp)

EAE rouge (PNSR = 30.53 dB, rate = 0.12 bbp)
EAE vert (PNSR = 30.89 dB, rate = 0.14 bbp)

17ième image 1ière crop
JPEG2000
EAE orange
EAE rouge
EAE vert

17ième image 2ième crop
JPEG2000
EAE orange
EAE rouge
EAE vert

18ième image de luminance de test

JPEG2000 (PNSR = 27.67 dB, rate = 0.23 bbp)
EAE orange (PNSR = 28.10 dB, rate = 0.25 bbp)

EAE rouge (PNSR = 27.20 dB, rate = 0.19 bbp)
EAE vert (PNSR = 27.27 dB, rate = 0.19 bbp)

18ième image 1ière crop
JPEG2000
EAE orange
EAE rouge
EAE vert

18ième image 2ième crop
JPEG2000
EAE orange
EAE rouge
EAE vert

19ième image de luminance de test

JPEG2000 (PNSR = 29.78 dB, rate = 0.17 bbp)
EAE orange (PNSR = 30.04 dB, rate = 0.18 bbp)

EAE rouge (PNSR = 28.91 dB, rate = 0.13 bbp)
EAE vert (PNSR = 29.17 dB, rate = 0.15 bbp)

19ième image 1ière crop
JPEG2000
EAE orange
EAE rouge
EAE vert

19ième image 2ième crop
JPEG2000
EAE orange
EAE rouge
EAE vert

Les crops sont affichées 3 fois plus large que leur taille réelle.