Des abonnements
pour l'enrichissement
09 février 2026 | La Revue POLYTECHNIQUE | Intelligence artificielle

Une IA repousse la limite temporelle des vidéos génératives 🔊

Cécilia Carron, EPFL

Afin de générer des vidéos d’une durée illimitée, des scientifiques de l’EPFL résolvent le problème du « drift » qui empêchait jusqu’à présent de produire avec l’IA des séquences de plus de quelques secondes avant que la qualité ne se dégrade.

Créer des images réalistes grâce à une IA en quelques clics est à la portée de tous. Les vidéos, en revanche, donnent du fil à retordre aux machines. Les modèles actuels sont capables de produire des séquences allant jusqu’à quelques dizaines de secondes avant de sombrer dans un certain chaos : contours, couleurs ou logique deviennent incohérents. Ce n’est pourtant pas faute d’avoir essayé, puisque des spécialistes s’attèlent depuis plusieurs années à résoudre ces aberrations. Mais c’est en regardant le problème par l’autre bout de la lorgnette que des scientifiques du Laboratoire d’intelligence visuelle pour les transports (VITA Lab) de l’EPFL, l’ont résolu. Au lieu de contourner ou d’ignorer les erreurs, ils ont conçu une méthode de génération vidéo qui apprend de ses propres erreurs en les recyclant.

Apprendre aux machines à se tromper

Le phénomène, appelé « drift », provoque l’effondrement progressif du réalisme. Une IA générative traditionnelle utilise la dernière image comme modèle d’entrée pour générer la suivante. Les erreurs, un visage un peu flou ou un objet légèrement déformé, par exemple, ont tendance à s’amplifier au fur et à mesure que la séquence s’allonge. « Le problème vient du fait que les modèles actuels voient uniquement des données parfaites durant l’entraînement, mais doivent ensuite composer des séquences en intégrant leurs propres erreurs », explique Alexandre Alahi, professeur au VITA Lab.

Pour contourner le problème, les scientifiques ont mis au point un nouveau procédé d’apprentissage, le Réentraînement par Recyclage des Erreurs. Le modèle commence par générer des vidéos, puis les scientifiques mesurent selon différents critères l’écart entre ce qu’il produit et ce qu’il aurait dû produire. Ces « erreurs » sont ensuite enregistrées dans une mémoire. Lors d’un nouvel entraînement, ces imperfections sont volontairement réinjectées dans le système afin de mettre l’IA dans les conditions réelles dans lesquelles elle devra fonctionner. Confrontée à ces données imparfaites, la machine apprend peu à peu à se remettre sur les rails, à revenir vers une image nette et une suite logique pour l’œil humain, même lorsqu’elle doit partir d’une image déformée. Au fil des entraînements, l’IA devient plus robuste et apprend à stabiliser la vidéo même lorsqu’elle rencontre des images dégradées. Pour Wuyang Li, postdoctorant du laboratoire, « contrairement à l’humain, l'IA générative sait rarement comment se relever de ses erreurs, ce qui conduit à une dérive. Nous enseignons donc aux modèles comment le faire et à rester stables malgré l'imperfection ».

« Le tout est réalisé grâce à une technique d’ajustement légère, peu coûteuse en calcul, qui permet à l’IA de gagner en stabilité sans nécessiter d’immenses quantités de données », note le professeur. Il résume : « C’est comme si on apprenait à un pilote à gérer un avion en turbulence plutôt qu’en ciel parfaitement bleu. » Là où les modèles classiques butent, cette IA, appelée SVI pour Stable Video Infinity, maintient une qualité quasi constante sur des minutes, voire bien plus.

Disponible en open source, SVI a été testée grâce à la production de nombreuses séquences vidéos, comparées avec les mêmes extraits produits par un autre type d’IA. Elle fera l’objet d’une présentation durant une importante conférence scientifique sur l’intelligence artificielle et l’apprentissage profond en avril 2026 (ICLR 2026) et intéresse des spécialistes de nombreux domaines, comme la création audiovisuelle, l’animation ou le jeu vidéo. « Notre travail a été présenté par l'un des plus grands Youtubers de la communauté IA et a reçu plus de 150 000 vues et 6 000 votes positifs en quelques semaines, souligne Wuyang Li. De plus, notre référentiel open source a obtenu plus de 1 900 étoiles sur GitHub, un site d’hébergement de codes, ce qui démontre son impact au sein de la communauté. » Mais cette IA est également essentielle aux scientifiques du VITA Lab pour leurs recherches sur les systèmes autonomes de demain : plus sûrs, efficaces et capables d’interagir harmonieusement avec les personnes.

Une IA multimodale: vidéos, images et sons

Dans la continuité de cette approche consistant à apprendre de ses propres erreurs, les scientifiques ont développé une nouvelle méthode appelée LayerSyncqui sera également présentée à l’ICLR. L’IA ne recycle plus seulement ses erreurs visibles, mais aussi ses raisonnements internes. « Certaines parties du modèle comprennent mieux le sens des images que d’autres. LayerSync permet à ces parties plus « expertes » de guider les autres pendant l’apprentissage, comme si l’IA s’auto-corrigeait de l’intérieur. En utilisant ses propres représentations comme source de supervision, le modèle apprend plus vite, sans données supplémentaires ni modèles externes, tout en améliorant la qualité des contenus générés, qu’il s’agisse de vidéos, d’images, ou de sons », complète le professeur.