Runway Characters transforme une seule image en agent vidéo conversationnel temps réel à 24 fps HD
Runway a publié le 4 mai 2026 un nouveau produit, Runway Characters, qui transforme une image de référence unique en avatar vidéo conversationnel diffusé en direct à 24 images par seconde HD, avec une latence de bout en bout de 1,75 seconde entre la fin de la phrase de l'utilisateur et le début de la réponse animée du personnage. Le système est bâti sur GWM-1, le world model général de l'éditeur, qui produit le lip-sync, les expressions faciales et les micro-mouvements de tête sans modèle 3D intermédiaire — la cohérence visuelle entre images successives est entièrement portée par la prédiction de pixels conditionnée sur l'audio entrant. Le moteur tourne avec environ 37 millisecondes par image côté serveur, performance qui rend la conversation perçue comme fluide plutôt que retardée. La fonctionnalité est disponible immédiatement via l'API Runway, l'application web et les apps mobiles, et la BBC et Silverside figurent parmi les premiers partenaires actifs sur le produit. Le déplacement le plus net porte sur l'objet d'usage : Characters n'est plus un outil de génération vidéo offline mais une brique d'incarnation qu'on insère dans un produit (tutorat, support, scénographie de marque), au même rang que le personnage visuel d'un album incarne longtemps une œuvre musicale dans la mémoire des auditeurs.
Le passage du texte-vers-vidéo offline au character-as-a-stream est le pivot intéressant. Pendant trois ans, la vidéo générative s'est jouée à temps différé : un prompt, plusieurs minutes d'attente, un fichier livré. Runway Characters change la mise en scène — le personnage n'est plus un livrable, c'est un service vivant qu'on appelle. Cette bascule rapproche structurellement la génération vidéo des codes du jeu vidéo et du livestream, deux mondes où la latence est la seule métrique qui compte vraiment.
Pour les studios qui produisent des contenus narratifs, l'angle pratique mérite attention. Une image fixe minutieusement composée — une pochette, un portrait éditorial, une figure tutélaire dessinée pour un disque — peut désormais être prolongée en présence interactive sans repasser par la modélisation 3D ni le motion capture. Les implications sur le coût d'un teaser de sortie ou d'une campagne de promotion ne sont pas anecdotiques. Reste la question, toujours sous-jacente, de la limite : à partir de quand un visage généré qui parle « comme l'artiste » devient-il une représentation que l'artiste n'a pas autorisée ? La frontière sera juridique avant d'être technique.