Black Forest Labs publie Self-Flow et apprend image, vidéo et audio dans un seul modèle multimodal
Black Forest Labs, l'éditeur des modèles FLUX, a publié fin avril 2026 un research preview de Self-Flow, un framework d'entraînement génératif auto-supervisé qui apprend simultanément la représentation et la génération sans recourir à un encodeur externe ni à une supervision tierce. La pierre angulaire technique est le Dual-Timestep Scheduling : chaque token reçoit son propre niveau de bruit pendant l'entraînement, ce qui permet à un modèle unique d'atteindre l'état de l'art sur image, vidéo et audio en convergeant 2,8 fois plus vite que les pipelines multimodaux conventionnels. Le modèle a été entraîné sur 200 millions d'images, 6 millions de vidéos et 2 millions de paires audio-vidéo, avec à la sortie une amélioration nette du rendu typographique, l'élimination d'artefacts hallucinés en vidéo et la génération synchronisée de pistes son et image à partir d'un seul prompt — une rareté à l'heure où la production d'une image de pochette d'album destinée à être déclinée en clip réclame encore deux pipelines distincts. Une variante 675 millions de paramètres affinée sur le dataset robotique RT-1 a obtenu de meilleurs taux de succès en tâches multi-étapes, indice que les représentations internes apprises par Self-Flow sont robustes pour le raisonnement visuel concret. Le code d'inférence et le papier de recherche sont publiés sur GitHub et le portail bfl.ai/research/self-flow.
Le détail qui mérite l'attention est moins le gain de 2,8 fois — chiffre toujours à relativiser hors conditions de laboratoire — que la possibilité technique de générer une image et son ambiance sonore à partir d'un seul prompt, dans un seul modèle, sans pipeline de raccord. Pour qui pense l'identité visuelle d'un projet musical comme une matière commune au son et à l'image, c'est une bascule conceptuelle plus qu'une optimisation technique. Le pipeline vidéo séparé du pipeline audio est un héritage de l'organisation industrielle, pas une fatalité de la création.
Reste à voir si ce modèle unifié restera un projet de recherche public ou s'il glissera vers une intégration commerciale FLUX, comme l'a fait Self-Forcing chez d'autres labos. La modularité de ComfyUI permettra probablement de tester Self-Flow en local dès que des poids seront publiés sous une licence permissive — c'est la voie que prend la plupart des avancées BFL depuis FLUX.1 Schnell. La question sous-jacente est de savoir combien de temps les modèles spécialisés image-only ou audio-only resteront pertinents face à un modèle qui produit les deux d'un coup avec une cohérence native.