Gemini Omni Flash sort le jour J de Google I/O et fusionne Veo, Nano Banana et Genie dans un même modèle
Au keynote d'ouverture de Google I/O 2026 ce 19 mai à Mountain View, le DeepMind CEO Demis Hassabis a confirmé la sortie de Gemini Omni, modèle unifié qui réunit dans une même passe d'inférence les capacités de Veo pour la vidéo, de Nano Banana pour l'image et de Genie pour la simulation de monde, et qui peut prendre en entrée n'importe quelle combinaison de texte, image, audio et vidéo pour produire un livrable cohérent en sortie. La première itération commerciale, baptisée Gemini Omni Flash, a commencé son déploiement le jour même pour les abonnés Google AI Plus, Pro et Ultra, à la fois dans l'application Gemini grand public et dans la plateforme créative Flow. Le modèle conserve la cohérence des personnages, des décors et des mouvements d'un plan à l'autre, et accepte des modifications par dialogue successif sans regénération complète du clip. La conséquence opérationnelle est immédiate pour les studios qui avaient câblé leur pipeline sur Veo 3.1 : la marque Veo bascule en sous-couche d'Omni et la facturation, l'API et les quotas migrent sur la grille tarifaire Gemini, plus large mais plus exigeante en termes de prompt et de validation. Google a délibérément retenu pour plus tard la fonction la plus sensible, la génération vidéo à partir de portraits humains réels, en invoquant les contraintes de sécurité et d'identité que l'arrivée d'Omni amplifie mécaniquement.
La bascule de la marque Veo sous le toit de Gemini Omni est un signal stratégique plus qu'une simple évolution de produit. Google avait laissé Veo prendre une identité propre dans la presse créative et chez les studios pendant dix-huit mois, suffisamment pour s'installer comme référence indépendante. La fusion sous Omni dit deux choses : la firme veut une seule porte d'entrée pour la création multimodale, et elle accepte de sacrifier une marque qui marchait pour imposer une cohérence d'architecture. Pour les ateliers qui pratiquent la conception graphique d'un album ou la direction artistique vidéo, cela signifie que la maîtrise de Veo en tant que tel devient un savoir périmé, et que la nouvelle compétence valorisée est l'écriture de prompts multimodaux capables d'orchestrer image, vidéo et son dans un même flux.
Le second angle à observer est le retrait délibéré de la fonction portrait humain. Google a choisi de livrer l'outil créatif tout en bloquant la modalité la plus risquée pour les artistes vivants. C'est une concession ouverte aux pressions juridiques de l'industrie musicale et cinématographique, qui pourrait servir de précédent au moment où la régulation IA de l'Union européenne entre en application sur ces sujets.