IA Bulletin — 19 mai 2026

Google I/O 2026 jour J, Mountain View doit livrer Gemini Omni /
Vidu Claw ouvre l'ère de l'AI CMO et réduit la publicité à un prompt /
Thinking Machines dévoile TML-Interaction-Small en full-duplex 0,4 seconde

Google I/O 2026, jour J du keynote, Gemini Omni et Veo attendus pour rouvrir le front créatif de Mountain View

Le keynote d'ouverture de Google I/O 2026 est programmé ce mardi 19 mai à 10 h heure du Pacifique, soit 19 h heure de Paris, sur le campus du Shoreline Amphitheatre de Mountain View, et l'attente convergente de la presse spécialisée se cristallise autour de trois livrables : un modèle Gemini Omni unifiant texte, image, vidéo et audio dans une seule passe d'inférence avec génération et édition vidéo directement dans l'app Gemini, une mise à jour de Veo avec sortie native synchronisée, et un premier aperçu officiel des Android XR glasses co-développées avec Samsung, Warby Parker et Gentle Monster pour une sortie fin 2026. La conférence se tient une semaine après l'Android Show du 12 mai qui a posé les briques de Gemini Intelligence, suite agentique qui déplace Gemini du chatbot vers l'OS et qui commencera son déploiement fin juin sur les Pixel et Galaxy de dernière génération. La séquence calendaire impose à Google une démonstration de reconquête créative après la sortie de GPT-5.5 Instant par OpenAI le 5 mai et de Claude Mythos Preview d'Anthropic le 12 mai, deux modèles qui ont déplacé le centre de gravité du marché vers le raisonnement multi-étapes et l'usage agent long-horizon. La question opérationnelle pour les ateliers créatifs n'est pas la performance de démonstration mais la politique d'API et de quotas : un Omni accessible aux développeurs dès ce soir avec quotas raisonnables modifie immédiatement la donne face à un Sora 2 en accès restreint et à un Runway Gen-4.5 facturé à la seconde générée. Google diffuse l'événement en direct sur sa chaîne YouTube officielle et sur io.google, et le sort opérationnel de la firme dépendra de la capacité à transformer demain matin les annonces de ce soir en pipeline production effectif.

Note éditoriale

L'enjeu réel du jour n'est pas la liste d'annonces mais la cohérence du discours que Google va défendre face à la dispersion observée chez OpenAI et chez Anthropic. OpenAI a transformé ChatGPT en couteau suisse — finance personnelle, navigation, agents — au prix d'une dilution éditoriale qui rend le produit difficile à présenter à un client. Anthropic défend une ligne « modèle de raisonnement » avec Mythos en accès restreint, parfaitement lisible mais qui exclut de fait les ateliers créatifs qui ne sont pas des labos de cybersécurité. Google a la possibilité ce soir d'imposer un troisième cadre : celui de l'intégration omnimédia native où l'image, la vidéo, le son et le texte sortent du même tuyau et entrent dans la même app.

Le second signal à guetter est la place laissée à Veo 3.1 : maintien en production, déprécation calendaire, ou cohabitation avec Omni. Les studios qui ont câblé leur pipeline sur Veo depuis novembre ont besoin d'une certitude opérationnelle, pas d'une promesse marketing. Le troisième signal est la politique tarifaire des Android XR glasses : un prix annoncé en dessous des Ray-Ban Meta avec intégration Gemini native bouleverse le marché des lunettes connectées dans le sens où Apple ne l'a pas fait avec Vision Pro. Pour un atelier comme le nôtre qui produit aussi des pochettes d'album sous direction artistique et des visuels de marque, le sujet sera moins l'XR que la disponibilité réelle d'Omni dans les jours qui suivent l'annonce.

Sources : Google Blog — The Android Show: I/O Edition 2026 — Analytics Insight — Google I/O 2026: Gemini Omni, Spark and Android XR launch expected — Android Authority — What to expect from Google I/O 2026

ShengShu lance Vidu Claw, premier AI CMO qui transforme un brief en publicité finie pour 1 % du coût traditionnel

La société singapourienne-shanghaienne ShengShu Technology a officiellement levé le voile sur Vidu Claw le 12 mai 2026, présenté comme « le premier AI CMO mondial » et positionné non comme un outil de génération mais comme un agent marketing autonome qui prend un brief court en entrée et livre une publicité finie en sortie. À partir d'une instruction aussi simple que « crée une pub courte pour une chaussure de running ciblant les jeunes femmes sur Instagram », Vidu Claw enchaîne automatiquement concept créatif, script, storyboard, visuels, voix-off, musique et fichier vidéo prêt à la diffusion sur la plateforme cible. La stack technique se compose de deux couches : Vidu Skills pour la production visuelle (image, vidéo, cohérence cinématique) propulsée par le modèle propriétaire Vidu Q3, et Marketing Skills pour la couche stratégique (analyse de tendances, scripting, optimisation performance). ShengShu introduit avec ce produit un modèle économique inédit baptisé Video Plan, un abonnement résultat où le client paie pour une publicité finie plutôt qu'à la génération ou au crédit, et l'éditeur revendique un coût total ramené à environ 1 % d'une production publicitaire classique. L'accès se fait via WeChat sur le marché chinois et via API export pour le marché international, dans une logique de pénétration grand compte pensée pour le e-commerce et les marques DTC.

Note éditoriale

Vidu Claw n'est pas un outil de plus, c'est un changement de référentiel sur ce que recouvre encore le mot « production publicitaire ». Tant que l'agent IA générait des éléments séparés (visuels, musique, voix) qu'un monteur humain devait assembler, l'industrie pouvait maintenir une narration où la créativité restait l'apanage du studio et où la machine ne faisait que rendre les briques. Avec un agent qui prend le brief et rend la pub finie, la marche-pied stratégique disparaît : la couche direction artistique est absorbée dans le tuyau. L'argument du 1 % du coût n'est probablement pas vrai sur un livrable haut de gamme — il l'est sur le segment Instagram court, performant, jetable — mais il fixe le nouveau plancher de marché pour ce segment.

L'angle européen à observer est la conformité réglementaire : le règlement IA de l'UE impose le watermarking des contenus générés et la transparence sur l'usage commercial des modèles, deux contraintes que Vidu Claw devra documenter pour entrer sur le marché français. L'angle créatif à observer est la capacité de différenciation qu'il restera à un studio parisien quand n'importe quelle PME peut produire un assortiment de cinquante visuels Instagram pour le prix d'un café. La réponse n'est pas dans la résistance frontale au tarif mais dans la direction d'œuvre et la cohérence d'univers que la machine ne sait pas tenir sur la durée — exactement le terrain où un studio comme Takuya doit recalibrer son offre client.

Sources : PR Newswire — ShengShu Technology unveils Vidu Claw, the AI CMO — Gizmochina — Vidu Claw AI can turn a simple text prompt into a complete advertisement — Pandaily — Vidu Claw launches the 100 RMB for million-dollar commercials era

Thinking Machines dévoile TML-Interaction-Small, modèle full-duplex qui répond en 0,4 seconde et écoute pendant qu'il parle

Thinking Machines Lab, la société fondée par Mira Murati après son départ d'OpenAI, a présenté le 12 mai 2026 son premier modèle de recherche, TML-Interaction-Small, en rupture explicite avec l'architecture conversationnelle dominante du marché. Là où les modèles existants alternent tour à tour la lecture d'une entrée et la génération d'une sortie, l'interaction model traite audio, vidéo et texte simultanément en temps réel, sans composant externe de gestion de tour de parole. Le principe central est un Multi-Stream Micro-Turn Design qui découpe l'inférence en blocs de 200 millisecondes pendant lesquels le modèle continue d'absorber l'entrée tout en produisant la sortie, ce qui produit un temps de réponse mesuré à 0,4 seconde, comparable au rythme d'une vraie conversation humaine et inférieur d'un ordre de grandeur aux temps de réponse des modèles realtime OpenAI et Gemini Live. L'architecture combine un modèle d'interaction qui reste en ligne avec l'utilisateur et un modèle de fond qui gère raisonnement et tool-use de manière asynchrone, pour un total de 276 milliards de paramètres en Mixture-of-Experts dont 12 milliards actifs à chaque pas. La société précise qu'il s'agit d'une preview de recherche, non d'un produit commercial, et ouvre un accès restreint à un panel sélectionné de chercheurs pour collecter des retours avant un déploiement plus large prévu plus tard en 2026.

Note éditoriale

Le pari de Mira Murati n'est pas un saut de capacité brute mais un changement de modalité d'interaction. Un agent qui répond en quatre cents millisecondes et qui peut être interrompu sans perdre le fil rapproche l'usage de la machine de l'usage d'un collaborateur humain : on peut lui couper la parole, lui demander de reprendre, le faire travailler en parallèle pendant qu'on parle. Pour les ateliers créatifs qui font de la direction live — séances studio, prises voix, montage interactif — ce mode d'interaction change la nature du brief : on ne rédige plus un prompt à l'avance, on dirige la machine comme on dirige un instrumentiste.

Le contre-coup à anticiper est le glissement vers la conversation continue qui consomme l'attention sans répit, déjà visible avec les Ray-Ban Meta Live AI et qui s'amplifiera avec les Android XR glasses de Google. Un modèle qui écoute en permanence et répond en 0,4 seconde devient un compagnon constant, et l'usage productif suppose une discipline d'utilisation qui n'a aujourd'hui aucun équivalent culturel. Pour un studio comme le nôtre, la question opérationnelle des prochains mois n'est pas quel modèle a la meilleure latence mais quels moments de travail méritent un compagnon temps réel et lesquels méritent le silence. Thinking Machines a posé la première brique technique d'un nouveau régime de collaboration humain-machine, mais l'ergonomie d'usage reste largement à inventer.

Sources : TechCrunch — Thinking Machines wants to build an AI that actually listens while it talks — Semafor — Mira Murati's Thinking Machines previews interaction models — MarkTechPost — Thinking Machines Lab introduces interaction models

← Bulletin précédent Archives

Google I/O 2026 jour J, Mountain View doit livrer Gemini Omni /Vidu Claw ouvre l'ère de l'AI CMO et réduit la publicité à un prompt /Thinking Machines dévoile TML-Interaction-Small en full-duplex 0,4 seconde

Google I/O 2026, jour J du keynote, Gemini Omni et Veo attendus pour rouvrir le front créatif de Mountain View

ShengShu lance Vidu Claw, premier AI CMO qui transforme un brief en publicité finie pour 1 % du coût traditionnel

Thinking Machines dévoile TML-Interaction-Small, modèle full-duplex qui répond en 0,4 seconde et écoute pendant qu'il parle

Google I/O 2026 jour J, Mountain View doit livrer Gemini Omni /
Vidu Claw ouvre l'ère de l'AI CMO et réduit la publicité à un prompt /
Thinking Machines dévoile TML-Interaction-Small en full-duplex 0,4 seconde