Takuya Studio — IA Bulletin

Anthropic relie Claude au studio et au bureau /
ElevenLabs lève 500 millions, iOS 27 ouvre aux modèles tiers /
Runway, Inworld et Pika installent l'avatar conversationnel temps réel

Semaine de consolidation pour les agents et l'audio. Anthropic ouvre Dreaming en research preview pour Claude Managed Agents et met Claude en disponibilité générale dans Microsoft 365. ElevenLabs clôture une Série D de 500 M$ menée par BlackRock, Wellington et Nvidia, et stabilise Eleven v3 avec sortie WAV. Apple laisse filtrer la fonction Extensions d'iOS 27 qui ouvrira Siri, Writing Tools et Image Playground à Gemini et Claude. Côté vidéo conversationnelle, Runway Characters, Inworld TTS-2 et PikaStream installent l'avatar agent temps réel à 24 fps. Côté image et création, Midjourney V8.2, Black Forest Self-Flow, Topaz NeuroStream, Adobe Firefly AI Assistant et Firefly Audio, Suno V5 Studio Mode sur catalogue licencié, Grok Imagine Pro et Subquadratic 12 millions de tokens complètent un tableau dense. Sept éditions, du 4 au 10 mai 2026.

4 mai 2026
Suno V5 Studio Mode et bascule catalogue Warner Sony Merlin / Grok Imagine Pro à 30 dollars en 1080p natif sur X / Adobe Firefly Audio en bêta publique
Suno V5 catalogue licencié — xAI Grok Imagine Pro 1080p — Adobe Firefly Audio bêta
Suno publie V5 Studio Mode, premier modèle musical IA grand public entièrement entraîné sur catalogue licencié Warner, Sony et Merlin, avec stems séparés en multipiste WAV, cap de 50 téléchargements jour pour les abonnés Pro et 15 % reversés aux ayants droit. xAI lance Grok Imagine Pro à 30 dollars par mois en 1080p natif douze secondes, audio synchronisé via ElevenLabs et publication directe sur la timeline X. Adobe ouvre Firefly Audio en bêta publique : génération musicale jusqu'à 90 secondes orchestrée par Firefly AI Assistant, intégration Premiere Pro et Audition.
5 mai 2026
Topaz Next-Gen et NeuroStream pour l'IA locale / Saturation streaming et lassitude des auditeurs / PikaStream et le chat vidéo agent en temps réel
Topaz NeuroStream local — Deezer 44 % IA — PikaStream temps réel
Topaz Labs publie sa Next-Gen Release avec NeuroStream qui réduit la VRAM de 95 % et fait passer six modèles image et vidéo en local sur cartes consommateur, partenariat NVIDIA RTX. NPR consolide les chiffres Deezer et Luminate : 44 % des nouveaux uploads sont entièrement IA pour 3 % des écoutes seulement, audience massivement bot-driven et perception nette négative chez les auditeurs humains. Pika Labs ouvre PikaStream 1.0 en bêta, premier moteur vidéo temps réel pour incarner visuellement des agents IA, 24 fps en 480p sur H100, 1,5 seconde de latence parole-vers-vidéo.
6 mai 2026
Self-Flow et l'entraînement multimodal mutualisé / Suprématie de l'image sur les téléchargements d'apps / Eleven v3 stabilisé et la sortie WAV pour la production
Black Forest Self-Flow x2,8 — Image IA x6,5 installs — Eleven v3 dialogue WAV
Black Forest Labs publie Self-Flow, framework auto-supervisé qui apprend la représentation et la génération en parallèle sur image, vidéo et audio dans un seul modèle, avec un gain d'efficacité de 2,8 fois en entraînement multimodal et synchronisation native son/image à partir d'un prompt unique. Appfigures et TechCrunch consolident l'effet de levier des modèles d'image génératifs sur les téléchargements d'applications IA : 6,5 fois plus d'installations qu'une mise à jour de chatbot, 70 millions de dollars de dépenses brutes en 28 jours pour OpenAI après la sortie GPT-4o image. ElevenLabs sort Eleven v3 d'alpha et ajoute la sortie WAV jusqu'à 48 kHz à Text-to-Dialogue, première implémentation grand public de la prosodie multi-voix avec balises émotionnelles dans plus de 70 langues.
7 mai 2026
Firefly AI Assistant orchestre Creative Cloud en langage naturel / Artlist Studio et le retour du contrôle plan par plan / Clanker Records et l'album sorti d'abord pour les bots
Adobe Firefly Assistant bêta publique — Artlist Studio 300 M$ ARR — Clanker Records audience IA
Adobe ouvre la bêta publique de Firefly AI Assistant le 27 avril, agent IA qui orchestre plus de 60 outils professionnels en langage naturel à travers Photoshop, Premiere Pro, Lightroom, Illustrator, Express et Firefly, accessible aux abonnés Creative Cloud Pro avec crédits offerts pendant la bêta. Artlist lance Artlist Studio à New York, plateforme de production vidéo IA qui rétablit la direction plan par plan — choix du casting, des décors et des angles caméra — sur fond de croissance à 300 millions de dollars d'ARR et 600 % de nouveaux utilisateurs au premier trimestre 2026. Clanker Records, label entièrement IA, sort le 6 mai un album du groupe fictif C.W.A. exclusivement à une audience de bots sur le réseau social Molt, avant publication humaine sur les DSP grand public le 15 mai.
8 mai 2026
Runway Characters et l'avatar conversationnel temps réel / GPT-Realtime-2 et la voix dotée de raisonnement / Inworld TTS-2 et la voix qui écoute avant de parler
Runway Characters 24 fps HD — OpenAI GPT-Realtime-2 contexte 128K — Inworld TTS-2 boucle fermée
Runway publie Characters le 4 mai, agent vidéo conversationnel temps réel à 24 fps HD avec 1,75 seconde de latence depuis une seule image de référence, bâti sur le world model GWM-1 et déjà déployé chez la BBC et Silverside via API, web et mobile. OpenAI annonce le 7 mai trois nouveaux modèles audio temps réel — GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper — avec raisonnement de classe GPT-5, fenêtre de contexte qui passe de 32K à 128K tokens, traduction de 70 langues vers 13 et transcription streaming. Inworld AI ouvre Realtime TTS-2 le 5 mai, modèle vocal en boucle fermée qui prend en entrée l'audio brut des tours précédents pour capter ton et rythme, accepte une direction vocale en langage naturel, clone une voix sur 5 à 15 secondes et préserve l'identité dans le switch cross-lingual entre plus de 100 langues.
9 mai 2026
Claude dans Microsoft 365 et la suite bureautique pilotée / Midjourney v8.2 et la refonte esthétique / Subquadratic et la fenêtre de contexte 12 millions de tokens
Anthropic Claude pour Office GA — Midjourney v8.2 esthétiques et 2K — Subquadratic 12M tokens
Anthropic met Claude en disponibilité générale dans Excel, Word et PowerPoint le 7 mai, plus Outlook en bêta publique, avec un contexte de conversation qui voyage d'une application à l'autre, lecture du slide master dans PowerPoint, modifications en tracked changes dans Word et raisonnement sur la logique des formules dans Excel. David Holz annonce en Office Hours le passage prioritaire à Midjourney v8.2 sous deux semaines avec un nouveau système d'esthétiques par défaut, résolution 2K, refonte des image prompts et des moodboards sref. Subquadratic publie le 6 mai un modèle à fenêtre de contexte 12 millions de tokens qui dépasse GPT-5.5 sur les benchmarks de récupération needle-in-a-haystack.
10 mai 2026
Claude Managed Agents et la mémoire qui rêve / ElevenLabs et les 500 millions de la quatrième série / iOS 27 et la fin de l'exclusivité OpenAI
Anthropic Dreaming research preview — ElevenLabs Série D 500 M$ ARR 500 M$ — Apple iOS 27 Extensions Gemini Claude
Anthropic ouvre le 6 mai Dreaming en research preview pour Claude Managed Agents, mécanisme qui revisite les sessions passées et les mémoires accumulées pour en extraire des motifs récurrents, produit des notes en clair et des playbooks structurés sans modifier les pondérations du modèle, et a permis à la société Harvey de multiplier par six son taux de complétion de tâches sur ses agents juridiques. ElevenLabs annonce le 6 mai la clôture d'une Série D de 500 millions de dollars menée par BlackRock, Wellington et Nvidia, au moment où l'ARR franchit le seuil des 500 millions, valorisant la société autour de 6 milliards. Apple laisse filtrer les 5 et 6 mai les contours d'une fonctionnalité interne baptisée Extensions qui permettra aux utilisateurs d'iOS 27, iPadOS 27 et macOS 27 de choisir leur fournisseur de modèle IA — Gemini, Claude ou moteur Apple — dans Siri, Writing Tools et Image Playground.