Stability AI publie Stable Audio 3.0, famille de quatre modèles dont trois en poids ouverts, capable de générer six minutes vingt secondes de musique structurée
Stability AI a publié mercredi 20 mai 2026 Stable Audio 3.0, famille de quatre modèles de génération musicale dont les trois plus petits (small SFX, small, medium) sont distribués en poids ouverts sur Hugging Face et téléchargeables sans inscription. Le modèle large, accessible uniquement via API ou hébergement payant chez Stability, peut composer des morceaux structurés jusqu'à six minutes vingt secondes, soit plus du double de Stable Audio 2.0 sorti en 2024, en conservant ligne mélodique et logique de progression sur l'ensemble du morceau. La variante small est conçue pour tourner en local sur du matériel grand public et génère deux minutes d'audio sans connexion cloud, ce qui ouvre concrètement la porte à l'intégration dans des pipelines DAW autonomes. Les modèles ont été entraînés sur un mélange déclaré comme entièrement licencié, composé de 806 284 fichiers issus de la bibliothèque AudioSparx et de captations Creative Commons du catalogue Freesound, ce qui leur donne une assise juridique plus solide que celle de la concurrence Suno ou Udio. Stability a positionné l'ensemble comme une alternative explicite à l'enclos propriétaire des géants du son génératif, en pariant sur un retour de l'expérimentation artistique que la rétractation de Stable Audio 2.5 dans le périmètre WPP/amp avait laissé en suspens.
La publication des trois plus petits modèles en poids ouverts est l'événement central de ce 20 mai, pas la durée des morceaux. La compétition Suno, Udio, Lyria, ElevenMusic s'est entièrement structurée comme un marché de services fermés, avec licences distribuées au compte-gouttes et catalogue d'entraînement opaque. Stable Audio 3.0 réintroduit la possibilité d'un atelier musical IA où l'artiste contrôle le modèle, le finetune sur son propre matériel et l'inscrit dans une chaîne de production qu'il maîtrise — la même bascule que la création de pochette d'album sous IA a connue il y a deux ans avec l'arrivée de Flux et de SDXL côté image.
Le point d'attention pour les ateliers est la déclaration de licence. Stability annonce un corpus AudioSparx + Freesound, mais la chaîne d'auditabilité de cette licence reste à vérifier par les commanditaires sérieux avant tout usage commercial. Le modèle large resté propriétaire est un compromis lisible : Stability garde sa rente sur le tier le plus exigeant tout en libérant la base communautaire, et cette architecture en double cercle ressemble exactement à celle qu'imposait Black Forest Labs avec Flux il y a dix-huit mois.