Récemment, Meta et Microsoft ont uni leurs forces pour présenter le nouveau LLaMA 2 — un modèle d’IA à grand langage de nouvelle génération, ce qui a conduit l’entreprise de Mark Zuckerberg à travailler sur plusieurs outils d’IA générative pour Instagram, dont un qui aide à identifier le contenu généré par l’IA. Un tel outil pourrait être plus nécessaire que nous ne le pensions, car Meta vient de présenter son dernier projet.

Dans un article de blog, Meta a présenté son dernier outil d’IA, AudioCraft, qui génère, selon l’entreprise, du son et de la musique de haute qualité et réalistes à partir de texte. Selon l’entreprise, cet outil aiderait, par exemple, « un propriétaire de petite entreprise à ajouter facilement une bande sonore à sa dernière publicité vidéo sur Instagram ».

Cela pourrait donc aussi signifier qu’il n’est plus nécessaire de parcourir différentes chansons pendant des heures avant de télécharger un Reel. Il suffira peut-être d’écrire le type de musique dont on a besoin, et l’outil d’IA la générera. Je ne suis pas sûr de savoir ce qu’en penseraient les artistes.

AudioCraft n’est encore déployé sur aucune des plateformes appartenant à Meta, mais ce n’est peut-être qu’une question de temps avant que l’outil d’IA ne devienne une simple fonctionnalité que nous pouvons utiliser quotidiennement. Pour l’instant, Meta publie AudioCraft en tant que code source ouvert. L’entreprise explique que l’objectif est de permettre aux chercheurs et aux praticiens d’entraîner leurs propres modèles avec leurs propres ensembles de données et de contribuer à faire progresser le domaine de l’audio et de la musique générés par l’IA.

AudioCraft est une collection de trois modèles : MusicGen, AudioGen et une version améliorée d’EnCodec. MusicGen est un modèle de génération audio conçu pour créer de la musique. Il a été entraîné sur un vaste ensemble de données d’environ 400 000 enregistrements musicaux, y compris les descriptions textuelles et les métadonnées, soit un total de 20 000 heures de musique appartenant à Meta ou faisant l’objet d’une licence à cette fin spécifique.

AudioGen est un modèle d’IA capable de générer de la musique à partir d’un texte. En fournissant une description écrite d’une scène acoustique, le modèle peut produire des sons environnementaux réalistes qui correspondent à la description, avec un contexte complexe et des conditions d’enregistrement réalistes. Le décodeur EnCodec permet de générer de la musique de meilleure qualité avec moins de problèmes.

De l’open source !

Selon Meta, « l’innovation responsable ne peut se faire de manière isolée ». Le géant de la technologie affirme également que les ensembles de données d’entraînement de ses modèles manquent de diversité, notamment en termes de styles musicaux et de langues. En partageant le code d’AudioCraft, Meta souhaite permettre à d’autres chercheurs de tester de nouvelles méthodes pour réduire les biais et les abus dans les modèles génératifs.

Le géant de la technologie se dit également impatient de voir les résultats créatifs que les gens produiront en utilisant sa méthode. Vous pouvez déjà entendre des centaines d’échantillons générés par l’outil d’IA, du disco des années 80 aux instruments de jazz, en passant, par exemple, par un homme parlant avec de nombreuses personnes applaudissant en arrière-plan.

Il sera intéressant de voir comment les développeurs open source choisiront d’intégrer ces modèles audio Meta dans leur travail.