Au cas où vous ne le sauriez pas encore, nous nous dirigeons vers une réalité glorieuse, digne de Skynet, où l’IA se rapproche dangereusement de la sensibilité. Nous n’en sommes pas encore là, mais les choses changent rapidement.

Si les outils et les technologies alimentés par l’IA existent depuis des années, leurs progrès atteignent des niveaux tels qu’ils commencent à menacer la dépendance humaine de nombreux secteurs clés, de la restauration rapide à l’ingénierie logicielle. Nous avons tous entendu parler des merveilles universelles de ChatGPT ces derniers temps, et il n’a même pas encore atteint sa forme maximale.

Aujourd’hui, Google nous montre à quel point l’IA peut être intelligente lorsqu’il s’agit de créer de la musique. En effet, Google présente MusicLM, un nouvel outil d’IA qui génère de la musique de haute qualité à partir de descriptions textuelles. Il peut comprendre des phrases telles que « une mélodie de violon apaisante soutenue par un riff de guitare distordu » et les convertir en compositions musicales correspondantes.

Il s’agit d’une avancée majeure dans le domaine de la musique générée par l’IA, qui pourrait avoir un impact considérable sur la façon dont la musique est créée et consommée. Encore une fois, c’est quelque chose que d’autres ont déjà essayé, mais MusicLM semble représenter un saut quantique dans les capacités de ce genre de systèmes.

L’outil est convivial et facile à utiliser, ce qui le rend accessible à un large éventail d’utilisateurs. Il utilise une approche de modélisation hiérarchique de séquence à séquence pour générer de la musique à 24 kHz, qui reste cohérente pendant plusieurs minutes.

Plusieurs fonctionnalités clés

Les expériences montrent que MusicLM surpasse les systèmes précédents en termes de qualité audio et de respect de la description textuelle. Il peut également prendre en entrée à la fois du texte et une mélodie existants, ce qui lui permet de transformer des mélodies sifflées et fredonnées selon le style décrit dans une légende textuelle. Pour soutenir les recherches futures, les développeurs ont rendu public MusicCaps, un ensemble de données de 5,5 milliers de paires musique-texte, avec des descriptions textuelles riches fournies par des experts humains.

Il présente plusieurs fonctionnalités clés, notamment :

Génération d’audio à partir de légendes riches : MusicLM peut générer des compositions complexes et nuancées à partir de simples descriptions textuelles

Génération longue : MusicLM peut générer de la musique qui reste cohérente pendant plusieurs minutes

Mode histoire : Il permet aux utilisateurs de générer de la musique qui raconte une histoire, il peut être utilisé pour la notation musicale de films, de séries et d’autres médias

Conditionnement du texte et de la mélodie : MusicLM peut prendre en entrée à la fois du texte et une mélodie existants, ce qui lui permet de transformer des mélodies sifflées et fredonnées selon le style décrit dans une légende de texte

Conditionnement de la légende d’un tableau : Il génère de la musique en fonction de l’émotion et du style décrits dans la légende d’une peinture

En outre, MusicLM peut détecter différents niveaux d’expérience des musiciens, des lieux, des époques, des solos d’accordéon et la diversité des générations tout en gardant le conditionnement et/ou les jetons sémantiques constants, la même invite textuelle et les mêmes jetons sémantiques, et bien plus encore.

Un livre blanc détaillant les recherches menées sur le projet indique que MusicLM a été construit sur AudioLM, qui peut entendre un morceau de musique et tenter de l’émuler. Toutefois, les membres du projet suggèrent que la mise en œuvre d’une solution axée sur le texte est une entreprise beaucoup plus intense, car il est beaucoup plus difficile d’entraîner avec précision le modèle aux complexités des sons par le biais de définitions humaines quotidiennes.

Quel est l’avenir de l’IA ?

Bien que nous ne puissions pas jouer avec MusicLM nous-mêmes (il n’a pas été rendu public), il reste encore du travail à faire à partir de la vaste bibliothèque d’échantillons prélevés. Si les caractéristiques des chansons semblent correspondre exactement aux descriptions fournies au système, les morceaux qui en résultent ne sont pas toujours cohérents. Cela dit, même dans son état actuel, le système pourrait être un excellent outil pour créer, par exemple, des morceaux libres de droits pour les chaînes YouTube, ou du moins donner aux utilisateurs un point de départ solide pour s’inspirer.

Mais ce n’est qu’un vœu pieux : Google n’a pas exprimé l’intention de l’ouvrir à l’usage public.

Les experts sont convaincus que l’intelligence artificielle explosera en termes de fidélité et d’utilité en 2023. L’engouement du public a déjà atteint un pic, avec des outils tels que ChatGPT et Jasper.ai qui commencent à susciter l’engouement du grand public. Il est impossible de prédire le délai dans lequel l’intelligence artificielle atteindra le niveau de maturité nécessaire pour envahir la quasi-totalité de la société humaine, mais il est clair aujourd’hui que sa progression ne ralentit pas.