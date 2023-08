YouTube teste une nouvelle fonctionnalité qui vous permettra de trouver une chanson en la fredonnant dans le micro de votre téléphone.

Cette nouvelle expérience fonctionnera également si vous approchez votre téléphone d’un haut-parleur ou de toute autre source sonore, lorsque vous n’avez pas envie de chantonner du plus profond de votre cœur. La fonction a besoin d’au moins trois secondes d’audio pour trouver le morceau que vous recherchez. « Une fois la chanson identifiée, vous serez dirigé vers le contenu musical officiel correspondant », indique la page d’assistance officielle.

Outre la source officielle de la chanson — probablement le nom de l’artiste ou de la maison de disques — YouTube affichera également une liste d’autres contenus, tels que des Shorts et des clips créés par les utilisateurs, avec la chanson en arrière-plan. La dernière expérience de YouTube est actuellement limitée à l’application Android, mais elle a déjà commencé à toucher un petit groupe d’utilisateurs.

Vous pouvez y accéder en lançant la fonction de recherche vocale dans l’application YouTube, où vous pouvez simplement fredonner au lieu de dicter le titre d’une chanson ou les détails de l’artiste.

La fonction « d’identification » sur YouTube est un test global, mais il n’y a pas de précision sur la date de sa généralisation.

Disponible depuis Google Assistant

En attendant, si vous appréciez vraiment la commodité de cette fonction, vous pouvez l’essayer avec Google Assistant. L’assistant virtuel de Google a été doté de la même fonctionnalité en 2020. Cette fonction fonctionne dans plus de 20 langues et peut être lancée directement à partir de l’application Google. Cette version offre en fait plus de souplesse, car elle identifie toutes les chansons susceptibles de correspondre à ce que vous fredonnez et vous permet de les écouter dans l’application musicale de votre choix, et pas seulement sur YouTube.

L’ensemble du système repose sur des algorithmes d’apprentissage automatique et trouve de potentielles correspondances à l’aide d’une technique d’empreinte mélodique. Cette technique est quelque peu analogue aux modèles d’IA générative axés sur l’audio, tels que ceux développés par Meta et VALL-E de Microsoft, qui n’ont besoin que de quelques secondes de l’enregistrement audio d’une personne. L’IA décompose ensuite les détails tels que le ton, la hauteur et la signature du style de prononciation. Toutes les données sont ensuite condensées dans un modèle capable de lire n’importe quel passage en imitant la voix originale de la personne. La société ElevenLabs propose même un modèle capable de traduire votre voix en 30 langues avec la même signature audio distincte.