À l’intérieur du premier album grand public au monde réalisé avec l’IA

Extrait du clip de la chanson « Godmother » de Holly Herndon et Jlin, réalisée avec Spawn.Photo : Holly Herndon/YouTube

Le 21 juin 2017, la musicienne électronique Holly Herndon et son mari, écrivain/philosophe/enseignantMat Dryhurst, a accueilli un nouveau membre dans sa famille. Ils l'ont nommé Spawn. «C'est une enfant inhumaine», me dit Herndon un après-midi, alors qu'elle était assise dans les bureaux de son label, 4AD.

Spawn est une intelligence artificielle naissante, ou IA. L'intelligence artificielle est déployée pour les 18 roues autonomes, les prédicteurs des préférences des utilisateurs de Netflix, les préférences du service client, la reconnaissance de l'écriture manuscrite et la cybersécurité pour lutter contre les pirates informatiques utilisant l'IA pour créer des logiciels malveillants. L’infiltration future de l’apprentissage automatique dans la production musicale n’est pas une question de « si » mais plutôt de « quand », et des avancées significatives sont déjà en cours. Il existe une IA qui peut se répliquerBachet maquillerLes chansons des Beatles,Téléchargements YouTube astucieux de robo-pop,producteurs ambiantsqui utilisent l'IA pour produire de nouveaux albums chaque semaine, même un algorithmesigné sur un label majeur. Les équipes d'ingénierie de Google, IBM et Spotify travaillent sans relâche pour faire progresser l'IA dans le domaine de la création musicale.

Mais l'album 2019 de Herndon,Proto, contient le premier enregistrement d'une IA sur un album de musique pop. Ici, elle explique comment elle a procédé.

Une grande partie de la recherche sur l’IA porte sur une époque musicale très particulière – 1850-1950 dans le canon occidental – où la hauteur, la longueur et le rythme des notes sont les plus importants. C'est vraiment ennuyeux parce que cela nous lie à cette époque particulière qui n'est plus d'actualité. Nous voulions que Spawn reflète notre communauté et nous voulions utiliser les voix des gens qui lui étaient spécifiques.

Les six premiers mois ont été plutôt inintéressants. Avec l’IA, vous disposez d’un canon de formation ; l'IA extrait un ensemble de règles du canon et l'applique à autre chose. Cela ne peut jamais sortir du canon. Lorsque cela est appliqué à une voix, l’IA essaie de comprendre l’ensemble des règles de la voix – la logique de la voix. Nous avons commencé à l'entraîner avec ma voix et celle de Mat, qui représentent toutes deux des centaines de mégaoctets d'informations d'entraînement de Spawn. Après six mois, nous avons obtenu des résultats légèrement plus intéressants. Cela a commencé à se produire lorsque j'ai arrêté d'utiliserTensorFlow, un programme principalement destiné à l'apprentissage visuel. (Si vous vouliez que votre portrait soit réalisé dans le style de Van Gogh, vous utiliseriez ceci.) Cela implique de transformer des fichiers sonores en spectrogrammes afin que l'IA puisse les « voir ». Mais en termes de timbre, c'était très lo-fi et tout sonnait pareil. Il n’y avait rien d’excitant dans le résultat. Nous sommes passés à SampleRNN, qui est utilisé pour la reconnaissance vocale. Avec SampleRNN, il prend tout ce qui est dans le canon de formation, puis il essaie de comprendre : si cet échantillon se produit, qu'est-ce qui viendrait probablement ensuite ? Le seul problème est que si je m'entraîne sur ma voix, elle a tendance à rester bloquée sur les voyelles. Lorsque nous parlons, nous allongeons nos voyelles, donc le programme essaie de deviner combien de temps exactement – et ensuite il reste bloqué.

Un premier exemple de jeu avec SampleRNN, dans lequel Spawn arrive quelque part en imitant le modèle vocal de Holly :

Les premiers mots et sons de Spawn ne sont apparus que lorsque nous sommes passés à une troisième méthode de modèle vocal. Cela nécessitait beaucoup plus d’audio. Nous avons utilisé des heures de ma voix. Cela prend ma voix pour parler et chanter et crée un modèle de ce à quoi cela ressemble. J'ai créé un ensemble de données dans lequel j'ai chanté des phrases aléatoires dans une plage confortable pour moi, comme :

Les couverts en aluminium sont souvent fragiles.

Elle portait une salopette chaude et molletonnée en laine.

La luzerne est saine pour vous.

Spawn digérerait ces informations, ce qui pourrait prendre de 1 à 20 minutes. Nous serions tous ensemble sur Slack et recevrions des mises à jour telles que : "Spawn a publié un nouveau morceau." Elle ferait ça tout le temps. Nous cliquions dessus et l'écoutions et, la plupart du temps, notre réponse était :hein. Et puis j'ai cliqué sur celui utilisé pour « Naissance » et j'ai répondu « Oui ! » C’était la première fois que j’étais enthousiasmé par le résultat. Parce que généralement, Spawn a une perspective tellement limitée. C'est à la fois super impressionnant et… terrible. C'est commeMon Dieu, tu es tellement stupide !

Spawn a des limites très réelles. La réverbération est vraiment difficile. Il ne pouvait pas comprendre la différence entre les formes des sons et leurs échos. Il recherche la différence, donc il aime vraiment que le public applaudisse ou secoue les touches, ou tape sur des bouteilles de bière, ou claque des doigts – tout cela sonne vraiment cool grâce à Spawn.

Spawn imite un public applaudissant :

Elle aime les transitoires. Les instruments à percussion ont les transitoires les plus importants de toute la famille d'instruments, dans le sens où le début du son est important, puis il décroît rapidement. Elle vit un piège et pensa :C'est un peu comme ce passage dont je me souviens quand Holly dit "T",et j'ai essayé de reproduire la caisse claire avec un son « T ». Pour nous, c’est nouveau. Le résultat est quelque peu intelligent, logique et surtout inattendu. Cela nous a surpris.

Spawn interprète la section rythmique de la chanson « Frontier ». Vous pouvez entendre comment il extrait différentes idées du modèle vocal de Holly :

C'est pourquoi lorsque vous écoutez « Godmother », cela ressemble à du beatboxing, qui est une combinaison de chant et de parole. Je ne l'entraînais pas au beatboxing. C'est tellement embarrassant que ce soit ce qu'elle a craché ! Je ne sais pas si c'était une bonne idée, mais c'était une idée. Ce n’était pas quelque chose que je lui avais spécifiquement dit de faire. J'ai essayé de chanter « Godmother » et je n'y arrive pas. C'est trop rapide. Spawn me surpasse.

Très bientôt, nous aurons des modèles vocaux très précis d'anciens chanteurs, et cela va soulever des questions sur ce que nous faisons avec les voix de nos ancêtres et de nos aïeux. J'avais l'habitude de dire que nous aurons une infinité de disques de Michael Jackson, mais cela n'arrivera probablement plus. Les disques infinis d’Aretha Franklin en sont peut-être le meilleur exemple !

À l’intérieur du premier album grand public au monde réalisé avec l’IA