Une intelligence artificielle de Microsoft reproduit n’importe quelle voix en l’écoutant trois secondes

Microsoft dévoile une intelligence artificielle reproduisant la voix de n’importe qui à partir d’un court échantillon. Le tout en garantissant la même tonalité que la personne imitée.

Après l’image (notamment avec Dall-E) et le texte (avec ChatGPT), la voix semble le nouveau terrain de jeu de l’intelligence artificielle. Microsoft dévoile VALL-E, un outil capable de reproduire la voix de chacun à partir d’un échantillon de seulement trois secondes. La promesse du logiciel est d’être le plus fidèle possible dans son imitation.

Pour cela, Microsoft a alimenté son intelligence artificielle avec 60.000 heures de données parlées en anglais. La grande force de VALL-E est de pouvoir retranscrire la tonalité et l’émotion d’une personne. Il est ainsi possible d’obtenir une lecture incarnée quand bien même les mots prononcés ne figurent pas dans l’échantillon original. L’entreprise américaine a mis en ligne des exemples sur une page Web dédiée.”

Des usages dangereux?

Bien entendu, la voix générée sera d’autant plus réaliste que l’échantillon de départ sera long. Les fichiers audio de trois secondes sont la limite à partir de laquelle une imitation peut être produite. Mais des résultats plus fidèles peuvent être obtenus en donnant plus de matière à VALL-E.

Comme l’ensemble des contenus générés par une intelligence artificielle, cette technologie ouvre la voie aux usurpations. Des personnalités politiques ou des célébrités pourraient voir des messages non consentis (baptisés deep fakes) exprimés à partir d’un échantillon de leur voix.

VALL-E pose également de lourdes questions de sécurité. Comme le précise le site Windows Central, certains services (comme des banques) utilisent la voix de leurs usagers en guise de mot de passe.

Enfin, c’est surtout les activités artistiques qui pourraient le plus en pâtir. A partir d’un seul échantillon, VALL-E serait en mesure de gérer des tâches actuellement réservées aux humains. Notamment des doublages de films ou de séries, ou encore les livres audio.

Pour l’heure, Microsoft ne propose pas aux internautes de générer leurs propres synthèses vocales. L’entreprise assure qu’elle développera par ailleurs un outil chargé de détecter une “fausse voix”, afin de limiter au maximum les abus.

Ars Technica