VALL-E, un outil d’intelligence artificielle, développé par Microsoft, qui peut reproduire la voix de n’importe quelle personne. VALL-E est un nouveau modèle d’intelligence artificielle qui permet de simuler la voix d’une personne à partir d’un échantillon audio de seulement 3 secondes. Il s’agit plus précisément d’un modèle de langage pour la synthèse vocale (Text-To-Speech). VALL-E a été entraîné sur « 60 000 heures de parole anglaise, soit des centaines de fois plus que les systèmes existants ». De même il est en capacité de préserver le ton et l’émotion du speaker, ce qui permet une imitation encore plus humaine, et donc réelle.
Quelques exemples audio: VALL-E n’est pas encore disponible au grand public pour l’instant, en revanche, vous pouvez écouter des exemples audio sur cette page dédiée ( GitHub ICI). Cette page a été réalisée seulement à des fins de démonstration de recherche. C’est intéressant de voir ce que VALL-E peut donner concrètement à l’oral. Certains extraits audio fonctionnent bien, mais d’autres ont encore une voix de synthèse détectable. Tout n’est pas encore parfait du côté de VALL-E, mais les progrès ne cessent d’avancer.
VALL-E, un clin d’œil à DALL-E … Le nom VALL-E a clairement été inspiré de DALL-E, le générateur d’images par intelligence artificielle conçu par OpenAI. Et ce n’est pas une coïncidence. En ce début d’année, Microsoft semble tout miser sur la technologie d’OpenAI et pourrait même investir jusqu’à 10 milliards de dollars dans cette société selon la source Semafor. Microsoft aurait pour objectif d’intégrer le chatbot d’Open AI à ChatGPT à Word mais aussi à Bing, son moteur de recherche.